16 เม.ย. เวลา 16:35 • วิทยาศาสตร์ & เทคโนโลยี

Claude Opus 4.6: ปัญหาคอขวดและวิกฤติศรัทธา Claude Opus 4.7: ทวงคืนบัลลังก์ด้วยระบบ Agent อัตโนมัติ

หากเราโฟกัสดัชนีชี้วัดที่เป็นหัวใจสำคัญของการทำงานในสายวิศวกรรมซอฟต์แวร์และการวิเคราะห์เชิงตรรกะ จะพบจุดเปรียบเทียบที่น่าสนใจดังนี้:
การเขียนโค้ดแบบอัตโนมัติระดับสูง (Agentic coding - SWE-bench Verified)
Mythos Preview: 93.9%
Opus 4.7: 87.6%
ส่วนต่าง: Mythos นำอยู่ 6.3%
แม้ Opus 4.7 จะทำคะแนนได้น่าประทับใจมากสำหรับการใช้งานเชิงพาณิชย์ แต่ Mythos ยังคงแสดงให้เห็นถึงความเหนือชั้นในการจัดการกับฐานรหัส (Codebase) ที่ซับซ้อนและการแก้บั๊กแบบอิสระ
โฆษณา