- Humanity’s Last Exam ได้คะแนน 37.5% โดยไม่มีเครื่องมืออื่นเป็นตัวช่วย
- GPQA Diamond ได้คะแนน 91.9%
- MathArena Apex ได้คะแนน 23.4% ซึ่งถือเป็นคะแนนที่สูงที่สุดเท่าที่เคยมีการทดสอบโมเดล AI มา
- MMMU-Pro ได้คะแนน 81%
- Video-MMMU ได้คะแนน 87.6%
- SimpleQA Verified ได้คะแนน 72.1%