12 มิ.ย. เวลา 05:00 • ไอที & แก็ดเจ็ต

Meta เปิดตัว “V-JEPA 2” โมเดล AI ใหม่ เข้าใจโลกจริง เรียนรู้ได้เอง ไม่ต้องสอนหลายรอบ

Meta เปิดตัวโมเดล AI รุ่นใหม่ชื่อว่า “V-JEPA 2” (Video Joint Embedding Predictive Architecture 2) ซึ่งถูกออกแบบมาให้เป็น “World Model” หรือโมเดล AI ที่เข้าใจโลกแห่งความเป็นจริงรอบตัวได้ดีขึ้น สามารถตอบโต้สิ่งของและสภาพแวดล้อมที่ไม่เคยเห็นล่วงหน้าได้แบบ Zero-shot
หรือไม่ต้องฝึกในสถานการณ์นั้น ๆ ล่วงหน้า โดยเคลมว่าเร็วกว่าโมเดล Cosmos ของ Nvidia ซึ่งเป็นอีกโมเดลที่มุ่งพัฒนา AI ให้เข้าใจโลกจริงเช่นเดียวกันถึง 30 เท่า อย่างไรก็ตามทั้งสองบริษัทอาจใช้เกณฑ์วัดผลที่แตกต่างกันในการเปรียบเทียบประสิทธิภาพ
Yann LeCun หัวหน้านักวิทยาศาสตร์ด้าน AI ของ Meta หนึ่งในผู้เชี่ยวชาญด้าน AI ที่ได้รับการยอมรับในระดับโลก กล่าวในวิดีโอแนะนำ "เราเชื่อว่า World Models จะเปิดยุคใหม่ของหุ่นยนต์ ซึ่งจะสามารถช่วยงานบ้านหรือภารกิจทางกายภาพต่าง ๆ ได้ โดยไม่ต้องพึ่งพาข้อมูลฝึกหุ่นยนต์ในปริมาณมหาศาลอีกต่อไป"
  • รู้จัก “V-JEPA 2” โมเดลเตรียมรุกตลาดหุ่นยนต์
V-JEPA 2 เป็นโมเดลขนาด 1.2 พันล้านพารามิเตอร์ ที่ใช้สถาปัตยกรรม JEPA (Joint Embedding Predictive Architecture) ซึ่ง Meta เริ่มพัฒนาเมื่อปี 2022 โดยใช้ข้อมูลจากวิดีโอมากกว่า 1 ล้านชั่วโมงและภาพอีก 1 ล้านภาพในการเทรนเพื่อให้โมเดลเรียนรู้รูปแบบการเคลื่อนไหวของวัตถุและพฤติกรรมของมนุษย์ในสถานการณ์ต่าง ๆ
จากนั้นเริ่มเทรนด้วยข้อมูลจากหุ่นยนต์จริง โดยใส่ข้อมูล “การกระทำ” ของหุ่นยนต์เข้าไป เช่น การหยิบจับหรือวางสิ่งของ เพื่อให้โมเดลสามารถวางแผนและควบคุมหุ่นยนต์ได้จริง
ทั้งนี้ผลลัพธ์ที่ได้ คือ โมเดลจะสามารถวางแผนให้หุ่นยนต์สามารถเข้าใจและคาดการณ์สิ่งที่จะเกิดขึ้นในโลกจริงได้อย่างมีประสิทธิภาพ เช่น ทั้งการเข้าใจแรงโน้มถ่วงรวมถึงเหตุและผลที่เกิดขึ้นต่อเนื่องกัน
อีกทั้งสามารถทำงานในสภาพแวดล้อมใหม่ ๆ ได้ เช่น การหยิบสิ่งของที่ไม่เคยเห็นและวางมันในจุดใหม่ โดยใช้แค่ภาพเป้าหมายเป็นตัวกำหนดจุดหมาย ซึ่งสามารถปรับแผนใหม่ทุกวินาทีตามสถานการณ์ที่เปลี่ยนไป (Model-Predictive Control)
Meta ยกตัวอย่างว่า ความสามารถของ V-JEPA 2 เป็นความสามารถในลักษณะเดียวกับที่เด็กเล็กหรือสัตว์สามารถเรียนรู้ได้เอง เช่น เวลาที่เล่นโยนบอลกับสุนัข สุนัขจะเข้าใจโดยสัญชาตญาณว่า หากบอลกระเด้งจากพื้น มันจะลอยขึ้น และจะวิ่งไปยังจุดที่บอลน่าจะตกลงมา แทนที่จะวิ่งไปหาจุดที่บอลอยู่ในขณะนั้น
ในอีกตัวอย่างหนึ่ง Meta แสดงให้เห็นว่า หากหุ่นยนต์ถือจานกับพาย และกำลังเดินไปยังเตาที่มีไข่เจียวสุกอยู่ AI สามารถคาดการณ์ได้ว่า “การตักไข่ใส่จาน” คือ สิ่งที่น่าจะเกิดขึ้นเป็นลำดับถัดไป
โมเดลนี้ถือเป็นก้าวสำคัญของ Meta ในการมุ่งสู่เป้าหมาย “Advanced Machine Intelligence” (AMI) หรือปัญญาประดิษฐ์ระดับสูงที่สามารถเรียนรู้โลกได้แบบเดียวกับมนุษย์ สามารถวางแผน จัดลำดับการกระทำ และปรับตัวกับสถานการณ์ใหม่ ๆ ได้อย่างมีประสิทธิภาพโดย Meta ยังได้เปิดตัวชุดเกณฑ์วัดผล (benchmarks) ใหม่ 3 รายการ เพื่อประเมินว่าโมเดล AI ต่าง ๆ สามารถเข้าใจและให้เหตุผลเกี่ยวกับโลกจริงจากวิดีโอได้ดีเพียงใด
  • เป้าหมายด้าน Machine Intelligence
Meta ระบุว่า เป้าหมายการพัฒนาโมเดล AI นั้นต้องการพัฒนาโมเดลที่สามารถวางแผนในช่วงเวลาหลายระดับ (Multi-Scale Planning) เช่น การจัดลำดับย่อยของงานใหญ่ อย่างการล้างจานหรือทำอาหาร พร้อมขยายไปสู่โมเดลแบบ Multimodal ที่เข้าใจข้อมูลจากทั้งภาพ เสียง และการสัมผัส
ปัจจุบัน Meta เปิดให้ V-JEPA 2 พร้อมให้ใช้งานในเชิงวิจัยและเชิงพาณิชย์ พร้อมกับเปิดโค้ดและจุด checkpoint เพื่อให้ชุมชนนักวิจัยได้ร่วมพัฒนาต่อยอดสู่ยุคใหม่ของ AI ที่เข้าใจโลกจริงอย่างแท้จริง
อ้างอิงข้อมูลจาก Meta
ติดตามเพจ Facebook : Thairath Money ได้ที่ลิงก์นี้ -
โฆษณา