7 ก.พ. เวลา 11:23 • ไอที & แก็ดเจ็ต

Anthropic เปิดตัวระบบป้องกันการเจาะโมเดล AI

โดย
Anthropic บริษัทพัฒนา AI ได้เปิดตัวระบบป้องกันการเจาะโมเดล AI ชื่อ Constitutional Classifiers เพื่อป้องกันไม่ให้ผู้ใช้งานสามารถหลอกล่อโมเดลให้ให้คำตอบที่เป็นอันตรายหรือไม่เหมาะสม
  • ​ปัญหา
โมเดลภาษาขนาดใหญ่ (LLM) มักมีช่องโหว่ที่ผู้ใช้งานสามารถใช้คำสั่ง หรือ คำถามที่ออกแบบมาเป็นพิเศษ (Prompt Engineering) เพื่อหลอกล่อให้โมเดลให้คำตอบที่ไม่เหมาะสมหรือเป็นอันตรายได้
  • ​วิธีแก้ไข
○ Constitutional Classifiers
ระบบนี้ทำงานโดยการให้โมเดล AI มี "กฎ" หรือ "หลักการ" (constitution) เป็นของตัวเอง ซึ่งจะกำหนดว่าโมเดลสามารถตอบคำถามอะไรได้บ้าง และ อะไรบ้างที่ไม่ควรตอบ
○ สร้างชุดข้อมูลขนาดใหญ่ ทีมงานของ Anthropic ได้สร้างชุดข้อมูลขนาดใหญ่ของคำถามที่อาจนำไปสู่การตอบคำตอบที่ไม่เหมาะสม เพื่อฝึกโมเดลให้สามารถระบุ และ ป้องกันได้
○ ทดสอบอย่างเข้มข้น
ทีมงานได้เชิญผู้เชี่ยวชาญมาทดสอบระบบป้องกันนี้เป็นจำนวนมาก เพื่อให้มั่นใจว่าระบบมีความแข็งแกร่งเพียงพอ
  • ​จุดเด่นของระบบนี้
○ ป้องกันการเจาะได้หลากหลายรูปแบบ
ระบบนี้สามารถป้องกันการเจาะโมเดลได้หลากหลายรูปแบบ ไม่ว่าจะเป็นการใช้คำสั่งที่ซับซ้อน หรือ การหลอกล่อโมเดล
○ มีประสิทธิภาพสูง
จากการทดสอบพบว่าระบบนี้สามารถป้องกันการเจาะโมเดลได้เป็นอย่างดี
○ เปิดโอกาสให้ผู้ใช้งานร่วมทดสอบ
Anthropic เปิดโอกาสให้ผู้ใช้งานทั่วไปสามารถเข้ามาร่วมทดสอบระบบ และ แจ้งข้อผิดพลาด เพื่อพัฒนาระบบให้ดียิ่งขึ้น
✏️ Shoper Gamer
Credit :
👇
  • ​https://www.blognone.com/node/144516
โฆษณา