24 ก.พ. เวลา 07:25 • ไอที & แก็ดเจ็ต

Anthropic กล่าวหาว่า AI จีนมาขโมยความลับโมเดลของตัวเอง

ผ่านการสร้างบัญชีปลอมกว่า 24,000 บัญชี และมีการสนทนามากกว่า 16 ล้านครั้ง
โดยทาง Anthropic ได้ระบุและเปิดเผยกระบวนการระดับอุตสาหกรรมที่ดำเนินการโดยห้องปฏิบัติการ AI (AI Labs) สามแห่ง ได้แก่ DeepSeek, Moonshot และ MiniMax ซึ่งได้ทำการดึงความสามารถของโมเดล Claude ไปใช้อย่างผิดกฎหมายเพื่อนำไปปรับปรุงโมเดลของตนเอง การกระทำดังกล่าวละเมิดเงื่อนไขการให้บริการ (Terms of Service) และข้อจำกัดการเข้าใช้งานตามภูมิภาค โดยกลุ่มเหล่านี้ได้สร้างบทสนทนากับ Claude รวมกว่า 16 ล้านครั้ง ผ่านบัญชีปลอมประมาณ 24,000 บัญชี
ห้องปฏิบัติการเหล่านี้ใช้เทคนิคที่เรียกว่า "การกลั่นความรู้" (Distillation) ซึ่งคือการฝึกสอนโมเดลที่มีความสามารถต่ำกว่าโดยใช้ผลลัพธ์ (Outputs) จากโมเดลที่เก่งกว่า แม้ว่าการกลั่นความรู้จะเป็นวิธีที่ถูกต้องและใช้กันทั่วไปในวงการ (เช่น การสร้างโมเดลรุ่นเล็กที่ราคาถูกลง) แต่ในกรณีนี้ถือเป็นการใช้งานผิดวัตถุประสงค์เพื่อขโมยความสามารถระดับสูง โดยใช้เวลาและต้นทุนเพียงเสี้ยวเดียวของการพัฒนาด้วยตนเอง
ทั้งสามเจ้ามีรูปแบบคล้ายกันคือใช้บัญชีปลอมและบริการ Proxy เพื่อเข้าถึง Claude ในปริมาณมหาศาล โดยเน้นเจาะจงไปที่ความสามารถที่โดดเด่นที่สุดของ Claude คือ การใช้เหตุผล (Reasoning), การใช้เครื่องมือ (Tool use) และการเขียนโค้ด (Coding)
1️⃣ DeepSeek (กว่า 150,000 การสนทนา)
• เน้นความสามารถด้านการใช้เหตุผล และงานประเมินผล (Grading tasks) เพื่อใช้ Claude เป็นตัวให้คะแนนสำหรับระบบ Reinforcement Learning
• พยายามสร้างข้อมูลเพื่อสอนโมเดลของตนให้หลีกเลี่ยงการเซ็นเซอร์ในหัวข้อที่ละเอียดอ่อนทางการเมือง
• ใช้เทคนิคให้ Claude อธิบายกระบวนการคิดทีละขั้นตอน (Chain-of-thought) เพื่อนำไปเป็นข้อมูลฝึกฝน
2️⃣ Moonshot AI (กว่า 3.4 ล้านการสนทนา):
• เน้นการใช้เหตุผลแบบตัวแทน (Agentic reasoning), การเขียนโค้ด, การวิเคราะห์ข้อมูล และ Computer vision
• ใช้บัญชีปลอมหลายประเภทเพื่อหลบเลี่ยงการจับผิด แต่ถูกระบุตัวตนได้ผ่าน Metadata ที่เชื่อมโยงกับโปรไฟล์สาธารณะของพนักงานระดับสูง
3️⃣ MiniMax (กว่า 13 ล้านการสนทนา):
• เน้นการเขียนโค้ดและการใช้เครื่องมือ (Tool use)
• กระบวนการนี้ถูกตรวจพบขณะกำลังดำเนินการ ทำให้ Anthropic เห็นวงจรการโจมตีทั้งหมด เมื่อ Anthropic ปล่อยโมเดลใหม่ MiniMax ก็ปรับเปลี่ยนเป้าหมายการโจมตีไปยังโมเดลใหม่นั้นภายใน 24 ชั่วโมงทันที
เทคนิคการเช้าถึง
ตอนผมไปเที่ยวจีน ผมแปลกใจมากว่า AI ฝรั่งมันไม่ work ในจีนเลย ไม่ว่าจะผ่าน proxy ห่วยๆ ที่ผมมีเลย ผมเลยเพิ่งถึงบางอ้อว่าเพราะจีนมันพยายามก็อปปี้หนักมากนี่เอง
เนื่องจาก Anthropic ไม่ให้บริการในจีน ห้องปฏิบัติการเหล่านี้จึงใช้วิธี:
• บริการ Proxy เชิงพาณิชย์: ใช้บริการที่เรียกว่า "Hydra cluster" ซึ่งเป็นเครือข่ายบัญชีปลอมขนาดใหญ่ที่กระจาย Traffic ไปยังผู้ให้บริการคลาวด์หลายแห่ง ทำให้ไม่มีจุดล้มเหลวเพียงจุดเดียว (Single point of failure)
• รูปแบบ Prompt ที่ผิดปกติ: แม้ Prompt เดียวอาจดูปกติ แต่เมื่อมีการส่ง Prompt รูปแบบเดิมซ้ำๆ เป็นหมื่นครั้งจากหลายบัญชี เพื่อดึงความสามารถเฉพาะด้าน จะทำให้รูปแบบการโจมตีชัดเจนขึ้น
การตอบโต้ของ Anthropic
1. การตรวจจับ (Detection): สร้างระบบจำแนกและระบุพฤติกรรม (Fingerprinting) เพื่อตรวจจับรูปแบบการโจมตี เช่น การพยายามดึงข้อมูล Chain-of-thought
2. การแชร์ข้อมูลข่าวกรอง (Intelligence sharing): แบ่งปันข้อมูลทางเทคนิคกับแล็บ AI อื่นๆ ผู้ให้บริการคลาวด์ และหน่วยงานที่เกี่ยวข้อง
3. การควบคุมการเข้าถึง (Access controls): เพิ่มความเข้มงวดในการตรวจสอบบัญชีเพื่อการศึกษาและวิจัย ซึ่งมักเป็นช่องทางที่ถูกใช้สร้างบัญชีปลอม
4. มาตรการตอบโต้ (Countermeasures): พัฒนาระบบที่ลดประสิทธิภาพของผลลัพธ์โมเดลเมื่อถูกนำไปใช้กลั่นความรู้ โดยไม่กระทบต่อผู้ใช้งานจริง (เช่น แกล้งตอบคำถามผิดๆ)
ส่วนตัวผมคิดว่า โมเดลจีนตามมาทันเร็วมากๆ ครับ เร็วจนน่ากลัว ซึ่งการใช้เทคนิค distillation แบบนี้ล่ะ เป็นเทคนิคหลักในการพัฒนาเลยครับ
โฆษณา