27 ม.ค. เวลา 15:36 • วิทยาศาสตร์ & เทคโนโลยี

สรุปเปเปอร์ DeepSeek

เสาร์อาทิตย์ที่ผ่านมาได้มีโอกาสอ่านเปเปอร์ DeepSeek ผ่านๆ ต้องบอกเลยว่าบันเทิงมาก เห็นได้ถึงความพยายามทำงานภายใต้ข้อจำกัด และไอเดียเจ๋งๆ ในการแก้ปัญหา โดยไม่ยึดติดกับกรอบเดิมๆ และที่สำคัญเปเปอร์นี้มีผู้แต่งร้อยกว่าคน ใช่ครับไม่ผิด ร้อยกว่าคน นี่แสดงให้เห็นถึงความร่วมมือของนักวิจัยจำนวนมาก และผมไม่มีเวลาไปหาประวัติผู้แต่งทั้งหมด แต่เข้าใจว่าบางคนก็ไม่ได้เป็นพนักงานของ DeepSeek
ในช่วงไม่กี่ปีที่ผ่านมา วงการปัญญาประดิษฐ์ (AI) ได้ก้าวหน้าอย่างรวดเร็ว โดยมีโมเดลภาษาขนาดใหญ่ (Large Language Models - LLMs) หนึ่งในโมเดลที่ล้ำที่สุดคือ o1 ของ OpenAI ซึ่งได้นำเทคนิคการปรับปรุงความสามารถในการให้เหตุผลแบบคิดเป็นขั้นเป็นตอน (chain of thought) มาใช้ และประสบความสำเร็จในการแก้ปัญหาที่ซับซ้อนอย่างน่าทึ่ง อย่างไรก็ตาม โมเดล o1 เป็นระบบปิด (closed source)
งานวิจัยนี้ถ้าให้แปลเป็นไทยคงชื่อว่า “DeepSeek-R1: การกระตุ้นความสามารถในการให้เหตุผลใน LLMs ด้วยการเรียนรู้เสริม (Reinforcement Learning)” งานวิจัยนี้ได้นำเสนอโมเดลการให้เหตุผล (Reasoning Model) ที่ล้ำสมัยแบบโอเพนซอร์ส และอธิบายวิธีการฝึกโมเดลด้วย Reinforcement Learning ในขนาดใหญ่
ก่อนอื่น เรามาทบทวนกระบวนการฝึกโมเดลภาษาขนาดใหญ่ที่โมเดลทั่วไปทำกัน
โดยทั่วไป โมเดลภาษาขนาดใหญ่มีการฝึกสามขั้นตอนหลัก:
1
1. Pre-training (การฝึกขั้นต้น)
โมเดลถูกฝึกด้วยข้อมูลข้อความและโค้ดจำนวนมหาศาลเพื่อให้เรียนรู้ความรู้พื้นฐานทั่วไป ขั้นตอนนี้ช่วยให้โมเดลสามารถทำนายคำถัดไปในลำดับข้อความได้ ตัวอย่างเช่น หากป้อนข้อความว่า “write a bedtime _” โมเดลจะสามารถเติมคำที่เหมาะสม เช่น “story” ขั้นตอนนี้เป็นเหมือนการฝึกเด็กให้พูดได้ สื่อสารได้
2. Supervised Fine-tuning (การปรับแต่งด้วยการควบคุม)
หลังจากฝึกขั้นต้น โมเดลถึงแม้จะต่อเติมประโยคได้ แต่ยังคงมีปัญหาในการทำตามคำสั่งของมนุษย์ ซึ่งในขั้นตอนนี้ โมเดลจะถูกปรับแต่งเพิ่มเติมด้วยชุดข้อมูลคำสั่ง (instruction dataset) ที่มีคู่คำสั่งและคำตอบ เพื่อทำให้โมเดลสามารถทำตามคำสั่งได้ดีขึ้น
3. Reinforcement Learning (การเรียนรู้เสริม)
โมเดลได้รับการพัฒนาเพิ่มเติมด้วยการเรียนรู้จากคำติชม (feedback) วิธีหนึ่งที่ทรงพลังคือ Reinforcement Learning from Human Feedback (RLHF) โดยใช้ข้อมูลจากคำติชมของมนุษย์
อย่างไรก็ตาม การรวบรวมคำติชมที่มีคุณภาพสูงในปริมาณมากสำหรับงานที่ซับซ้อนเป็นเรื่องที่ท้าทาย และมีต้นทุนสูง ซึ่งอีกทางเลือกคือ Reinforcement Learning from AI Feedback (RLAIF) ซึ่งใช้ AI ให้คำติชมแทน
ในเปเปอร์นี้ค่อยๆ เล่าความเป็นไปของโมเดลต่างๆ และการเอาโมเดลต่างๆ มาต่อยอดกันจนเป็นโมเดลปัจจุบัน
DeepSeek-R1-Zero: โมเดลแรก
DeepSeek-R1-Zero ใช้วิธีใหม่ที่ไม่ต้องใช้ขั้นตอนการปรับแต่งด้วยการควบคุม (Supervised Fine-tuning) โดยเริ่มต้นจากโมเดล DeepSeek-V3-Base ที่มีขนาด 671 พันล้านพารามิเตอร์ และใช้ Rule-based Reinforcement Learning ซึ่งเรียกว่า Group Relative Policy Optimization (GRPO) แทน RLHF หรือ RLAIF
ใน GRPO นี้ โมเดลจะสร้างคำตอบหลายชุดจากปัญหาที่ป้อนเข้า และแต่ละคำตอบจะได้รับคะแนนรางวัลตามกฎที่กำหนดไว้ เช่น
1
- รางวัลความถูกต้อง (Accuracy Reward): ใช้สำหรับปัญหาคณิตศาสตร์ที่มีคำตอบชัดเจน หรือปัญหาโค้ดที่มีกรณีทดสอบ (test cases)
- รางวัลรูปแบบ (Format Reward): สร้างความมั่นใจว่าโมเดลจะตอบตามรูปแบบที่กำหนด เช่น การใส่กระบวนการคิดในแท็ก <think> และคำตอบในแท็ก <answer>
วิธีนี้ช่วยลดความซับซ้อนและต้นทุนการฝึกโมเดลในขนาดใหญ่ได้
DeepSeek-R1: โมเดลที่สอง
แม้ DeepSeek-R1-Zero จะมีความสามารถโดดเด่น แต่ยังมีปัญหาด้านความอ่านง่ายและการผสมภาษาในคำตอบ เช่นบางทีมีการตอบจีนคำอังกฤษคำ แต่พอไปบังคับมห้มันตอบเป็นภาษาเดียว มันกลับทำงานได้แย่กว่าเดิม
โมเดล DeepSeek-R1 ถูกฝึกใน 4 เฟสเพื่อแก้ปัญหานี้ แต่เอา DeepSeek-R1-Zero มาช่วยฝึกโมเดลใหม่นี้โดยแบ่งเป็นสี่ขั้นตอนดังนี้:
1. Cold Start
ใช้ชุดข้อมูลคำตอบคุณภาพสูงจาก DeepSeek-R1-Zero มาปรับแต่งโมเดลเริ่มต้น
2. Reasoning Reinforcement Learning
ใช้การเรียนรู้เสริมสำหรับงานที่ต้องการเหตุผล เช่น คณิตศาสตร์ โค้ด และวิทยาศาสตร์
3. Rejection Sampling และ Supervised Fine-tuning
สร้างตัวอย่างจำนวนมาก เลือกเฉพาะตัวอย่างที่ถูกต้องและอ่านง่าย แล้วนำไปฝึกโมเดลเพิ่มเติม
4. Final Reinforcement Learning
ใช้ทั้งรางวัลแบบกฎ (rule-based rewards) และคำติชมจากโมเดลภาษาอื่น (เช่นเอา Llama และ Qwen มาให้คะแนน เป็นต้น)
ผลลัพธ์ที่ได้
DeepSeek-R1 สามารถแข่งขันและในบางกรณีก็เหนือกว่า OpenAI’s o1 บนเกณฑ์วัดการให้เหตุผล เช่น ชุดข้อมูล AIME และยังมีโมเดลขนาดเล็กกว่า (32 พันล้านพารามิเตอร์) ที่ถูกสร้างขึ้นจากการกลั่นกรองข้อมูลเป็นอย่างดี ทำให้เป็นทางเลือกที่มีประสิทธิภาพสำหรับผู้ใช้ทั่วไป
นอกจากนี้ ยังมีดารพูดถึงเทคนิคต่างๆ ในการใช้ทรัพยากรที่จำกัดให้มีประสิทธิภาพสูงสุด เช่น
1. Multi-head latent attention
2. Auxiliary loss-free strategy
3. Multi-token prediction training objective
4. Extensive training pipeline
ซึ่งไม่ขออธิบายในรายละเอียด เพราะซับซ้อนไปหน่อย ใครอยากรู้รายละเอียด ลองไปอ่านเพิ่มเติมกันดู แต่ตรงส่วนนี้แสดงให้เห็นชัดเจนว่า ทางทีมใช้สมองกันหนักมากในการหาวิธีการทะลุข้อจำกัดต่างๆ ช่างต่างกับแนวทางของนักวิจัยในสหรัฐที่แก้ไขปัญหาด้วยเงินยิ่งนัก
1
งานวิจัยนี้แสดงให้เห็นถึงศักยภาพของโมเดล AI แบบโอเพนซอร์ส และการพัฒนาการให้เหตุผลโดยไม่ต้องอาศัยการปรับแต่งที่ซับซ้อน
อ้างอิง: https://arxiv.org/abs/2501.12948
โฆษณา