[ณัฐมาคุย] สรุปเปเปอร์ DeepSeek เสาร์อาทิตย์ที่ผ่านมาได้มีโอกาสอ่านเปเปอร์ DeepSeek ผ่านๆ ต้องบอกเลยว่าบันเทิงมาก เห็นได้ถึงความพยายามทำงานภายใต้ข้อจำกัด และไอเดียเจ๋งๆ ในการแก้ปัญหา โดยไม่ยึดติดกับกรอบเดิมๆ และ

สำรวจ
ลงทุน
คำถาม

มีบัญชีอยู่แล้ว?หรือ

•

27 ม.ค. เวลา 15:36 • วิทยาศาสตร์ & เทคโนโลยี

สรุปเปเปอร์ DeepSeek

เสาร์อาทิตย์ที่ผ่านมาได้มีโอกาสอ่านเปเปอร์ DeepSeek ผ่านๆ ต้องบอกเลยว่าบันเทิงมาก เห็นได้ถึงความพยายามทำงานภายใต้ข้อจำกัด และไอเดียเจ๋งๆ ในการแก้ปัญหา โดยไม่ยึดติดกับกรอบเดิมๆ และที่สำคัญเปเปอร์นี้มีผู้แต่งร้อยกว่าคน ใช่ครับไม่ผิด ร้อยกว่าคน นี่แสดงให้เห็นถึงความร่วมมือของนักวิจัยจำนวนมาก และผมไม่มีเวลาไปหาประวัติผู้แต่งทั้งหมด แต่เข้าใจว่าบางคนก็ไม่ได้เป็นพนักงานของ DeepSeek

ในช่วงไม่กี่ปีที่ผ่านมา วงการปัญญาประดิษฐ์ (AI) ได้ก้าวหน้าอย่างรวดเร็ว โดยมีโมเดลภาษาขนาดใหญ่ (Large Language Models - LLMs) หนึ่งในโมเดลที่ล้ำที่สุดคือ o1 ของ OpenAI ซึ่งได้นำเทคนิคการปรับปรุงความสามารถในการให้เหตุผลแบบคิดเป็นขั้นเป็นตอน (chain of thought) มาใช้ และประสบความสำเร็จในการแก้ปัญหาที่ซับซ้อนอย่างน่าทึ่ง อย่างไรก็ตาม โมเดล o1 เป็นระบบปิด (closed source)

งานวิจัยนี้ถ้าให้แปลเป็นไทยคงชื่อว่า “DeepSeek-R1: การกระตุ้นความสามารถในการให้เหตุผลใน LLMs ด้วยการเรียนรู้เสริม (Reinforcement Learning)” งานวิจัยนี้ได้นำเสนอโมเดลการให้เหตุผล (Reasoning Model) ที่ล้ำสมัยแบบโอเพนซอร์ส และอธิบายวิธีการฝึกโมเดลด้วย Reinforcement Learning ในขนาดใหญ่

ก่อนอื่น เรามาทบทวนกระบวนการฝึกโมเดลภาษาขนาดใหญ่ที่โมเดลทั่วไปทำกัน

โดยทั่วไป โมเดลภาษาขนาดใหญ่มีการฝึกสามขั้นตอนหลัก:

1. Pre-training (การฝึกขั้นต้น)

โมเดลถูกฝึกด้วยข้อมูลข้อความและโค้ดจำนวนมหาศาลเพื่อให้เรียนรู้ความรู้พื้นฐานทั่วไป ขั้นตอนนี้ช่วยให้โมเดลสามารถทำนายคำถัดไปในลำดับข้อความได้ ตัวอย่างเช่น หากป้อนข้อความว่า “write a bedtime _” โมเดลจะสามารถเติมคำที่เหมาะสม เช่น “story” ขั้นตอนนี้เป็นเหมือนการฝึกเด็กให้พูดได้ สื่อสารได้

2. Supervised Fine-tuning (การปรับแต่งด้วยการควบคุม)

หลังจากฝึกขั้นต้น โมเดลถึงแม้จะต่อเติมประโยคได้ แต่ยังคงมีปัญหาในการทำตามคำสั่งของมนุษย์ ซึ่งในขั้นตอนนี้ โมเดลจะถูกปรับแต่งเพิ่มเติมด้วยชุดข้อมูลคำสั่ง (instruction dataset) ที่มีคู่คำสั่งและคำตอบ เพื่อทำให้โมเดลสามารถทำตามคำสั่งได้ดีขึ้น

3. Reinforcement Learning (การเรียนรู้เสริม)

โมเดลได้รับการพัฒนาเพิ่มเติมด้วยการเรียนรู้จากคำติชม (feedback) วิธีหนึ่งที่ทรงพลังคือ Reinforcement Learning from Human Feedback (RLHF) โดยใช้ข้อมูลจากคำติชมของมนุษย์

อย่างไรก็ตาม การรวบรวมคำติชมที่มีคุณภาพสูงในปริมาณมากสำหรับงานที่ซับซ้อนเป็นเรื่องที่ท้าทาย และมีต้นทุนสูง ซึ่งอีกทางเลือกคือ Reinforcement Learning from AI Feedback (RLAIF) ซึ่งใช้ AI ให้คำติชมแทน

ในเปเปอร์นี้ค่อยๆ เล่าความเป็นไปของโมเดลต่างๆ และการเอาโมเดลต่างๆ มาต่อยอดกันจนเป็นโมเดลปัจจุบัน

DeepSeek-R1-Zero: โมเดลแรก

DeepSeek-R1-Zero ใช้วิธีใหม่ที่ไม่ต้องใช้ขั้นตอนการปรับแต่งด้วยการควบคุม (Supervised Fine-tuning) โดยเริ่มต้นจากโมเดล DeepSeek-V3-Base ที่มีขนาด 671 พันล้านพารามิเตอร์ และใช้ Rule-based Reinforcement Learning ซึ่งเรียกว่า Group Relative Policy Optimization (GRPO) แทน RLHF หรือ RLAIF

ใน GRPO นี้ โมเดลจะสร้างคำตอบหลายชุดจากปัญหาที่ป้อนเข้า และแต่ละคำตอบจะได้รับคะแนนรางวัลตามกฎที่กำหนดไว้ เช่น

- รางวัลความถูกต้อง (Accuracy Reward): ใช้สำหรับปัญหาคณิตศาสตร์ที่มีคำตอบชัดเจน หรือปัญหาโค้ดที่มีกรณีทดสอบ (test cases)

- รางวัลรูปแบบ (Format Reward): สร้างความมั่นใจว่าโมเดลจะตอบตามรูปแบบที่กำหนด เช่น การใส่กระบวนการคิดในแท็ก <think> และคำตอบในแท็ก <answer>

วิธีนี้ช่วยลดความซับซ้อนและต้นทุนการฝึกโมเดลในขนาดใหญ่ได้

DeepSeek-R1: โมเดลที่สอง

แม้ DeepSeek-R1-Zero จะมีความสามารถโดดเด่น แต่ยังมีปัญหาด้านความอ่านง่ายและการผสมภาษาในคำตอบ เช่นบางทีมีการตอบจีนคำอังกฤษคำ แต่พอไปบังคับมห้มันตอบเป็นภาษาเดียว มันกลับทำงานได้แย่กว่าเดิม

โมเดล DeepSeek-R1 ถูกฝึกใน 4 เฟสเพื่อแก้ปัญหานี้ แต่เอา DeepSeek-R1-Zero มาช่วยฝึกโมเดลใหม่นี้โดยแบ่งเป็นสี่ขั้นตอนดังนี้:

1. Cold Start

ใช้ชุดข้อมูลคำตอบคุณภาพสูงจาก DeepSeek-R1-Zero มาปรับแต่งโมเดลเริ่มต้น

2. Reasoning Reinforcement Learning

ใช้การเรียนรู้เสริมสำหรับงานที่ต้องการเหตุผล เช่น คณิตศาสตร์ โค้ด และวิทยาศาสตร์

3. Rejection Sampling และ Supervised Fine-tuning

สร้างตัวอย่างจำนวนมาก เลือกเฉพาะตัวอย่างที่ถูกต้องและอ่านง่าย แล้วนำไปฝึกโมเดลเพิ่มเติม

4. Final Reinforcement Learning

ใช้ทั้งรางวัลแบบกฎ (rule-based rewards) และคำติชมจากโมเดลภาษาอื่น (เช่นเอา Llama และ Qwen มาให้คะแนน เป็นต้น)

ผลลัพธ์ที่ได้

DeepSeek-R1 สามารถแข่งขันและในบางกรณีก็เหนือกว่า OpenAI’s o1 บนเกณฑ์วัดการให้เหตุผล เช่น ชุดข้อมูล AIME และยังมีโมเดลขนาดเล็กกว่า (32 พันล้านพารามิเตอร์) ที่ถูกสร้างขึ้นจากการกลั่นกรองข้อมูลเป็นอย่างดี ทำให้เป็นทางเลือกที่มีประสิทธิภาพสำหรับผู้ใช้ทั่วไป

นอกจากนี้ ยังมีดารพูดถึงเทคนิคต่างๆ ในการใช้ทรัพยากรที่จำกัดให้มีประสิทธิภาพสูงสุด เช่น

1. Multi-head latent attention

2. Auxiliary loss-free strategy

3. Multi-token prediction training objective

4. Extensive training pipeline

ซึ่งไม่ขออธิบายในรายละเอียด เพราะซับซ้อนไปหน่อย ใครอยากรู้รายละเอียด ลองไปอ่านเพิ่มเติมกันดู แต่ตรงส่วนนี้แสดงให้เห็นชัดเจนว่า ทางทีมใช้สมองกันหนักมากในการหาวิธีการทะลุข้อจำกัดต่างๆ ช่างต่างกับแนวทางของนักวิจัยในสหรัฐที่แก้ไขปัญหาด้วยเงินยิ่งนัก

งานวิจัยนี้แสดงให้เห็นถึงศักยภาพของโมเดล AI แบบโอเพนซอร์ส และการพัฒนาการให้เหตุผลโดยไม่ต้องอาศัยการปรับแต่งที่ซับซ้อน

อ้างอิง: https://arxiv.org/abs/2501.12948

โฆษณา

ดาวน์โหลดแอปพลิเคชัน

สรุปเปเปอร์ DeepSeek

ดาวน์โหลดแอปพลิเคชัน