4 มี.ค. เวลา 05:16 • วิทยาศาสตร์ & เทคโนโลยี

ตอนที่ 3: AI เรียนรู้ภาษาอย่างไร และวิกฤติการ Unlearn ของมนุษย์

ก่อนที่เราจะเข้าใจว่าโมเดลอย่าง GPT หรือ Claude ทำงานอย่างไร เราต้องตระหนักก่อนว่านักวิจัยและวิศวกรผู้อยู่เบื้องหลัง AI ระดับโลก ต่างต้องทุ่มเททรัพยากรมหาศาลเพื่อสร้าง Pre-training Model (ซึ่งรวมถึง Decoding Model) ให้แข็งแกร่งที่สุดเท่าที่จะเป็นไปได้ ก่อนที่จะเริ่มสอนทักษะซับซ้อนอื่นๆ ให้กับ AI
📈 การวิวัฒนาการของแบบจำลองทางภาษาของ AI (NLP)
Word Vector Models (ปี 2013): Word2Vec แปลงคำให้เป็นเวกเตอร์ตัวเลขในพื้นที่มิติสูง (เข้าใจความสัมพันธ์ เช่น king - man + woman ≈ queen)
Seq2Seq + LSTM (ปี 2014–2016): แนะนำสถาปัตยกรรมแบบ Encoder-Decoder สำหรับงานแปลภาษา
Transformer & Attention Is All You Need (ปี 2017): ยกเลิกการใช้เครือข่ายแบบ Recurrent และหันมาประมวลผล Token ขาเข้าทั้งหมดพร้อมกัน ซึ่งเป็นการปฏิวัติวงการอย่างแท้จริง
BERT (ปี 2018): Encoder Model ที่ปฏิวัติวงการ Transfer Learning ผ่านเทคนิค Masked Language Modeling และ Next Sentence Prediction
ซีรีส์ GPT (ปี 2018–2020): Decoder Model ที่ใช้การประมวลผลแบบ Autoregressive (ทำนายคำถัดไป) โดย GPT-3 ประสบความสำเร็จในการทำ In-context Learning (Zero-shot/Few-shot learning)
ChatGPT (ปี 2022): ยุค Generative AI ซึ่งขับเคลื่อนอย่างหนักด้วย RLHF (Reinforcement Learning from Human Feedback) เพื่อปรับให้โมเดลสอดคล้องกับเจตจำนงของมนุษย์
Native Multimodal (ปี 2023–ปัจจุบัน): โมเดล (อย่าง Gemini และ GPT-4o) ถูกออกแบบมาให้ประมวลผลข้อมูลขาเข้าแบบผสมผสาน (ข้อความ, ภาพ, เสียง) ภายในโครงข่ายประสาทเทียมเดียวกันตั้งแต่ต้นตอ โดยใช้การเรียนรู้แบบเป็นลำดับขั้น (Staged/Curriculum Learning) เพื่อป้องกันไม่ให้ค่าน้ำหนัก (Weights) พังทลาย
🔍 The Multimodal Literacy Hypothesis: วิเคราะห์การอ่านของมนุษย์ผ่านเลนส์ AI
(⚠️ ข้อควรทราบ: แนวคิดนี้เป็นการเปรียบเทียบเชิงแนวคิดที่ผู้เขียนสังเคราะห์ขึ้น เพื่อการตีความและตั้งคำถาม)
เป็นเวลาหลายทศวรรษที่วิศวกรพยายามสร้างโครงข่ายประสาทเทียมให้เรียนรู้ได้เหมือนมนุษย์ แต่ที่ตลกร้ายคือ เมื่อเราวิเคราะห์สถาปัตยกรรมของ AI ขั้นสูง โดยเฉพาะโมเดลแบบ Native Multimodal เรากลับพบคำอธิบายที่ชัดเจนว่า ทำไมวิธีการสอนเด็กปฐมวัยบางวิธีถึงสร้างความเสียหายต่อการเรียนรู้ในระยะยาว
ทฤษฎี Multimodal Literacy Hypothesis ตั้งอยู่บนสมมติฐานที่ว่า สมองของเด็กปฐมวัยเปรียบเสมือน Foundation Model ที่กำลังอยู่ในช่วง Pre-training วิธีการสอนและ "จังหวะเวลา" ที่ป้อนข้อมูล จะเป็นตัวกำหนดสถาปัตยกรรมทางความคิดของเด็กไปตลอดชีวิต
1. การเรียนแบบ Phonics คือ "Modality Alignment" บนฐานที่ถูก Pre-train มาคู่ขนานกัน
ตั้งแต่ก่อนเกิดจนถึงอายุ 4 ขวบ เด็กจะเรียนรู้ โมเดลจำลองโลก 3 มิติ (3D Physics World Model) และ โมเดลประมวลผลเสียง (Voice/Audio Model) ไปพร้อมๆ กันผ่านการเล่นและการมีปฏิสัมพันธ์ทางกายภาพ
การเรียน Phonics จึงคล้ายกับการทำ Modality Alignment (ขั้นตอนที่ 2 ของการเทรนแบบ Multimodal) เด็กไม่ได้เริ่มจากศูนย์ แต่เป็นการนำมิติใหม่คือ "ข้อความ (Text)" เข้ามาผูกโยงกับ "เสียง (Audio)" และ "คอนเซปต์ 3 มิติ" ที่มีอยู่แล้วและเชื่อมโยงกันอยู่ก่อน
ผลลัพธ์ที่ได้: เด็กสามารถสร้าง Internal Decoding Model เข้าใจการแยกย่อยคำ (Sub-word tokenization) และสามารถทำสิ่งที่เทียบเท่ากับ Zero-shot translation สำหรับคำที่ไม่เคยเห็นมาก่อนได้
2. การสอนแบบ Whole Language ก่อนวัยอันควร (Premature Whole Language) คือความเสี่ยงต่อ "Early Overfitting"
ปัญหาเกิดขึ้นเมื่อเด็กเล็กถูกบังคับให้เรียนแบบ Whole Language (จำคำเป็นภาพ เช่น การท่องจำ Flashcard) ก่อนที่ 3D World Model ของพวกเขาจะถูกสร้างขึ้นอย่างสมบูรณ์ สมองถูกบังคับให้สร้างโครงข่ายโดยใช้ภาพ 2 มิติเป็น External Model และข้ามขั้นตอนของ Audio Decoder ไป สมองจึงสลับการทำงานจาก Language Model ไปเป็น "โมเดลแยกแยะภาพ (Image Classification Model)" แทน
 
ผลกระทบเมื่อโมเดลสมองทำงานผิดพลาด ❗:
แยกแยะข้อความผิดพลาด (Hallucination): เมื่อเจอคำที่หน้าตาคล้ายกัน (เช่น house / horse หรือ though / through) สมองจะเดาผิดพลาดเพราะขาดความแม่นยำ
อยู่นอกคลังคำศัพท์ (Out of Vocabulary - OOV): เมื่อเจอคำใหม่เอี่ยม ระบบจะล้มเหลวทันทีเพราะไม่มี Sub-word Tokenizer สำหรับถอดรหัส
ภาพลวงตาของความคล่องแคล่ว (Masking Overfitting): เด็กที่มีความจำดีเยี่ยมจะดูเหมือนอ่านคล่องในตอนแรก แต่นั่นคือการจำเป็นภาพ (Overfitting) ล้วนๆ ภาพลวงตานี้จะพังทลายลง (ชนกำแพง) เมื่อพวกเขาต้องเผชิญกับความซับซ้อนในโลกความจริง
ภาวะสมองรับภาระหนักเกิน (เปรียบเหมือน "CUDA Out of Memory" ของสมอง): ในระบบ AI การประมวลผลข้อมูลขนาดใหญ่ที่ไม่ได้ถูกบีบอัด (เช่น มองคำเป็นภาพ 2D แทนที่จะเป็น Text Token) จะกิน VRAM มหาศาล สิ่งนี้จะบีบ "Context Window" ให้แคบลงอย่างรวดเร็วและเสี่ยงต่อระบบล่ม (CUDA OOM) ในทำนองเดียวกัน
การที่มนุษย์ประมวลผลคำเป็นภาพ จะกิน Working Memory มหาศาล เมื่อประโยคยาวขึ้น เด็กจะไม่เหลือ "RAM ในสมอง" ไว้ทำความเข้าใจความหมายที่แท้จริงของเรื่อง Context Window ของพวกเขาจะหดตัวลง เกิดภาวะ Cognitive Overload และสมองก็จะ "ล่ม" ในที่สุด (นำไปสู่ความเหนื่อยล้าและยอมแพ้ในการอ่าน)
3. วิกฤตการณ์ "ทางลัด" (The “Shortcut” Crisis): เวลาหน้าจอ, Flashcard และการข้ามขั้นวางรากฐาน
"Pre-training" ตามธรรมชาติของสมองมนุษย์ไม่ได้เป็นเส้นตรง แต่เป็นการซ้อนทับกันของรากฐาน โดยโมเดลทางกายภาพและเสียงจะพัฒนาคู่ขนานกันไป ก่อนที่จะมีการแนะนำสัญลักษณ์นามธรรม
อย่างไรก็ตาม แนวทางการเลี้ยงลูกยุคใหม่และกระแสดิจิทัล มักบังคับให้สมองที่กำลังพัฒนาต้องข้ามขั้น หรือทำให้รากฐานที่สำคัญเหล่านี้เสียหาย นำไปสู่สิ่งที่วิศวกร AI เรียกว่า "Representation Collapse" (การพังทลายของระบบตัวแทนข้อมูล) ซึ่งเราพบเห็นการข้ามขั้นนี้ได้ทั่วไปในปัจจุบัน:
สมาร์ตโฟนและแท็บเล็ต: เด็กถูกกระตุ้นด้วยคอนเทนต์พิกเซลแบบ 2 มิติ ก่อน ที่สมองจะจับคู่ความเข้าใจเรื่องฟิสิกส์ แรงโน้มถ่วง และความตื้นลึกหนาบางของโลก 3 มิติจริงได้อย่างสมบูรณ์
กับดัก Flashcard: เด็กถูกบังคับให้จำรูปร่างของคำแบบ 2 มิติ ก่อน ที่จะสร้างโมเดลเสียง/การออกเสียง (Audio/Phonetic Model) ที่แข็งแกร่ง
YouTube Kids และสื่อที่รับสารทางเดียว: เด็กเสพเรื่องราวที่ดำเนินเรื่องอย่างรวดเร็ว ก่อน ที่สมองจะพัฒนาความสามารถในการสร้างจินตนาการของตัวเอง (Internal Generative Model)
เมื่อ Foundation Model (ไม่ว่าจะเป็น AI หรือมนุษย์) ถูกป้อนด้วยข้อมูลนามธรรมระดับสูงก่อนที่มันจะเชี่ยวชาญการรับรู้ทางกายภาพและประสาทสัมผัสพื้นฐาน มันไม่ได้ "เรียนรู้" จริงๆ มันแค่จำรูปแบบผิวเผิน รากฐานที่เปราะบางนี้แทบจะการันตีความล้มเหลวในการนำไปประยุกต์ใช้ (Generalization) เมื่อต้องเผชิญกับงานที่ต้องใช้เหตุผลซับซ้อนในโลกแห่งความเป็นจริง
📜 บทสรุป: ปัญหาการ "Unlearn" ของมนุษย์ และ RLHF ที่บิดเบี้ยว
วิศวกร AI รู้ซึ้งถึงสัจธรรมข้อหนึ่งดีว่า: เมื่อโมเดลเรียนรู้โครงสร้างพื้นฐานมาผิดพลาด หรือ Overfit ไปแล้ว พวกเขาจะเลือก "ทิ้งมันซะแล้ว Train from Scratch (เทรนใหม่ตั้งแต่ต้น)" แทนที่จะพยายามแก้ไข เพราะกระบวนการ Machine Unlearning นั้นทำได้ยากลำบากอย่างยิ่ง
และบางทีตัวอย่างที่ชัดเจนที่สุดของ "ปัญหาการ Unlearn ของมนุษย์" ก็คือตัว Ken Goodman เอง—ชายผู้อ้างว่าสมองมนุษย์เรียนรู้ภาษาได้เองตามธรรมชาติ แต่กลับ "Overfit" อย่างหนักกับทฤษฎีของตัวเองตั้งแต่ช่วงปี 1970s จนกระทั่งเสียชีวิตในวัย 92 ปี โดยไม่เคยอัปเดตค่าน้ำหนัก (Weights) ภายในเลยแม้แต่ครั้งเดียว
เมื่อนักข่าวสืบสวน Emily Hanford ถาม Goodman ว่า การที่เด็กอ่านคำว่า 'horse' (ม้า) แล้วออกเสียงว่า 'pony' (ลูกม้า) ถือว่าผิดไหม? Goodman ตอบว่าไม่ผิด เพราะความหมายมันใกล้เคียงกัน นั่นคือคำจำกัดความที่เป๊ะที่สุดของคำว่า "Hallucination" ที่วิศวกร AI ทั่วโลกกำลังพยายามหาทางแก้อย่างเอาเป็นเอาตายอยู่ในปัจจุบัน แต่ Goodman กลับสอนนักการศึกษาว่าการที่เด็กทำแบบนี้เป็นเรื่อง "ปกติ" มายาวนานกว่า 50 ปี
https://www.apmreports.org/episode/2019/08/22/whats-wrong-how-schools-teach-reading
ความยืดหยุ่นของสมอง (Neuroplasticity) 🧠 VS การให้รางวัลทางพฤติกรรม (Behavioral RLHF) 🏆
มนุษย์เราก็เผชิญปัญหาการ "Unlearn" เช่นกัน อย่างไรก็ตาม ในทางชีววิทยา สมองมนุษย์มีความยืดหยุ่น (Neuroplasticity) มากพอที่จะสร้างเส้นทางประสาทใหม่ได้ตลอดเวลา ปัญหาที่แท้จริงจึงไม่ใช่เรื่องข้อจำกัดทางฮาร์ดแวร์ของชีววิทยา แต่เป็นเรื่องของ พฤติกรรม ที่ฝังรากลึก ซึ่งถูกล็อกไว้ด้วยการใช้ RLHF (Reinforcement Learning from Human Feedback หรือ การเรียนรู้แบบเสริมกำลังจากมนุษย์) ที่ผิดเพี้ยนไป
เมื่อเด็กถูกส่งไปสถาบันพัฒนาสมองเชิงพาณิชย์ หรือถูกสอนให้จำรูปคำ พ่อแม่และครูก็ได้สวมบทบาทเป็น "ผู้ให้คะแนน (Human Rater)" ที่มีข้อบกพร่องโดยไม่รู้ตัว พวกเขา "Endorse" (ให้รางวัลและชื่นชม) อย่างกระตือรือร้นทันทีที่เด็กเดาคำจากภาพได้อย่างรวดเร็ว สิ่งนี้เปรียบเสมือนการป้อนฟังก์ชันให้รางวัล (Reward Function) เชิงบวกให้กับโมเดลที่กำลัง Hallucinate สมองเด็กจึงเรียนรู้กฎลัดที่อันตรายว่า: "การเดา = ความสำเร็จและรางวัล"
เมื่อถึงจุดหนึ่งที่เราพยายามจะรื้อถอนโครงสร้างนี้ และสอนระบบการถอดรหัส (Decoding) ที่ถูกต้องอย่าง Phonics—ซึ่งต้องอาศัยการสะกดคำที่ช้า ละเอียด และวิเคราะห์—เด็กย่อมแสดงพฤติกรรมต่อต้านอย่างรุนแรงตามธรรมชาติ การพยายามจะ "Unlearn" นิสัยที่เคยได้รับการ Endorse มาอย่างดี ย่อมสร้างความทุกข์ทรมานใจและความหงุดหงิด และที่สำคัญที่สุด... เราไม่สามารถกด "Format" สมองเด็กแล้วเทรนพวกเขาใหม่ตั้งแต่ต้นเหมือนที่เราทำกับ AI ได้
ในยุคที่คู่แข่งการทำงานไม่ได้มีแค่คนธรรมดา แต่รวมถึง AI 🦾 ที่มี Decoder Model ทรงประสิทธิภาพ การวางรากฐาน "สถาปัตยกรรมการเรียนรู้" ที่ถูกต้องให้กับเด็กตั้งแต่เริ่มต้น จึงเป็นเรื่องชี้เป็นชี้ตายมากกว่าที่เคย
(ติดตามต่อ EP.4: "Context Window 15 วินาที" และอาการสมอง OOM ของเด็กยุคดิจิทัล)
บทความก่อนหน้านี้
ตอนที่ 1: วิกฤติการอ่านของมนุษย์ และรอยต่อประวัติศาสตร์การสอนภาษาไทย
ตอนที่ 2: บทเรียนจากสหรัฐอเมริกาและวิทยาศาสตร์การอ่าน (Science of Reading)
โฆษณา