22 พ.ค. เวลา 04:14 • การศึกษา
สาระ หรือ สาหร่าย By Charifkub

ThaiLLM คืออะไร? ข้อมูลปลอดภัย ประมวลผลในไทย 100%

โดย
เคยไหม? เวลาที่คุณใช้งาน AI ระดับโลกอย่าง ChatGPT หรือ Gemini แล้วลองถามคำถามเป็นภาษาไทย แต่กลับได้คำตอบที่ดูฝืนๆ แข็งทื่อไม่เป็นธรรมชาติ หรือ ไม่เข้าใจสำนวน และ บริบทแบบคนไทยด้วยกัน นั่นเป็นเพราะโมเดลเหล่านั้นถูกฝึกฝนด้วยฐานข้อมูลต่างประเทศเป็นหลัก แม้จะรองรับภาษาไทยแต่ก็ยังขาดความเข้าใจลึกซึ้งทางวัฒนธรรม
ด้วยเหตุนี้ กระทรวงดิจิทัลเพื่อเศรษฐกิจและ สังคม (ดีอี) และ กระทรวงการอุดมศึกษา วิทยาศาสตร์ วิจัย และ นวัตกรรม (อว.) จึงได้จับมือร่วมกับภาคีเครือข่ายระดับประเทศ เปิดตัว ThaiLLM โมเดลภาษาขนาดใหญ่ภาษาไทยแบบเปิด (Open Source) เพื่อวางรากฐานอธิปไตยทางเทคโนโลยี AI (AI Sovereignty) ให้ประเทศไทยสามารถพัฒนา ควบคุม และ ใช้ประโยชน์จากปัญญาประดิษฐ์ได้ด้วยตนเอง พร้อมลดการพึ่งพาเทคโนโลยีจากต่างชาติในระยะยาว
ปัจจุบัน ThaiLLM ได้รับความสนใจอย่างล้นหลาม โดยมีนักพัฒนา และ ผู้สนใจเข้ามาทดลองใช้งานผ่านแพลตฟอร์ม ThaiLLM Playground แล้วมากกว่า 8,000 ราย บทความนี้จะพาคุณไปเจาะลึกระบบ ThaiLLM ตั้งแต่ความหมาย ประโยชน์ ข้อจำกัดระดับบัญชี และ ตัวอย่างการนำไปใช้งานจริงกันครับ
  • ​ThaiLLM คืออะไร?
ThaiLLM (Thai Large Language Model) คือ โมเดลภาษาขนาดใหญ่ภาษาไทยแบบ Open Source ที่ได้รับการพัฒนา และ ป้อนคลังข้อมูลภาษาไทยจำนวนมหาศาลเข้าไปเพิ่ม เพื่อให้ AI มีความเข้าใจไวยากรณ์ คำเฉพาะ และ บริบทความเป็นไทยได้อย่างมีประสิทธิภาพสูงสุด
ความหมายที่แท้จริงของ ThaiLLM ไม่ใช่แค่แชทบอท AI ทั่วไป แต่คือ โครงสร้างพื้นฐานด้านปัญญาประดิษฐ์ของประเทศ (National AI Infrastructure) ที่ถูกออกแบบมาเพื่อเป็นรากฐาน (เปรียบเหมือนพิมพ์เขียวหรือโครงเหล็กหลัก) ให้คนไทยสามารถนำไปต่อยอดนวัตกรรม และ ซอฟต์แวร์ที่เกี่ยวข้องกับการประมวลผลภาษาไทยได้อีกมากมายในอนาคต
  • ​ThaiLLM ทำงานอย่างไร?
⚪ การจับมือพัฒนาแบบ Open Source
ThaiLLM เกิดจากความร่วมมือครั้งใหญ่ของ 7 หน่วยงานหลัก นำโดย สถาบันข้อมูลขนาดใหญ่ (BDI), เนคเทค (NECTEC), สถาบันวิทยสิริเมธี (VISTEC), สมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT), สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT), จุฬาลงกรณ์มหาวิทยาลัย และ มหาวิทยาลัยมหิดล โดยร่วมกันเทรนโมเดลผ่านกระบวนการ Continued Pretraining (CPT) ด้วยชุดข้อมูลภาษาไทยที่ครอบคลุม และ หลากหลายมากกว่า 100,000 ล้านโทเค็น
  • ​คุณสมบัติทางสถาปัตยกรรม
แม้จะใช้สถาปัตยกรรมพื้นฐานแบบ Transformer เหมือนโมเดลตระกูล LLM ทั่วไป แต่การเทรนเน้นหนักไปที่ภาษาไทย ทำให้ ThaiLLM มีจุดเด่นเฉพาะตัวดังนี้
🇹🇭 ความเข้าใจภาษาไทยเชิงลึก
เข้าใจโครงสร้างภาษาไทยที่ใช้ในชีวิตประจำวัน ภาษาราชการที่ซับซ้อน ไปจนถึงภาษาถิ่นต่างๆ
🇹🇭 เข้าใจบริบททางวัฒนธรรม
สามารถตีความสำนวน อารมณ์ขัน และ การตอบสนองแบบไทยได้อย่างเป็นธรรมชาติ ไม่เหมือนภาษาแปล
🇹🇭 ความปลอดภัยของข้อมูลขั้นสูง กระบวนการประมวลผลข้อมูลทั้งหมดเกิดขึ้นภายในประเทศ ไม่มีการส่งข้อมูลออกไปยังเซิร์ฟเวอร์ต่างประเทศ
  • ​ประเภทและขนาดของโมเดล ThaiLLM
เพื่อให้ตอบโจทย์การใช้งานที่หลากหลาย ThaiLLM จึงถูกแบ่งออกเป็นขนาดต่างๆ ตามความเหมาะสมของฮาร์ดแวร์และประเภทงาน ดังนี้ครับ
⚪ ThaiLLM-8B (ขนาด 8 พันล้านพารามิเตอร์)
โมเดลขนาดเริ่มต้น เหมาะสำหรับผู้ใช้งานทั่วไป นักพัฒนาที่ต้องการทดลองระบบ และ การใช้งานพื้นฐานที่ไม่ซับซ้อนมากนัก
⚪ ThaiLLM-30B (ขนาด 3 หมื่นล้านพารามิเตอร์)
โมเดลขนาดใหญ่ เหมาะสำหรับงานที่มีความซับซ้อนสูง การประมวลผลในระดับองค์กร และ การนำไปพัฒนาเป็นแอปพลิเคชันเพื่อใช้งานจริง (Production)
นอกจากนี้ คลังข้อมูลดนตรี และ สถาปัตยกรรมของโครงการยังเป็นฐานข้อมูลสำคัญที่ถูกภาคีเครือข่ายนำไปต่อยอดเป็นโมเดลทางเลือกอื่นๆ เช่น PathummaLLM (โดย NECTEC), THaLLE (โดย KBTG), Typhoon (โดย SCB 10X) และ OpenThaiGPT (โดย AIEAT)
  • ​ประโยชน์ของ ThaiLLM
1) สำหรับประเทศชาติ
✅ สร้างทางเลือกและลดการพึ่งพา ช่วยให้ประเทศไทยมีโครงสร้างพื้นฐาน AI เป็นของตัวเอง ไม่ต้องผูกขาด หรือ พึ่งพิงระบบปิดของบริษัทไอทียักษ์ใหญ่จากต่างแดน
✅ รักษาความปลอดภัยของข้อมูล ข้อมูลสำคัญของรัฐ และ เอกชนจะถูกจัดเก็บ และ ประมวลผลอยู่ภายใต้ขอบเขตอธิปไตยไซเบอร์ของไทย
✅ ตรวจสอบได้และโปร่งใส
ด้วยความเป็นโอเพนซอร์ส ทำให้นักวิจัยสามารถตรวจสอบความเอนเอียง (Bias) ของโมเดลได้ง่ายกว่าระบบปิด
2) สำหรับนักพัฒนาและธุรกิจ
✅ ประหยัดต้นทุนมหาศาล
นักพัฒนาอิสระ สตาร์ทอัพ และ กลุ่ม SME สามารถเข้าถึงและนำโมเดลระดับสูงไปใช้งานได้ฟรี
✅ Fine-tune ได้ตามใจชอบ
สามารถดาวน์โหลดโค้ดไปปรับแต่ง (Fine-tune) ให้ AI เรียนรู้คำศัพท์เทคนิคเฉพาะทางในธุรกิจของตนเองได้
✅ ติดสปีดนวัตกรรม
ไม่จำเป็นต้องเริ่มนับหนึ่งในการสร้างคลังข้อมูลภาษาไทยใหม่ เพราะมีฐานรากที่พร้อมใช้งานให้ทันที
3) สำหรับประชาชนทั่วไป
✅ ยกระดับบริการภาครัฐ
หน่วยงานราชการสามารถนำโมเดลนี้ไปพัฒนาเป็นระบบตอบคำถามหรือช่วยบริการประชาชน ทำให้บริการรัฐรวดเร็วขึ้น
✅ เข้าถึงเทคโนโลยีเท่าเทียม
เปิดโอกาสให้คนไทยทุกคนได้ทดลองใช้งาน AI ประสิทธิภาพสูงผ่านหน้าเว็บ Playground ได้โดยตรง (https://thaillm.or.th)
  • ​บัญชีฟรีทำอะไรได้บ้าง?
🤔 รูปแบบ Playground (Web Chat) เป็นหน้าต่างแชทบอทบนเว็บไซต์ ช่วยให้คุณสามารถเข้าไปพิมพ์โต้ตอบกับโมเดล ThaiLLM-8B ได้ทันทีผ่านเบราว์เซอร์ เหมาะสำหรับประชาชนทั่วไป นักเรียน และ ผู้เริ่มต้นศึกษา
🤔 รูปแบบ API (ใช้งานฟรี)
เปิดช่องทางให้โปรแกรมเมอร์สามารถเรียกใช้งานโมเดลผ่าน REST API ได้ฟรี เพื่อนำสมองของ AI ไปเชื่อมต่อกับแอปพลิเคชัน หรือ แชทบอทของตัวเอง โดยมีระบบคลาวด์จาก NT และ SIAM.AI CLOUD คอยสนับสนุนอยู่เบื้องหลัง เหมาะสำหรับนักพัฒนาซอฟต์แวร์
🤔 รูปแบบ Open Weights (ดาวน์โหลดไฟล์โมเดล)
นักวิจัยและองค์กรขนาดใหญ่สามารถดาวน์โหลดไฟล์น้ำหนักโมเดล (Model Weights) ทั้งหมดไปติดตั้งลงบนเครื่องเซิร์ฟเวอร์ส่วนตัว หรือนำไป Fine-tune เพิ่มเติมได้อย่างอิสระ เหมาะสำหรับนักวิจัย และ ผู้เชี่ยวชาญระดับสูง (https://huggingface.co/ThaiLLM)
  • ​ตัวอย่างการใช้งาน
🧑‍💻 กลุ่มนักพัฒนาซอฟต์แวร์ (Developer)
สามารถลงทะเบียนขอรับคีย์ API ฟรี เพื่อนำไปติดตั้งในระบบแชทบอทตอบคำถามลูกค้าบนหน้าเว็บไซต์ หรือ LINE OA ของร้านค้า ช่วยให้บอทเข้าใจคำถามภาษาไทย สำนวนการพูด และตอบกลับลูกค้าได้นุ่มนวลเป็นธรรมชาติมากขึ้น โดยไม่ต้องจ่ายค่า API เป็นดอลลาร์สหรัฐให้ต่างชาติ
🧑‍⚕️ กลุ่มองค์กรและสาธารณสุข (Healthcare)
โรงพยาบาลสามารถนำไฟล์ Open Weights ไปติดตั้งบนระบบเซิร์ฟเวอร์ภายในองค์กร (On-premises) แล้วทำ Fine-tuning ด้วยคลังข้อมูลบันทึกทางการแพทย์ เพื่อสร้างเป็น AI ช่วยสรุปประวัติคนไข้ หรือ คัดกรองอาการเบื้องต้นได้อย่างปลอดภัย โดยมั่นใจได้ว่าข้อมูลคนไข้จะไม่รั่วไหลออกนอกประเทศ
🧑‍🎓 บุคคลทั่วไปและนักเรียน (General User)
สามารถล็อกอินเข้าหน้าเว็บไซต์เพื่อใช้เป็นผู้ช่วยในการระดมความคิด (Brainstorming) ช่วยแต่งกลอนไทย ตรวจสอบคำผิดในเรียงความ หรือ ช่วยสรุปเนื้อหาบทความภาษาไทยยาวๆ ให้เข้าใจง่ายขึ้นในไม่กี่วินาที
  • ​Typhoon Ai คืออะไร? เมื่อ AI สัญชาติไทยเข้าใจวัฒนธรรมไทยดีกว่าโมเดลระดับโลก 👇
  • ​OpenThaiGPT คืออะไร? คุยภาษาไทยแบบเข้าใจวัฒนธรรมไทยแท้ ไม่แข็งทื่อ ไม่ติดภาษาแปล 👇
  • ​Local AI คืออะไร 👇
Credit :
👇
  • ​https://arit.pcru.ac.th/2022/view/show_service/216
  • ​https://www.nstda.or.th/home/news_post/s-and-t-implementation-thai-llm/
  • ​https://www.ubu.ac.th/web/kmubu/km/content-702/
โฆษณา