8 เม.ย. เวลา 09:10 • วิทยาศาสตร์ & เทคโนโลยี
4 เทคโนโลยี สอน AI ให้เรียนรู้โลกกว้างจากวิดีโอ
คำว่า Artificial Intelligence (AI) นั้นมีความหมายว่า ‘ปัญญาประดิษฐ์’ ซึ่งสื่อถึงจุดประสงค์ของการสร้างเอไออย่างชัดเจน ทีมพัฒนาเอไอต่างมีเป้าหมายเดียวกันคือการพัฒนาเอไอให้สามารถเรียนรู้และตัดสินใจได้เหมือนมนุษย์เรามากที่สุด หรือพูดอีกอย่างคือมี ‘ปัญญา’ ที่ ‘ประดิษฐ์’ ขึ้นมาได้ใกล้เคียงมนุษย์ที่สุด
หนึ่งในความพิเศษของสิ่งมีชีวิตคือเรามีกระบวนการเรียนรู้เรื่องต่างๆ ด้วยตนเองผ่านสิ่งรอบตัว มนุษย์เราเองก็เรียนรู้จากโลกและผู้คนที่เคลื่อนไหวอยู่รอบ ๆ ซึ่งนี่แหละเป็นภาพในอุดมคติที่ทีมพัฒนาหวังให้เอไอทำได้
อีกนวัตกรรมหนึ่งที่บริษัทเทคฯ ยักษ์ใหญ่หลายที่กำลังพยายามทำให้ได้คือ การสอนเอไอให้เรียนรู้ด้วยตัวเองจากวิดีโอ วิดีโอที่เราอัปโหลดกันนั้นถ่ายจากเหตุการณ์ต่าง ๆ ที่เกิดขึ้นจริงบนโลก ซึ่งถ้าสำเร็จจะทำให้เอไอสามารถเรียนรู้จากเหตุการณ์รอบตัวได้เหมือนที่มนุษย์เราทำได้ รอดูได้เลยว่าจะมีนวัตกรรมใหม่ ๆ ที่เราคาดไม่ถึงอีกมากมาย
วันนี้ Sertis จะพาทุกคนไปรู้จักกับ 4 เทคโนโลยีที่พยายามสอนเอไอให้เรียนรู้จากวิดีโอ ซึ่งมีตั้งแต่การสร้างชุดข้อมูล (Dataset) ที่ช่วยเพิ่มขีดความสามารถด้านต่าง ๆ ของเอไอ ไปจนถึงการฝึกให้เอไอเรียนรู้เองตั้งแต่เริ่มต้น ไปรู้จักเทคโนโลยีเหล่านี้พร้อม ๆ กันได้เลย
สอน AI ด้วยวิดีโอจากชุดข้อมูล Moments in Time
แม้จะมีชุดข้อมูลที่สอนให้เอไอระบุการกระทำในวิดีโอได้แล้ว แต่ทำได้แค่ระบุการกระทำที่เฉพาะเจาะจง เช่น ระบุได้ว่าที่เห็นคือการกระโดดสูง แต่ไม่เข้าใจว่าการกระโดดสูงมีที่มาที่ไปอย่างไร ไม่สามารถแยกออกมาได้ว่าการกระโดดสูงนั้นประกอบด้วยการวิ่ง กระโดดพุ่งตัวขึ้น ตกลงมา และลงถึงพื้น
เพื่อเพิ่มความสามารถของเอไอ ทีมนักพัฒนา Moments in Time ได้ใช้วิดีโอสั้น ๆ ที่แสดงการกระทำพื้นฐานกว่า 300 ประเภท รวมถึงเสียง เช่น เสียงปรบมือ ทำให้สามารถพัฒนาโมเดลเอไอแบบ Multi-Modal ที่ระบุการกระทำที่ประกอบกันเป็นอีกการกระทำใหม่ เหมือนตัวอย่างของการกระโดดสูงได้
คุณสมบัติอีกอย่างหนึ่งของ Moments in Time คือสามารถการระบุกริยาเดียวกันที่อยู่ในสถานการณ์ที่ต่างกันได้ เช่น เปิดหนังสือ เปิดประตู เปิดผ้าม่าน หรือสุนัขอ้าปาก ทั้งหมดนี้จะอยู่ในหมวดของ “การเปิด” โดยอาศัยการระบุการเปลี่ยนแปลงเชิงพื้นที่ในช่วงเวลา (Temporal-Spatial Transformation)
DeepMind สอน AI ให้เรียนรู้วิธีคิดแบบมนุษย์จากวิดีโอ
ในปี 2017 ที่ผ่านมา DeepMind เองก็เคยพยายามฝึกเอไอให้เรียนรู้ด้วยตนเองโดยใช้วิดีโอมาแล้ว และก็ทำได้สำเร็จ โดยไม่ได้ใช้ข้อมูลวิดีโอที่ผ่านการระบุด้วยคน แต่ฝึกให้เอไอเรียนรู้และวิเคราะห์ภาพและเสียงในวิดีโอด้วยตัวเองเลย
โดยอัลกอริธึมจะแบ่งเป็นสามโครงข่าย หนึ่งทำหน้าที่ตรวจจับรูปภาพ อีกหนึ่งตรวจจับเสียง โดยจะใช้ภาพนิ่งจากฉากในวิดีโอและเสียงที่ตรงกันกับฉากความยาว 1 วินาที จากนั้นโครงข่ายที่สามจะทำการเทียบรูปภาพกับเสียง เพื่อทำให้เอไอสามารถระบุภาพเหล่านี้ได้ เช่น ถ้าเอไอได้เรียนรู้ภาพและเสียงของการปรบมือแล้ว ครั้งหน้าที่เห็นการกระทำนี้ก็จะเข้าใจว่ามันเหมือนกับที่เคยเห็น
นอกจากนี้ยังมีการสร้างโครงข่ายประสาทเทียมที่ชื่อย่อว่า SCAN ที่เลียนแบบวิธีการคิดของมนุษย์ ช่วยให้เอไอมีความสามารถในการเข้าใจคอนเซ็ปต์ใหม่ ๆ และคิดค้นสิ่งใหม่ ๆ ได้ เช่น เวลาที่เอไอเจอภาพแอปเปิ้ล เอไอจะไม่ได้จดจำภาพนั้นมาตรง ๆ แต่จะจำรูปร่าง ลักษณะ สีของแอปเปิ้ล ไม่ได้ใช้การเปรียบเทียบภาพของแอปเปิ้ลกับภาพที่เคยเห็น แต่ใช้วิธีจดจำว่าแอปเปิ้ลมีลักษณะเป็นอย่างไรจริง ๆ ซึ่งเหมือนกับวิธีที่เราในวัยเด็กใช้เรียนรู้ความเป็นไปของโลก
สอน AI ให้รู้จักเหตุและผลของเหตุการณ์ในวิดีโอด้วย CLEVRER และ NS-DR
เดิมทีแม้จะวิเคราะห์วัตถุในวิดีโอได้ แต่ถ้าถามคำถาม เช่น ให้ดูวิดีโอของคนตีเบสบอลซึ่งตีโดนลูก แล้วถามว้าถ้าคนคนนั้นตีไม่โดน ลูกบอลจะตกไปในทางไหน เอไอจะตอบไม่ได้ เพราะแม้เอไอจะรู้จักวัตถุในรูปภาพ แต่ก็ไม่เข้าใจเรื่องเหตุผลเรื่องแรงโน้มถ่วง หรือการเคลื่อนไหว
ทีมนักพัฒนาจาก IBM MIT Harvard และ Deepmind จึงร่วมกันพัฒนาชุดข้อมูลชื่อย่อว่า CLEVRER และระบบเอไอแบบไฮบริด NS-DR ซึ่งจะช่วยให้พัฒนาเอไอข้าใจการใช้เหตุผลกับการวิเคราะห์เหตุการณ์ในวิดีโอได้
CLEVRER ประกอบด้วยวิดีโอของวัตถุที่เคลื่อนไหวกระทบกันไปมา เอไอจะต้องตอบคำถามเชิงบรรยาย อธิบาย คาดการณ์ และสมมุติ เพื่อทดสอบหลักเหตุผล ดังนั้นเอไอที่จะตอบคำถามเหล่านี้ได้นั้นต้องมีคุณสมบัติสำคัญ 3 อย่าง ได้แก่ ความสามารถในการระบุวัตถุและเหตุการณ์ในวิดีโอ ความสามารถในการจำลองความสัมพันธ์เชิงเหตุผลและเชิงกิจกรรม (dynamic relation) และความเข้าใจตรรกะสัญลักษณ์ (Symbolic logic) ในคำถาม
แต่ปัญหาคือข้อมูลใน CLEVRER นั้นค่อนข้างจำกัด หลังจากทดลองกับโมเดลหลายแบบแต่ก็ไม่เป็นผลสำเร็จ ทีมพัฒนาจึงสร้างโมเดลขึ้นมาใหม่ได้แก่ NS-DR ที่รวม Neural Network กับ Symbolic AI เข้าด้วยกัน Symbolic AI เป็นเอไอยุคแรก ๆ ที่มีความสามารถในการเข้าใจตรรกะเชิงสัญลักษณ์ และการใช้ Neural network นั้นไม่ต้องใช้ข้อมูลในการเทรนโมเดลเยอะ ถือเป็นการประยุกต์ใช้จุดเด่นของสองโมเดลจนสามารถก้าวผ่านจุดอ่อนได้
สอน AI ให้เรียนรู้เอง จากวิดีโอของผู้ใช้ Facebook
Facebook เปิดตัวโปรเจ็กต์ใหม่ Learning from Videos ฝึกให้เอไอเรียนรู้ผ่านวิดีโอของผู้ใช้งานที่อัปโหลดไว้เป็นสาธารณะในแพลตฟอร์ม เป็นการเรียนรู้ด้วยตนเอง ทำให้สามารถก้าวข้ามข้อจำกัดที่ต้องเรียนรู้จากข้อมูลที่ผ่านการ Label โดยมนุษย์มาแล้ว เสียเวลากับกระบวนการเทรนนิงน้อยลง ที่สำคัญคือวิดีโอของผู้ใช้นั้นหลากหลายทางด้านเนื้อหาและวัฒนธรรม จึงเป็นโอกาสที่จะสร้างเอไอให้ปรับตัวทันโลกโดยไม่ต้องอาศัยการควบคุมของมนุษย์
ซึ่ง Facebook ก็ได้นำเทคโนโลยีนี้ไปปรับใช้จริงแล้ว ด้วยการปล่อยฟีเจอร์เวอร์ชันทดลองใน Instagram โดยมีทั้งฟีเจอร์ Auto Captions สร้างแคปชันบรรยายสิ่งที่เราพูดทาง Instagram Story ให้อัตโนมัติ และใช้เลือกแสดงเนื้อหาหน้าฟีดของ Instagram Reels (ฟีเจอร์ที่ใช้สร้างวิดีโอสั้น ๆ คล้ายกับ TikTok) ให้ตรงกับความสนใจของผู้ใช้มากขึ้น
สำหรับอีกฟีเจอร์ที่มีแผนจะพัฒนา คือ Digital Memories เราสามารถค้นหาคีย์เวิร์ดเช่น “ฉลองวันเกิด” เอไอก็จะทำการดูทุกวิดีโอของเราว่ามีอันไหนบ้างที่มีเค้ก เทียน เพลง Happy Birthday และรวบรวมคอนเทนต์เหล่านั้นมาให้เรา ในอนาคต Facebook ยังมีแผนจะพัฒนาเทคโนโลยีนี้ให้ใช้ได้กับแว่นอัจฉริยะ ที่จะทำให้คนทั้งเก็บและเรียกดูความทรงจำดิจิทัลของตนเองได้ง่ายขึ้น
บทความโดย: ทีม Sertis