9 มิ.ย. เวลา 05:49 • การศึกษา
สาระ หรือ สาหร่าย By Charifkub

Gemini Omni คืออะไร ไม่ใช่แค่เจนคลิป แต่คือโมเดลโลกที่เข้าใจกฎฟิสิกส์และแสงเงาอย่างสมบูรณ์แบบ

โดย
ลองนึกภาพว่าคุณมีวิดีโอสั้นๆ ที่ถ่ายจากมือถืออยู่หนึ่งคลิป คุณอยากเปลี่ยนฉากหลังให้เพื่อนคุณยืนอยู่บนดวงจันทร์ เปลี่ยนสีเสื้อจากสีแดงเป็นสีน้ำเงิน หรือ อยากให้ตัวละครในคลิปหันมามองกล้อง แล้วพูดภาษาญี่ปุ่นแทนภาษาอังกฤษ ทั้งหมดนี้ไม่ต้องใช้โปรแกรมตัดต่อที่ซับซ้อน ไม่ต้องเสียเงินจ้างทีม VFX แพงๆ เพียงแค่คุณพิมพ์ "เปลี่ยนฉากหลังเป็นดวงจันทร์" หรือ "ให้ตัวละครหันมาพูดภาษาญี่ปุ่น" แล้ว AI ก็จัดการให้คุณทันที
นี่ไม่ใช่จินตนาการอีกต่อไป เพราะนี่คือสิ่งที่ Gemini Omni โมเดล AI รุ่นล่าสุดจาก Google มอบให้คุณได้จริงในปี 2026 แตกต่างจาก AI สร้างวิดีโอทั่วไปที่แค่โยนข้อความแล้วได้คลิป Gemini Omni คือ โมเดลโลก (World Model) ที่เข้าใจกฎฟิสิกส์ เหตุและผล และ บริบทของเรื่องราว พร้อมทั้งรักษาความต่อเนื่องของตัวละครและฉากได้อย่างน่าทึ่ง
บทความนี้จะพาคุณไปเจาะลึกทุกแง่มุมของ Gemini Omni ตั้งแต่กลไกการทำงาน รุ่นย่อย ประโยชน์ ไปจนถึงอัปเดตช่องทางการใช้งานล่าสุดครับ
  • ​Gemini Omni คืออะไร?
Gemini Omni คือโมเดล AI แบบ Multimodal Native หรือ ระบบที่รองรับและรับรู้ข้อมูลหลากหลายรูปแบบได้ในตัวเองมาตั้งแต่กำเนิด ซึ่งได้รับการพัฒนาโดย Google DeepMind จุดเด่นที่สุดที่สร้างความสั่นสะเทือนให้วงการคือความสามารถในการรับข้อมูลอินพุตได้ทุกรูปแบบ (ไม่ว่าจะเป็นข้อความ รูปภาพ เสียง วิดีโอ หรือ แม้กระทั่งภาพสเก็ตช์ลายเส้น) แล้วประมวลผลส่งเอาต์พุตออกมาเป็นวิดีโอได้โดยตรงภายในคำสั่งเดียว
💡 ความหมายที่แท้จริงของ Gemini Omni จึงไม่ใช่แค่โปรแกรมหรือเว็บแอปพลิเคชันสร้างวิดีโอทั่วไป แต่คือสตูดิโอสร้างสรรค์อัจฉริยะที่เปิดโอกาสให้คุณสามารถพิมพ์หรือพูดคุย กับมันเพื่อแก้ไข เปลี่ยนแปลงฉาก หรือ ปรับแต่งรายละเอียดเชิงลึกของวิดีโอได้แบบเรียลไทม์ โดยระบบจะเข้าใจความต้องการของคุณ และ สามารถรักษาบริบทเดิมของการแก้ไขเอาไว้ได้อย่างเหนียวแน่นทุกครั้ง
  • ​Gemini Omni ทำงานอย่างไร?
เบื้องหลังความอัจฉริยะขั้นสุดของ Omni คือการที่มันไม่ได้ทำหน้าที่แค่นำภาพมาปะติดปะต่อกัน แต่ใช้วิธีทำความเข้าใจบริบทองค์รวมของโลกแห่งความเป็นจริงอย่างลึกซึ้ง โดยมีคุณสมบัติหลัก 3 ประการดังนี้ครับ
1) เข้าใจกฎฟิสิกส์และโลกเสมือนจริง (World Understanding)
Omni มีความเข้าใจในกฎเกณฑ์ทางธรรมชาติ เช่น แรงโน้มถ่วง การไหลเวียนของกระแสน้ำ หรือทิศทางของแสงและเงาที่ควรตกกระทบอย่างถูกต้องตามหลักความเป็นจริง ส่งผลให้วิดีโอที่เจนออกมามีความสมจริงสูงสุด ปราศจากอาการชิ้นส่วนหลุดลอย หรือ สรีระร่างกายบิดเบี้ยวผิดธรรมชาติเหมือน AI ยุคเก่า
2) การแก้ไขวิดีโอแบบโต้ตอบได้ (Conversational Editing)
นี่คือฟีเจอร์ไม้ตายที่ทำให้ Omni เหนือกว่าใคร คุณสามารถอัปโหลดวิดีโอสั้นเข้าไป แล้วใช้คำสั่งภาษาพูดเพื่อปรับเปลี่ยนองค์ประกอบได้เรื่อยๆ เช่น สั่งว่า "พาผู้หญิงคนนี้ไปอยู่ในป่า" เมื่อ AI ทำเสร็จ ก็สามารถสั่งต่อได้ทันทีว่า "เปลี่ยนชุดที่เธอใส่ให้กลายเป็นสีแดงหน่อย" โดยที่ Omni จะยังคงจำหน้าตา รูปร่าง และลักษณะเดิมของตัวละครนั้นไว้ได้เป๊ะๆ
3) การสร้าง Avatar และแปลภาษาพร้อมเสียง (Digital Human & Translation)
Omni สามารถเนรมิตตัวแทนดิจิทัลที่ถอดแบบทั้งใบหน้า และ น้ำเสียงของคุณได้อย่างเป็นธรรมชาติ หรือ จะสั่งให้มันแปลเสียงพูดของตัวละครในวิดีโอให้กลายเป็นอีกภาษาหนึ่งก็ได้ โดยที่เสียงดนตรีประกอบ (Background Music) ยังคงอยู่ครบ และ ระบบจะปรับการขยับปาก (Lip-sync) ของตัวละครให้เข้ากับคำพูดในภาษาใหม่ได้อย่างสมบูรณ์แบบ
  • ​ประเภทและรุ่นย่อยของ Gemini Omni
ในปัจจุบัน Google ได้แบ่งการเปิดตัว Omni ออกเป็น 2 รูปแบบหลัก เพื่อตอบโจทย์กลุ่มผู้ใช้งานที่แตกต่างกัน ดังนี้ครับ
⚪ Gemini Omni Flash (พร้อมใช้งานแล้ว): โมเดลรุ่นเน้นความเร็วสูงสุด ออกแบบมาเพื่อผู้บริโภคทั่วไป และ สายคอนเทนต์ครีเอเตอร์ที่ต้องการความฉับไว สามารถเจนคลิปวิดีโอความยาวเริ่มต้นได้ที่ประมาณ 10 วินาทีต่อคลิป
⚪ Gemini Omni (Full / Pro) (แผนในอนาคต): โมเดลรุ่นท็อปคุณภาพสูง จัดเต็มเรื่องความละเอียดของภาพ และ ความยาวของคลิปวิดีโอที่มากกว่ารุ่น Flash ซึ่งทาง Google มีแผนจะเปิดให้นักพัฒนาซอฟต์แวร์ได้ใช้งานผ่านระบบ API ในอนาคตอันใกล้
  • ​ประโยชน์ของ Gemini Omni
✅ สำหรับครีเอเตอร์คอนเทนต์ (YouTube, TikTok, Reels)
พลิกโฉมการทำคลิปสั้นให้กลายเป็นไวรัลได้ในพริบตาสามารถเนรมิตฉากหลัง ย้ายสถานที่ถ่ายทำไปรอบโลก หรือ เพิ่มลูกเล่นเอฟเฟกต์ภาพ (VFX) ระดับภาพยนตร์ฮอลลีวูดได้ด้วยตัวเอง
✅ สำหรับนักการตลาดและแบรนด์ (Marketers)
ช่วยให้การทำวิดีโอโฆษณาสนุก และ หลากหลายขึ้น สามารถใช้ฟุตเทจวิดีโอต้นฉบับเพียงตัวเดียว แต่สั่งให้ AI ช่วยเปลี่ยนฉากหลัง เปลี่ยนสีผลิตภัณฑ์ หรือเปลี่ยนภาษา และ บทพูด เพื่อให้เข้ากับกลุ่มเป้าหมายในแต่ละแพลตฟอร์มหรือแต่ละประเทศได้ทันที
✅ สำหรับการศึกษาเรียนรู้ (Education)
คณาจารย์และนักเรียนสามารถเปลี่ยนข้อความจากตำราเรียนที่เข้าใจยาก ให้กลายเป็นภาพเคลื่อนไหวที่เห็นภาพชัดเจน เช่น สั่งให้ Omni เจนวิดีโอจำลองการแบ่งเซลล์ หรือ การทำงานของแรงดึงดูดระหว่างดวงดาวได้ในไม่กี่ประโยค
✅ สำหรับธุรกิจและการออกแบบ (Business & Design)
สถาปนิกสามารถส่งภาพสเก็ตช์ลายเส้นของบ้านเข้าไป แล้วสั่งให้ Omni แปลงเป็นวิดีโอพาทัวร์บ้านแบบ 3 มิติ (Walkthrough) หรือ ดีไซเนอร์เสื้อผ้าสามารถนำชุดแฟชั่นใหม่ๆ ไปลองสวมใส่บนตัวนางแบบเสมือนจริงได้โดยไม่ต้องจัดสตูดิโอถ่ายทำจริงให้สิ้นเปลืองงบประมาณ
  • ​บัญชีฟรีทำอะไรได้บ้าง?
Google มีการวางนโยบาย และ ช่องทางให้ผู้ใช้งานทั่วไปสามารถเข้าไปสัมผัสและ ทดลองใช้งานระบบ Gemini Omni ได้ฟรี โดยแบ่งตามแพลตฟอร์มต่างๆ ดังนี้ครับ
⚪ YouTube Shorts / YouTube Create App
Google ได้ทำการรวมร่าง (Integrate) โมเดลรุ่น Gemini Omni Flash เข้าไปเป็นส่วนหนึ่งของเครื่องมือสร้างสรรค์วิดีโอสั้นบน YouTube Shorts เรียบร้อยแล้ว เพื่อให้ผู้ใช้ทั่วไปสามารถกดใช้งานได้ฟรี โดยวิดีโอทุกคลิปที่ถูกสร้างขึ้นจะได้รับการฝังลายน้ำดิจิทัลที่มองไม่เห็นด้วยตาเปล่าอย่าง SynthID เอาไว้ เพื่อความโปร่งใส และ ป้องกันปัญหาการใช้ AI ในทางที่ผิดหรือการปลอมแปลง
⚪ Gemini App (สำหรับผู้ใช้แผนพรีเมียม)
สำหรับผู้ใช้งานที่สมัครบริการสมาชิก Google One AI Premium (ไม่ว่าจะเป็นแพลน Plus, Pro หรือ Ultra) จะสามารถเข้าไปเปิดประสบการณ์ และ ทดลองสั่งการใช้งานโมเดล Gemini Omni Flash ผ่านหน้าแอปพลิเคชัน Gemini ได้ทันที
⚪ Google Flow
เป็นอีกหนึ่งแพลตฟอร์มที่เปิดให้ผู้ใช้บริการกลุ่ม Google AI (Plus, Pro, Ultra) สามารถเข้าไปใช้งานระบบปรับแต่ง และ แก้ไขวิดีโอของ Omni ได้อย่างเต็มรูปแบบ
  • ​ตัวอย่างการใช้งาน
1) เปลี่ยนน้องแมวธรรมดาให้กลายเป็น "แมงกะพรุนอวกาศ"
มีผู้ใช้งานรายหนึ่งทดลองอัปโหลดคลิปวิดีโอสัตว์เลี้ยงของตัวเองที่กำลังเดินเล่นอยู่ จากนั้นป้อนคำสั่งสั้นๆ แค่คำว่า "แมว + octopus (ปลาหมึกยักษ์)" โดยไม่ได้อธิบายรายละเอียดเพิ่มผลลัพธ์คือ Omni สามารถสร้างภาพสิ่งมีชีวิตสายพันธุ์ใหม่ที่เป็นครึ่งแมวครึ่งปลาหมึก มีหนวดขยับเคลื่อนไหวไปมาได้อย่างลื่นไหล และ กลมกลืนกับฉากเดิมอย่างน่าทึ่ง
2) การตลาดแนวข้นขำสไตล์ Absurd (ชุดสูทในป่าอเมซอน)
โปรดิวเซอร์วิดีโอรายหนึ่งได้ทำการทดสอบความนิ่งของตัวละคร (Character Consistency) โดยการนำคลิปพนักงานออฟฟิศใส่ชุดสูทธรรมดา ส่งให้ Omni จัดฉากย้ายไปอยู่ในสภาพแวดล้อมสุดขั้วถึง 20 รูปแบบ ตั้งแต่กลางป่าดงดิบอเมซอน ทะเลทรายซาฮารา ไปจนถึงสถานีรถไฟใต้ดินลอนดอน ปรากฏว่าหน้าตา และ โครงสร้างของตัวละครยังคงเดิมเป๊ะ ไม่บิดเบี้ยวแม้ฉากหลังจะเปลี่ยนไปสุดขั้วก็ตาม
3) Map to Video (จากภาพถ่ายดาวเทียมสู่ภาพยนตร์)
ผู้ใช้งานสาย Tech รายหนึ่งทำการบันทึกภาพหน้าจอ (Screenshot) จากหน้า Google Maps พร้อมเขียนเส้นทางสีแดง (Route) ลากผ่านถนน จากนั้นสั่งงาน Omni ว่า "จงสร้างวิดีโอแทนมุมมองจากสายตาคนขับรถ (First-person driving view) วิ่งไปตามเส้นทางนี้" ผลลัพธ์ที่ AI เจนออกมามีทัศนียภาพ ตึกรามบ้านช่อง และ ต้นไม้ข้างทางที่ใกล้เคียงกับภาพสถานที่จริงบนโลกอย่างน่าเหลือเชื่อ แสดงถึงความเข้าใจเชิงพื้นที่ (Spatial Understanding) ที่ยอดเยี่ยมของโมเดล
  • ​Veo คืออะไร มิติใหม่แห่งการเล่าเรื่องเสกวิดีโอ Cinematic ควบคู่ระบบเสียง Native Audio 👇
  • ​Nano Banana 2 คืออะไร ก้าวข้ามขีดจำกัดเดิมๆ ด้วย AI ที่คิดก่อนวาด 👇
  • ​THaLLE คืออะไร? ไม่ใช่แค่เข้าใจภาษาไทย แต่เข้าใจลึกถึงบริบทการเงินและการธนาคารอย่างแท้จริง 👇
Credit :
👇
  • ​https://www.blockdit.com/posts/6a0dbbcc9511660edee745fd
  • ​https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
  • ​https://www.fusionsol.com/en/blog/gemini-omni/
  • ​https://www.mindstudio.ai/blog/what-is-google-gemini-omni-multimodal-video-model
โฆษณา