17 ก.พ. เวลา 00:09 • วิทยาศาสตร์ & เทคโนโลยี

ศึกช่วงชิง Data? เมื่อบริการด้าน AI กำลังอยู่ในช่วงเริ่มต้นของการแย่งชิงเค้กข้อมูลครั้งใหญ่ทั่วโลก

ผมว่าหลายคนคงรู้สึกเอ๊ะกันไม่มากก็น้อย จากการเปิดตัว Sora ของ OpenAI ที่ทำให้พวกเราได้สร้างวีดีโอระดับ professional ได้เพียงแค่ปลายนิ้ว ว่า Video Footages ที่ออกมานั้นมันมีความคุ้นมาก ๆ เหมือนมาจากหนังดัง หรือ animation เรื่องดัง ๆ แต่ถูกดัดแปลงผ่านเทคโนโลยี AI ให้กลายเป็นสิ่งใหม่
เป็นเรื่องที่น่าสนใจนะครับว่าเทคโนโลยีอย่างปัญญาประดิษฐ์หรือ AI จะนำไปสู่จุดจบของบางธุรกิจหรือไม่ ตัวอย่างเช่น Adobe เองที่เป็นผู้ผลิตซอฟต์แวร์ที่เกี่ยวข้องกับความคิดสร้างสรรค์ของมนุษย์ ที่กำลังโดนถาโถมอย่างหนักทั้งการสร้างภาพและวีดีโอผ่าน AI
เครื่องมือใหม่ ๆ อย่าง DALL-E , Midjourney หรือแม้กระทั่งตัวใหม่ล่าสุดอย่าง Sora ซึ่งสามารถที่จะเสกรูปหรือวีดีโออะไรก็ได้จากข้อความ มันทำให้ดูเหมือนคนจะเลิกใช้แอปพลิเคชั่นอย่าง Adobe หรือไม่?
3
แต่กลับกันด้วยการที่ Adobe ได้สั่งสมภาพถ่ายสต็อกหลายร้อยล้านภาพมานาน พวกเขาสามารถนำมันมาใช้เพื่อสร้างเครื่องมือ AI ของตัวเองที่มีชื่อว่า Firefly โดยนับตั้งแต่เปิดตัวในเดือนมีนาคม เครื่องมือดังกล่าวได้ถูกนำมาใช้เพื่อสร้างภาพมากกว่า 1 พันล้านภาพแล้ว
1
ชัยชนะของ Adobe เหนือเทคโนโลยีที่คิดว่าจะมา disrupted ในหลายธุรกิจอย่าง AI นั้น แสดงให้เห็นวิธีการที่บริษัทยักษ์ใหญ่ได้เข้ามาเป็นส่วนหนึ่งและเกาะกระแสไปกับเทคโนโลยีดังกล่าวนี้
คลื่นลูกล่าสุดของเทคโนโลยี AI อย่าง “Generative AI” ได้อาศัยข้อมูลจำนวนมหาศาล ซึ่งล้วนแล้วมาจากอินเทอร์เน็ต และบางส่วนก็เป็นข้อมูลที่ไม่ได้รับอนุญาต ตอนนี้เหล่าบริษัทเทคโนโลยีกำลังมองหาแหล่งข้อมูลใหม่เพื่อเพิ่มประสิทธิภาพของมัน
ส่วนประกอบที่สำคัญสองประการสำหรับโมเดล AI คือ ชุดข้อมูลที่ได้รับการฝึกอบรม และพลังการประมวลผล ซึ่งโมเดลจะมีการตรวจจับความสัมพันธ์ระหว่างชุดข้อมูลเหล่านี้ โดยโมเดลสามารถปรับปรุงได้โดยการนำเข้าข้อมูลมากขึ้นหรือเพิ่มพลังการประมวลผลให้มากยิ่งขึ้น
2
อย่างไรก็ดี ท่ามกลางปัญหาขาดแคลนชิปที่เกิดขึ้น ทำให้ประเด็นในเรื่องการเพิ่มพลังการประมวลผลเป็นสิ่งที่ทำได้ยาก เพราะฉะนั้นตอนนี้ทุกฝ่ายมุ่งไปที่การเพิ่มคลังข้อมูลเป็นหลัก
AI สูบข้อมูลเร็วกว่าที่มันจะถูกสร้าง
หลายคนอาจจะคิดว่า โห โลกเรามีข้อมูลล้นเหลือและมีการสร้างขึ้นทุกวันในโลกออนไลน์ทั้งผ่านเครือข่ายโซเชียลมีเดีย เว็บไซต์ หรือ แพลตฟอร์มวีดีโอสตรีมมิ่งต่าง ๆ
แต่สิ่งที่น่าสนใจก็คือ AI มันสูบข้อมูลจนจะหมดโลกแล้วและทำด้วยอัตราเร่งที่มีความเร็วสูงมาก ๆ เช่นเดียวกัน
ตัวอย่างเช่น ความต้องการข้อมูลที่เติบโตเร็วมาก ๆ จนสต็อกข้อความคุณภาพสูงสำหรับการฝึกอบรมอาจหมดลงภายในปี 2026
ซึ่งเชื่อกันว่าโมเดล AI ล่าสุดจาก Google และ Meta สองยักษ์ใหญ่ทางด้านเทคโนโลยีได้รับการฝึกฝนโดยใช้ศัพท์มากกว่า 1 ล้านล้านคำ ซึ่งเมื่อเปรียบเทียบกันแล้ว ผลรวมของคำภาษาอังกฤษใน wikipedia สารานุกรมออนไลน์ อยู่ที่ประมาณ 4 พันล้านคำเพียงเท่านั้น
ไม่ใช่เพียงแค่ขนาดของข้อมูลเท่านั้นที่มีความสำคัญ ยิ่งข้อมูลดี โมเดลก็ยิ่งดีขึ้น โมเดลที่ใช้ข้อความที่ได้รับการฝึกอบรมอย่างดีในเรื่องรูปแบบข้อความยาว ๆ มักจะตอบได้ดี และจะตอบได้ถูกต้องตามความเป็นจริง
2
ในทำนองเดียวกันกับที่เกิดขึ้นกับ Chatbot AI จะให้คำตอบที่ดีกว่าเมื่อถูกขอให้อธิบายการทำงานทีละขั้นตอน ส่งผลให้มีความต้องการข้อมูลจากแหล่งต่าง ๆ โดยเฉพาะข้อมูลที่เป็นเฉพาะทาง เนื่องจากช่วยให้โมเดลปรับแต่งให้ใช้งานสำหรับงานเฉพาะกลุ่มมากยิ่งขึ้น
ตัวอย่างเช่น การซื้อ GitHub ของ Microsoft ซึ่งเป็นพื้นที่เก็บข้อมูลสำหรับการเขียนโค้ดทางด้านซอฟต์แวร์ด้วยมูลค่า 7.5 พันล้านดอลลาร์ในปี 2018 ช่วยให้บริษัทพัฒนาเครื่องมือ AI ในการเขียนโค้ดได้
Microsoft ได้พัฒนาเครื่องมือ AI ในการเขียนโค้ดได้ (CR:Open AI Master)
การขโมยผลงานแบบหน้าด้าน ๆ ของ AI
เมื่อความต้องการข้อมูลเพิ่มมากขึ้น การเข้าถึงข้อมูลก็ยิ่งยุ่งยากมากขึ้น โดยเหล่าครีเอเตอร์ในปัจจุบันได้มีการเรียกร้องค่าชดเชยสำหรับเนื้อหาที่ติดเข้าไปในโมเดล AI เพิ่มมากขึ้น ก่อให้เกิดคดีละเมิดลิขสิทธิ์หลายคดีเกิดขึ้นกับผู้สร้างโมเดล AI ในอเมริกา
2
ตัวอย่างเช่น กลุ่มนักเขียน รวมถึง Sarah Silverman นักแสดงตลกกำลังฟ้องร้อง Open AI ผู้สร้าง Chat GPT และ Meta หรือศิลปินกลุ่มหนึ่งกำลังฟ้องร้อง Stability AI ซึ่งสร้างเครื่องมือแปลงข้อความเป็นรูปภาพและ Midjourney ก็โดนฟ้องในกรณีเดียวกัน
หรือเคสของตำนานนักแสดงตลกอย่าง George Carlin ที่ครอบครัวได้ยื่นฟ้องผู้ที่สร้างวีดีโอโดยใช้ตัวตนของเขาผ่านเทคโนโลยี AI ซึ่งตัวของ Carlin ได้เสียชีวิตด้วยภาวะหัวใจล้มเหลวในปี 2008
วีดีโอดังกล่าวปรากฎในช่อง Youtube ที่มีชื่อว่า Dudesy โดยใช้ชื่อวีดีโอว่า “George Carlin: I’m glad I’m dead,” ซึ่งทางครอบครัวของ Carlin ได้ยื่นฟ้องต่อศาลรัฐบาลกลางแคลิฟอร์เนีย โดยกล่าวหาว่ามีการละเมิดลิขสิทธิ์ในการเผยแพร่สู่สาธารณะสำหรับภาพลักษณ์ของนักแสดงตลกผู้ล่วงลับ
George Carlin นักแสดงตลกผู้ล่วงลับ (CR:nbcnews)
แม้ว่าจะไม่มีการแสดงภาพของ Carlin แบบชัดเจน ซึ่งในวีดีโอดังกล่าวจะแสดงรูปภาพที่สร้างโดย AI แทน แต่เสียงพูดนั้นเป็นเสียงของ Carlin ที่ทุกคนคุ้นเคย ในเรื่องต่าง ๆ เช่น ศาสนาและการเมือง ขณะเดียวกันก็มีการพูดถึงการเสียชีวิตของนักแสดงตลกด้วย
การดำเนินการทางกฎหมายนี้แสดงให้เห็นว่า AI ที่เรากำลังตกตะลึงกับความสามารถของมันเช่น Sora ของ OpenAI ได้กลายเป็นหนึ่งในปัญหาที่ใหญ่ที่สุดในวงการบันเทิง และมีการประท้วงของนักเขียนในฮอลลีวูดเป็นเวลาหลายเดือนในปีที่ผ่านมา ส่วนหนึ่งเนื่องมาจากการใช้ AI ของสตูดิโอในการสร้างสคริปต์
ศึกช่วงชิง Data
เนื่องจากบริษัท AI ต่างแข่งขันกันเพื่อรักษาความปลอดภัยของแหล่งข้อมูล ในเดือนกรกฎาคม Open AI ลงนามข้อตกลงกับ Associated Press ซึ่งเป็นสำนักข่าว เพื่อเข้าถึงคลังเนื้อหา และเมื่อเร็ว ๆ นี้ Meta ได้ขยายข้อตกลงกับ Shutterstoock ซึ่งเป็นผู้ให้บริการภาพสต็อกชั้นนำของโลก
หรือ Google เองกำลังหารือกับ Universal Music ซึ่งเป็นค่ายเพลงดัง เพื่ออนุญาตให้ใช้เสียงของศิลปินเพื่อป้อนเครื่องมือ AI ในการแต่งเพลง Fidelity ซึ่งเป็นบริษัทด้านจัดการสินทรัพย์กล่าวว่าได้รับการทาบทามจากบริษัทเทคโนโลยีเพื่อขอให้เข้าถึงข้อมูลทางการเงินของตน
มีข่าวลือแพร่สะพัดเกี่ยวกับห้องปฏิบัติการ AI ที่อยู่ใกล้กับ BBC ซึ่งเป็นสถานีโทรทัศน์สาธารณะของสหราชอาณาจักรสำหรับการเข้าถึงคลังภาพและภาพยนตร์ เป้าหมายอีกแห่งหนึ่งคือ JSTOR ซึ่งเป็นห้องสมุดดิจิทัลสำหรับวารสารทางวิชาการ
ผู้ที่ถือครองข้อมูลที่เปรียบเสมือนทองคำในขณะนี้กำลังใช้ประโยชน์จากอำนาจต่อรองมากขึ้น Reddit ฟอรัมสนทนาชื่อดังและ Stack Overflow ซึ่งเป็นเว็บไซต์ถามตอบที่ได้รับความนิยมของกลุ่มผู้เขียนโค้ด ได้คิดค่าใช้จ่ายเพิ่มเติมสำหรับบริการใด ๆ ที่ต้องการมาดูดข้อมูลจากเขา
Reddit ที่มีคลังข้อมูลที่มีคุณค่ามหาศาลสำหรับ AI (CR:Reddit)
ตรงนี้ค่อนข้างน่าสนใจเพราะประเทศไทยเราเองก็มีแหล่งข้อมูลทั้งในฟอรัมต่าง ๆ เช่น pantip เองที่กลายเป็นเครื่องมือสำคัญ ๆ ในการค้นหาลำดับต้น ๆ ของคนไทยเรา หรือแพลตฟอร์มใหม่ ๆ อย่าง blockdit เอง ที่สุดท้ายแล้วข้อมูลจำนวนมหาศาลที่เก็บไว้จะกลับมาสร้างรายได้มากมายให้กับพวกเขาในอนาคต
ขยายขอบเขตสู่คลังข้อมูลทางธุรกิจ
ความน่าสนใจก็คือ มีแหล่งข้อมูลอีกแห่งที่ใหญ่มาก ๆ ที่ส่วนใหญ่ยังไม่ได้ถูกนำมาใช้งาน นั่นก็คือข้อมูลที่อยู่ภายใต้กำแพงขององค์กรธุรกิจต่างๆ ที่มีอยู่ทั่วทุกมุมโลก
ธรุกิจจำนวนมากมีข้อมูลที่เป็นประโยชน์จำนวนมหาศาลโดยไม่รู้ตัว ตั้งแต่บันทึกในการโทรศัพท์ของศูนย์บริการไปจนถึงบันทึกค่าใช้จ่ายของลูกค้า ข้อมูลดังกล่าวมีคุณค่าอย่างยิ่งเนื่องจากสามารถใช้เพื่อปรับแต่งโมเดลเพื่อวัตถุประสงค์ทางธุรกิจที่เฉพาะเจาะจงได้ เช่น ช่วยให้พนักงานคอลเซ็นเตอร์ตอบคำถามของลูกค้า หรือนักวิเคราะห์ธุรกิจที่มองเห็นวิธีในการเพิ่มยอดขายได้
แต่ก็ต้องบอกว่ามีธุรกิจไม่มากนักที่สนใจกับโครงสร้างข้อมูลเหล่านี้ ซึ่งส่วนใหญ่จะมีการจัดเก็บแบบไร้โครงสร้างซึ่งอาจจะไม่มีประโยชน์กับ AI และบ่อยครั้งที่มีการกระจายอยู่หลายระบบ โดยฝังอยู่ในเซิร์ฟเวอร์ของบริษัทมากกว่าในระบบคลาวด์
ซึ่งท้ายที่สุดการปลดล็อกข้อมูลดังกล่าวจะช่วยให้บริษัทต่าง ๆ ปรับแต่งเครื่องมือ AI เพื่อตอบสนองความต้องการเฉพาะของตนได้ดียิ่งขึ้น โดยเฉพาะธุรกิจที่ดำเนินการแบบเฉพาะของตนเองไม่ได้ต้องดำเนินการตามมาตรฐานสากล ซึ่งมันจะกลายเป็นขุมทรัพย์ที่สำคัญในอนาคต
เพราะฉะนั้นในตอนนี้ก็ยังไม่สายไปที่จะเริ่มมาจัดข้อมูลเหล่านี้ให้มีโครงสร้างที่พร้อมที่จะรับมือการเปลี่ยนแปลงที่จะเกิดขึ้น เพราะหากเริ่มก่อนก็จะเป็นการชิงความได้เปรียบก่อน และอาจจะส่งผลให้เอาชนะเกมธุรกิจได้ในยุคของเทคโนโลยี AI First ในวันข้างหน้าได้นั่นเองครับผม
◤━━━━━━━━━━━━━━━◥
หากคุณชอบคอนเทนต์นี้อย่าลืม 'กดไลก์'
หากคอนเทนต์นี้โดนใจอย่าลืม 'กดแชร์'
คิดเห็นอย่างไรคอมเม้นต์กันได้เลยครับผม
◣━━━━━━━━━━━━━━━◢
The original article appeared here https://www.tharadhol.com/ai-data-war/
ติดตามสาระดี ๆ อัพเดททุกวันผ่าน Line OA ด.ดล Blog
คลิกเลย --> https://lin.ee/aMEkyNA
รวม Blog Post ที่มีผู้อ่านมากที่สุด
——————————————–
ติดตาม ด.ดล Blog เพิ่มเติมได้ที่
=========================
โฆษณา