ศึกช่วงชิง Data? เมื่อบริการด้าน AI กำลังอยู่ในช่วงเริ่มต้นของการแย่งชิงเค้กข้อมูลครั้งใหญ่ทั่วโลก
ผมว่าหลายคนคงรู้สึกเอ๊ะกันไม่มากก็น้อย จากการเปิดตัว Sora ของ OpenAI ที่ทำให้พวกเราได้สร้างวีดีโอระดับ professional ได้เพียงแค่ปลายนิ้ว ว่า Video Footages ที่ออกมานั้นมันมีความคุ้นมาก ๆ เหมือนมาจากหนังดัง หรือ animation เรื่องดัง ๆ แต่ถูกดัดแปลงผ่านเทคโนโลยี AI ให้กลายเป็นสิ่งใหม่
เป็นเรื่องที่น่าสนใจนะครับว่าเทคโนโลยีอย่างปัญญาประดิษฐ์หรือ AI จะนำไปสู่จุดจบของบางธุรกิจหรือไม่ ตัวอย่างเช่น Adobe เองที่เป็นผู้ผลิตซอฟต์แวร์ที่เกี่ยวข้องกับความคิดสร้างสรรค์ของมนุษย์ ที่กำลังโดนถาโถมอย่างหนักทั้งการสร้างภาพและวีดีโอผ่าน AI
ซึ่งเชื่อกันว่าโมเดล AI ล่าสุดจาก Google และ Meta สองยักษ์ใหญ่ทางด้านเทคโนโลยีได้รับการฝึกฝนโดยใช้ศัพท์มากกว่า 1 ล้านล้านคำ ซึ่งเมื่อเปรียบเทียบกันแล้ว ผลรวมของคำภาษาอังกฤษใน wikipedia สารานุกรมออนไลน์ อยู่ที่ประมาณ 4 พันล้านคำเพียงเท่านั้น
ในทำนองเดียวกันกับที่เกิดขึ้นกับ Chatbot AI จะให้คำตอบที่ดีกว่าเมื่อถูกขอให้อธิบายการทำงานทีละขั้นตอน ส่งผลให้มีความต้องการข้อมูลจากแหล่งต่าง ๆ โดยเฉพาะข้อมูลที่เป็นเฉพาะทาง เนื่องจากช่วยให้โมเดลปรับแต่งให้ใช้งานสำหรับงานเฉพาะกลุ่มมากยิ่งขึ้น
ตัวอย่างเช่น การซื้อ GitHub ของ Microsoft ซึ่งเป็นพื้นที่เก็บข้อมูลสำหรับการเขียนโค้ดทางด้านซอฟต์แวร์ด้วยมูลค่า 7.5 พันล้านดอลลาร์ในปี 2018 ช่วยให้บริษัทพัฒนาเครื่องมือ AI ในการเขียนโค้ดได้
Microsoft ได้พัฒนาเครื่องมือ AI ในการเขียนโค้ดได้ (CR:Open AI Master)
การขโมยผลงานแบบหน้าด้าน ๆ ของ AI
เมื่อความต้องการข้อมูลเพิ่มมากขึ้น การเข้าถึงข้อมูลก็ยิ่งยุ่งยากมากขึ้น โดยเหล่าครีเอเตอร์ในปัจจุบันได้มีการเรียกร้องค่าชดเชยสำหรับเนื้อหาที่ติดเข้าไปในโมเดล AI เพิ่มมากขึ้น ก่อให้เกิดคดีละเมิดลิขสิทธิ์หลายคดีเกิดขึ้นกับผู้สร้างโมเดล AI ในอเมริกา
2
ตัวอย่างเช่น กลุ่มนักเขียน รวมถึง Sarah Silverman นักแสดงตลกกำลังฟ้องร้อง Open AI ผู้สร้าง Chat GPT และ Meta หรือศิลปินกลุ่มหนึ่งกำลังฟ้องร้อง Stability AI ซึ่งสร้างเครื่องมือแปลงข้อความเป็นรูปภาพและ Midjourney ก็โดนฟ้องในกรณีเดียวกัน
หรือเคสของตำนานนักแสดงตลกอย่าง George Carlin ที่ครอบครัวได้ยื่นฟ้องผู้ที่สร้างวีดีโอโดยใช้ตัวตนของเขาผ่านเทคโนโลยี AI ซึ่งตัวของ Carlin ได้เสียชีวิตด้วยภาวะหัวใจล้มเหลวในปี 2008
การดำเนินการทางกฎหมายนี้แสดงให้เห็นว่า AI ที่เรากำลังตกตะลึงกับความสามารถของมันเช่น Sora ของ OpenAI ได้กลายเป็นหนึ่งในปัญหาที่ใหญ่ที่สุดในวงการบันเทิง และมีการประท้วงของนักเขียนในฮอลลีวูดเป็นเวลาหลายเดือนในปีที่ผ่านมา ส่วนหนึ่งเนื่องมาจากการใช้ AI ของสตูดิโอในการสร้างสคริปต์
ศึกช่วงชิง Data
เนื่องจากบริษัท AI ต่างแข่งขันกันเพื่อรักษาความปลอดภัยของแหล่งข้อมูล ในเดือนกรกฎาคม Open AI ลงนามข้อตกลงกับ Associated Press ซึ่งเป็นสำนักข่าว เพื่อเข้าถึงคลังเนื้อหา และเมื่อเร็ว ๆ นี้ Meta ได้ขยายข้อตกลงกับ Shutterstoock ซึ่งเป็นผู้ให้บริการภาพสต็อกชั้นนำของโลก
หรือ Google เองกำลังหารือกับ Universal Music ซึ่งเป็นค่ายเพลงดัง เพื่ออนุญาตให้ใช้เสียงของศิลปินเพื่อป้อนเครื่องมือ AI ในการแต่งเพลง Fidelity ซึ่งเป็นบริษัทด้านจัดการสินทรัพย์กล่าวว่าได้รับการทาบทามจากบริษัทเทคโนโลยีเพื่อขอให้เข้าถึงข้อมูลทางการเงินของตน
มีข่าวลือแพร่สะพัดเกี่ยวกับห้องปฏิบัติการ AI ที่อยู่ใกล้กับ BBC ซึ่งเป็นสถานีโทรทัศน์สาธารณะของสหราชอาณาจักรสำหรับการเข้าถึงคลังภาพและภาพยนตร์ เป้าหมายอีกแห่งหนึ่งคือ JSTOR ซึ่งเป็นห้องสมุดดิจิทัลสำหรับวารสารทางวิชาการ
แต่ก็ต้องบอกว่ามีธุรกิจไม่มากนักที่สนใจกับโครงสร้างข้อมูลเหล่านี้ ซึ่งส่วนใหญ่จะมีการจัดเก็บแบบไร้โครงสร้างซึ่งอาจจะไม่มีประโยชน์กับ AI และบ่อยครั้งที่มีการกระจายอยู่หลายระบบ โดยฝังอยู่ในเซิร์ฟเวอร์ของบริษัทมากกว่าในระบบคลาวด์
ซึ่งท้ายที่สุดการปลดล็อกข้อมูลดังกล่าวจะช่วยให้บริษัทต่าง ๆ ปรับแต่งเครื่องมือ AI เพื่อตอบสนองความต้องการเฉพาะของตนได้ดียิ่งขึ้น โดยเฉพาะธุรกิจที่ดำเนินการแบบเฉพาะของตนเองไม่ได้ต้องดำเนินการตามมาตรฐานสากล ซึ่งมันจะกลายเป็นขุมทรัพย์ที่สำคัญในอนาคต
เพราะฉะนั้นในตอนนี้ก็ยังไม่สายไปที่จะเริ่มมาจัดข้อมูลเหล่านี้ให้มีโครงสร้างที่พร้อมที่จะรับมือการเปลี่ยนแปลงที่จะเกิดขึ้น เพราะหากเริ่มก่อนก็จะเป็นการชิงความได้เปรียบก่อน และอาจจะส่งผลให้เอาชนะเกมธุรกิจได้ในยุคของเทคโนโลยี AI First ในวันข้างหน้าได้นั่นเองครับผม