เทคโนโลยี AI ที่ใช้สร้างเสียงสังเคราะห์ของ Microsoft ได้รับพัฒนาขึ้นมาจากเทคโนโลยีการบับอัด และเข้ารหัสเสียง ที่ Meta บริษัทแม่ของ Facebook เคยพัฒนาขึ้นเมื่อช่วงปลายปีที่แล้ว เพื่อใช้ในการเพิ่มคุณภาพเสียงสนทนาทางโทรศัพท์ ในพื้นที่ที่มีคุณภาพสัญญาณไม่ดี
แต่ Microsoft ได้นำเทคโนโลยีของ Meta มาต่อยอด ให้กลายเป็นเทคโนโลยี AI ที่สามารถสังเคราะห์เสียง เลียนแบบเสียงพูดของมนุษย์ ได้อย่างเป็นธรรมชาติ โดยใช้เสียงต้นแบบที่มีความยาวเพียง 3 วินาที เท่านั้น
ในการฝึก AI Microsoft ได้ใช้เสียงพูดต้นแบบ ที่เป็นภาษาอังกฤษ ความยาวกว่า 60,000 ชั่วโมง จากบุคคลที่แตกต่างกันถึง 7,000 คน
เช่น หากเสียงต้นฉบับ เป็นเสียงที่คุยผ่านโทรศัพท์ ซึ่งมีความอู้อี้ ไม่ได้ชัดเจนเหมือนเสียงพูดปกติ AI ก็จะพยายามจำลองให้เสียงที่ได้รับการสังเคราะห์ขึ้นมา ยังคงมีสภาพแวดล้อมเหล่านั้นอยู่ด้วย
นอกจากนี้ เทคโนโลยี AI VALL-E ของ Microsoft ยังสามารถสร้างเสียงสังเคราะห์อื่น ๆ เพิ่มเติมได้ โดยที่เสียงต้นแบบ ซึ่งเป็นมนุษย์จริง ๆ ไม่เคยพูดไว้เลย
อย่างไรก็ตาม ในบางครั้ง Microsoft ก็พบว่า คุณภาพเสียง ที่ AI สังเคราะห์ออกมานั้น ไม่ได้มีคุณภาพที่ดี 100% เพราะในบางครั้งเสียงที่ AI สังเคราะห์ออกมา อาจมีสำเนียงการพูด ที่แตกต่างจากเสียงพูดต้นฉบับ
ย้อนกลับไปก่อนหน้านี้ การใช้เทคโนโลยี AI เพื่อสร้างเสียงสังเคราะห์เลียนแบบการพูดของมนุษย์ มีการใช้งานกันอย่างแพร่หลาย
ในขณะที่เทคโนโลยี AI ของ Microsoft ใช้เสียงต้นแบบความยาวเพียง 3 วินาที จึงเป็นการเปิดทางให้ใคร ๆ ก็สามารถสร้างเสียงสังเคราะห์ของตัวเองขึ้นมาได้ โดยไม่จำเป็นต้องใช้เวลา รวมถึงงบประมาณมหาศาล เหมือนอย่างที่เคยเป็นมาในอดีต
อย่างไรก็ตาม ในขณะนี้ Microsoft ยังไม่ได้เปิดให้ใคร ๆ ก็ได้ สามารถเข้าไปทดลองใช้เทคโนโลยี AI สร้างเสียงสังเคราะห์ด้วยตัวเอง เพราะตัวเทคโนโลยี AI นี้ ยังคงมีข้อบกพร่อง ที่ต้องได้รับการพัฒนา เพื่อแก้ไขเพิ่มเติมในอนาคต
รวมถึงยังมีความเสี่ยง ที่อาจมีผู้ไม่หวังดี นำเทคโนโลยีสังเคราะห์เสียงด้วย AI ของ Microsoft ไปใช้ในทางที่ผิด ซึ่งอาจส่งผลเสียต่อสังคมโดยรวมได้
แต่หากใครต้องการทดลองฟังเสียงสังเคราะห์ที่สร้างขึ้นโดย AI VALL-E ของ Microsoft สามารถเข้าไปฟังได้ที่ลิ้งก์นี้ > https://valle-demo.github.io/