Zero ETL เป็นคอนเซ็ปใหม่ในวงการ Data Engineering ที่หมายถึงการเตรียมข้อมูลโดยไม่ต้องทำ ETL โดยจะเป็น automatic pipeline ที่ย้ายข้อมูลดิบมายัง data warehouse โดยอาจจะมีการทำ transform เล็กน้อยโดยอัตโนมัติ เช่นการแปลงข้อมูล JSON จาก API ให้เป็นรูปแบบตาราง เป็นต้น ทำให้ผู้ใช้งานสามารถ query ข้อมูลจาก data warehouse ได้เองโดยตามที่ต้องการ (ตามสิทธิของการเข้าถึงข้อมูล) และได้ใช้ข้อมูลที่อัพเดทแบบ real time
ดังนั้น ผมจึงอยากให้มองว่า Zero ETL คือการ integrate data warehouse product เข้ากับฐานข้อมูลโดยอัตโนมัติ และอาจจะ integrate หลาย ๆ ฐานข้อมูลเข้าด้วยกันได้ ดังนั้นสิ่งที่แตกต่างจากการให้ผู้ใช้งาน query database เองก็คือ ผู้ใช้งานสามารถใช้ฟีเจอร์ต่าง ๆ ของ data warehouse product ไปพร้อมกันได้
Zero ETL กับการนำมาใช้
นอกจาก AWS ที่เป็นผู้ที่เริ่มใช้คำนี้แล้ว ก็มีผู้ให้บริการ Big Data อีกหลายแพลตฟอร์มที่มีฟีเจอร์นี้ เช่น Google Cloud Platform (BigTable to BigQuery) และ Snowflake (Unistore) และมีฟีเจอร์ของ Snowflake (Secure Data Sharing) และ Databricks (Delta Sharing) เป็นการแชร์ข้อมูลโดยไม่คัดลอก “no copy data sharing” ซึ่งทำงานไม่เหมือนกับ Zero ETL แต่ให้ผลลัพธ์ที่คล้ายกัน
Cloud platform ชื่อดังต่าง ๆ ก็เริ่มได้นำคอนเซ็ป Zero ETL มาใช้กันแล้ว ผมจึงคิดว่าธุรกิจใหม่ ๆ ในอนาคตที่เลือกใช้ platform เหล่านั้น น่าจะได้นำ Zero ETL มาใช้เพิ่มความสามารถในการวิเคราห์ข้อมูลในแบบ real time กันมากขึ้น ส่วนระบบเก่า ๆ ที่ไม่ได้ใช้ cloud platform ตั้งแต่แรกไม่น่าจะได้รับผลกระทบอะไรมากนัก โดย Zero ETL อาจจะเป็นแค่ข้อดีเล็ก ๆ ข้อหนึ่งของการย้ายไปใช้ cloud platform เท่านั้น
สรุปข้อดีและข้อเสีย Zero ETL
ข้อดี
●
ความเร็วสูง
●
ลด latency ของข้อมูล
●
ไม่มีการ copy ข้อมูล
●
User สามารถใช้งานข้อมูลได้โดยไม่จำเป็นต้องรอให้ Data Engineer เตรียมข้อมูล
●
ลด manual process ในการเตรียมข้อมูล ทำให้ลดความผิดพลาดได้
สิ่งที่จะเกิดขึ้นต่อไป – การวิเคราะห์ข้อมูลแบบบริการตนเอง (Self Service Data Analytics) ที่แท้จริง
One Big Table and Large Language Model – ไอเดียหลัก ๆ คือรวมข้อมูลดิบทุกอย่าง ทุกคอลัมน์ บนตารางขนาดใหญ่ตารางเดียว (One Big Table) และใช้โมเดลภาษาขนาดใหญ่ (Large Language Model) อย่างเช่น GPT-4 ในการทำการ query ข้อมูลตามคำสั่งที่เป็นภาษาธรรมชาติ (natural language) ของผู้ใช้งาน คอนเซ็ปนี้ยังอยู่ในขั้นพัฒนา โดยมีสตาร์ทอัพที่ผลักดันไอเดียนี้ ได้แก่ Delphi, GetDot.AI และ Narrator
ข้อสรุป
Zero ETL เป็นการ transform กระบวนการเตรียมข้อมูล ให้เป็นไปอย่างอัตโนมัติ โดยในปัจจุบันมี Big Data platform ชื่อดังหลาย ๆ แพลตฟอร์มได้ทำออกมาให้ใช้แล้ว ผลกระทบหลัก ๆ คือ ทำให้ผู้ใช้งานข้อมูล (Data Scientist, Data Analyst) สามารถใช้ข้อมูลได้โดยไม่จำเป็นต้องรอคนเตรียมข้อมูลให้ และมีผลกับ Data Engineer ที่จะไม่ต้องทำงาน manual ตามความต้องการที่หลากหลายของผู้ใช้งาน เปลี่ยนมาเป็นทำการออกแบบ automated data pipeline แทน
ผมคิดว่า Zero ETL เป็นคอนเซ็ปที่มีประโยชน์ และเป็นก้าวหนึ่งของการ automate การทำงาน เพื่อให้คนทำงานได้มีประสิทธิภาพมากขึ้น ถึงแม้ Zero ETL อาจจะเป็นการโฆษณาฟีเจอร์หนึ่งของ Big Data platform แต่ผมคิดว่า Zero ETL เป็นฟีเจอร์ที่ดี และสร้าง impact ให้กับผู้ใช้งานได้จริงครับ