เราเรียกคนเหล่านี้ว่า Data Engineer; DE หรือ วิศวกรข้อมูล ด้วยเหตุนี้วิศวกรข้อมูลจึงเป็นที่ต้องการในตลาดแรงงานมากขึ้นทุกวัน โดยในบทความนี้จะขอกล่าวถึงบทบาทของ Data Engineer ว่าคืออะไร และมีหน้าที่อย่างไรบ้าง
เช่นการทำ ETL หรือการทำความสะอาดข้อมูล (Cleasing Data) ก่อนที่จะนำไปเก็บไว้ที่ Data Lake หรือ Data Warehouse นอกจากนี้ยังต้องออกแบบและจัดการแพลตฟอร์มสำหรับโครงสร้างพื้นฐาน (Infrastructure) ของ Big Data และวิธีการเก็บข้อมูลทั้งหมด เพื่อให้เก็บข้อมูลให้มีประสิทธิภาพและง่ายต่อการไปใช้งาน อีกทั้งยังต้องจัดเตรียมช่องทางสำหรับให้คนอื่นที่ต้องการนำข้อมูลไปใช้ต่อผ่านทาง API, ฐานข้อมูล, หรือในรูปแบบไฟล์
อาวุธของวิศวกรข้อมูลมีอะไร
ไม่มีเครื่องมืออะไรที่จะสามารถทำได้ทุกอย่างหรือเหมาะสำหรับทุกรูปแบบธุรกิจ ทำให้วิศวกรข้อมูลจำเป็นต้องเรียนรู้เครื่องมือหลายตัวเพื่อใช้จัดการกับ Data Flow ทั้งนี้การเลือกเครื่องมือขึ้นอยู่กับความเหมาะสมของลักษณะงาน โดยแบ่งได้เป็น
●
Data Ingestion เป็นเครื่องมือสำหรับนำเข้าข้อมูลเข้าสู่ Data Lake หรือ Data Warehouse จากหลายแหล่งหลายหลายรูปแบบ ตัวอย่างเครื่องมือเช่น Apache Airflow, Apache Nifi, Azure Data Factory
Data Storage เป็นที่พักข้อมูลหรือเก็บข้อมูล เพื่อรอสำหรับการแจกจ่ายและนำไปใช้ต่อ เป็นส่วนสำคัญเช่นกัน ขึ้นอยู่กับว่าจะเก็บรูปแบบไหน ลักษณะไหน และเก็บที่ไหน เช่นใน Data Lake หรือ Data Warehouse ตามประเภทของข้อมูลและการนำไปใช้ต่อ เพื่อให้สามารถเข้าถึงได้ง่ายและรวดเร็ว
Distribution System เนื่องจากวิศวกรข้อมูลต้องทำงานกับข้อมูลที่เป็น Big Data การทำงานด้วยระบบที่เป็นลักษณะเครื่องเดียว อาจจะไม่เพียงพอสำหรับการเก็บ และการประมวลผล อีกทั้งยังขยายได้ลำบาก Distribution System จึงถือว่าเป็นเครื่องมือที่สำคัญ โดยเครื่องมือที่เป็นที่รู้จักก็คือ Hadoop
Unix Shell Script เนื่องจากวิศวกรข้อมูล จำเป็นต้องทำงานกับ Server ที่เป็น linux และไม่มี GUI จึงหลีกเลี่ยงไม่ได้ที่ต้องรู้ shell script พื้นฐานในการจัดการกับ Server
Data Processing และ Algorithm เพื่อให้สามารถจัดการข้อมูลได้อย่างรวดเร็ว และมีประสิทธิภาพในการเตรียมข้อมูล
●
Distribution System เพราะเป็นสิ่งที่วิศวกรข้อมูลหลีกเลี่ยงไม่ได้ที่จะต้องพบ เนื่องจากต้องจัดการกับข้อมูลจำนวนมาก จึงต้องเข้าใจการทำงานของ Distribution System