🔸มาต่อกันที่คำศัพท์ด้าน Big Data ใน Big Data Vocabulary ระดับความยาก Level 3 ซึ่งเพิ่มคำศัพท์เชิง Technical ที่น่าสนใจและพบเจอได้บ่อยในสาย Big Data ตอบได้กี่คำกันบ้าง มาแชร์กันเลย!
Data Lake ทะเลสาปข้อมูล คือพื้นที่ที่ถูกออกแบบมาเพื่อจัดเก็บและประมวลผลข้อมูลดิบขนาดใหญ่แบบรวมศูนย์ ซึ่งเป็นข้อมูลที่มาจากแหล่งที่มาที่หลากหลาย สามารถจัดเก็บข้อมูลได้ทั้งแบบ Structure Data (ข้อมูลที่มี
โครงสร้างชัดเจน) Unstructured Data (ข้อมูลที่ไม่มีโครงสร้าง) และ Semi-Structured Data (ข้อมูลกึ่งมีโครงสร้าง)
โดยในปัจจุบันเนื่องจากความต้องการขององค์กรต่าง ๆ ต้องการสำรวจข้อมูลมหาศาลทำ Data Analytics และ Data Science เพื่อค้นหาประโยชน์จากข้อมูล ทำให้ Data lake เป็นอีกหนึ่งเทคโนโลยีที่ถูกให้ความสำคัญเป็นอย่างมาก ซึ่งการจัดเก็บข้อมูลไว้ในที่เดียวแบบรวมศูนย์ทำให้องค์กรสามารถเข้าถึงข้อมูลได้ง่ายและรวดเร็วขึ้น
Data Warehouse คลังเก็บข้อมูล คือพื้นที่จัดเก็บข้อมูลขนาดใหญ่ ที่รองรับการจัดเก็บ Structure Data (ข้อมูลที่มีโครงสร้างชัดเจน) และ Semi-Structured Data (ข้อมูลกึ่งมีโครงสร้าง) *ในกรณีที่สร้างระบบ Data warehouse แบบขั้นสูง สามารถรวมข้อมูลจากทุกแหล่งที่ต้องการทั้งหมดไว้ในที่เดียว ตามหลักการ Single source of truth
โดย Data warehouse มีจุดประสงค์หลักคือจัดเก็บข้อมูล การสืบค้นที่รวดเร็วและวิเคราะห์ข้อมูล จึงมีฟังก์ชันที่รองรับการจัดเก็บและบริหารจัดการโครงสร้างข้อมูล และสามารถกรองหรือปรับเปลี่ยนข้อมูลเพื่อให้ได้ข้อมูลที่มีคุณภาพ เพื่อนำไปใช้ในการวิเคราะห์ข้อมูล และการทำ Business Intelligence ช่วยให้องค์กรสามารถหา Insight จากข้อมูล และนำไปใช้ประกอบการตัดสินใจในการดำเนินงานด้านต่าง ๆ อย่างมีประสิทธิภาพ
Data Mart ส่วนย่อยของคลังข้อมูลทั้งหมดในองค์กร มีลักษณะเป็นคลังข้อมูลขนาดเล็กที่จัดเก็บข้อมูลแบบเจาะจงเฉพาะด้าน เช่น ข้อมูลการขาย การเงิน ทรัพยากรบุคคล หรือข้อมูลด้านการตลาด เป็นต้น ข้อดีของการทำ Data mart คือสามารถสร้างคลังข้อมูลขึ้นมาได้ด้วยเวลาที่รวดเร็ว และนำข้อมูลไปใช้ประโยชน์ได้สะดวกมากยิ่งขึ้น
Data Mesh สถาปัตยกรรมแบบกระจายสำหรับการจัดการข้อมูล ถูกออกแบบมาเพื่อแก้ไขปัญหาทีมข้อมูลส่วนกลาง ที่ไม่สามารถบริหารจัดการข้อมูลและเข้าใจข้อมูลในแต่ละโดเมน โดยสถาปัตยกรรมนี้เป็นการวางโครงสร้างการจัดการข้อมูลด้วยแนวคิด Data ownership ทีมที่เป็นเจ้าของโดเมนเป็นผู้รับผิดชอบในการบริหารจัดการข้อมูล, Data as a product
โดยเจ้าของโดเมนสามารถเตรียมข้อมูลที่จำเป็นต่อการใช้งานและมีคุณภาพ, Data available everywhere and self-serve ที่ข้อมูลสามารถเข้าถึงได้จากทุกที่ และสามารถทำได้ด้วยตัวเอง และ Federated governance ที่การทำเรื่อง Data Governance จะถูกรับผิดชอบโดยเจ้าของโดเมนนั้น ๆ