25 พ.ค. 2022 เวลา 07:27 • วิทยาศาสตร์ & เทคโนโลยี
🔸มาต่อกันที่คำศัพท์ด้าน Big Data ใน Big Data Vocabulary ระดับความยาก Level 3 ซึ่งเพิ่มคำศัพท์เชิง Technical ที่น่าสนใจและพบเจอได้บ่อยในสาย Big Data ตอบได้กี่คำกันบ้าง มาแชร์กันเลย!
🔸ทดสอบความรู้คำศัพท์พื้นฐาน ใน Big Data Vocabulary Level 1 คลิก > https://bit.ly/VocabLevel1 และ Level 2 คลิก > https://bit.ly/VocabLevel2
Data Lake ทะเลสาปข้อมูล คือพื้นที่ที่ถูกออกแบบมาเพื่อจัดเก็บและประมวลผลข้อมูลดิบขนาดใหญ่แบบรวมศูนย์ ซึ่งเป็นข้อมูลที่มาจากแหล่งที่มาที่หลากหลาย สามารถจัดเก็บข้อมูลได้ทั้งแบบ Structure Data (ข้อมูลที่มี
โครงสร้างชัดเจน) Unstructured Data (ข้อมูลที่ไม่มีโครงสร้าง) และ Semi-Structured Data (ข้อมูลกึ่งมีโครงสร้าง)
โดยไม่จำเป็นต้องทำการแปลงรูปแบบข้อมูลก่อน อีกทั้งยังมีต้นทุนในการจัดเก็บที่ค่อนข้างต่ำ และมีความยืดหยุ่นในการจัดเก็บ ประมวลผล และใช้งานข้อมูลสูง
โดยในปัจจุบันเนื่องจากความต้องการขององค์กรต่าง ๆ ต้องการสำรวจข้อมูลมหาศาลทำ Data Analytics และ Data Science เพื่อค้นหาประโยชน์จากข้อมูล ทำให้ Data lake เป็นอีกหนึ่งเทคโนโลยีที่ถูกให้ความสำคัญเป็นอย่างมาก ซึ่งการจัดเก็บข้อมูลไว้ในที่เดียวแบบรวมศูนย์ทำให้องค์กรสามารถเข้าถึงข้อมูลได้ง่ายและรวดเร็วขึ้น
Data Warehouse คลังเก็บข้อมูล คือพื้นที่จัดเก็บข้อมูลขนาดใหญ่ ที่รองรับการจัดเก็บ Structure Data (ข้อมูลที่มีโครงสร้างชัดเจน) และ Semi-Structured Data (ข้อมูลกึ่งมีโครงสร้าง) *ในกรณีที่สร้างระบบ Data warehouse แบบขั้นสูง สามารถรวมข้อมูลจากทุกแหล่งที่ต้องการทั้งหมดไว้ในที่เดียว ตามหลักการ Single source of truth
โดย Data warehouse มีจุดประสงค์หลักคือจัดเก็บข้อมูล การสืบค้นที่รวดเร็วและวิเคราะห์ข้อมูล จึงมีฟังก์ชันที่รองรับการจัดเก็บและบริหารจัดการโครงสร้างข้อมูล และสามารถกรองหรือปรับเปลี่ยนข้อมูลเพื่อให้ได้ข้อมูลที่มีคุณภาพ เพื่อนำไปใช้ในการวิเคราะห์ข้อมูล และการทำ Business Intelligence ช่วยให้องค์กรสามารถหา Insight จากข้อมูล และนำไปใช้ประกอบการตัดสินใจในการดำเนินงานด้านต่าง ๆ อย่างมีประสิทธิภาพ
Data Mart ส่วนย่อยของคลังข้อมูลทั้งหมดในองค์กร มีลักษณะเป็นคลังข้อมูลขนาดเล็กที่จัดเก็บข้อมูลแบบเจาะจงเฉพาะด้าน เช่น ข้อมูลการขาย การเงิน ทรัพยากรบุคคล หรือข้อมูลด้านการตลาด เป็นต้น ข้อดีของการทำ Data mart คือสามารถสร้างคลังข้อมูลขึ้นมาได้ด้วยเวลาที่รวดเร็ว และนำข้อมูลไปใช้ประโยชน์ได้สะดวกมากยิ่งขึ้น
โดยไม่ต้องผ่านขั้นตอนการดึงข้อมูลจากคลังข้อมูลส่วนของกลางขององค์กร ช่วยลดเวลา ลดความซับซ้อนในการเข้าถึงข้อมูลเชิงลึกที่ต้องการและนำข้อมูลไปต่อยอดได้อย่างรวดเร็ว
Data Mining เหมืองข้อมูล คือเทคนิคการวิเคราะห์ข้อมูล โดยการจำแนกรูปแบบ แนวโน้ม ความเชื่อมโยงและความสัมพันธ์ของข้อมูลมหาศาล เพื่อค้นหาข้อมูลเชิงลึกใหม่ ๆ ที่เป็นประโยชน์และคาดการณ์ผลลัพธ์ที่จะเกิดขึ้น ซึ่งประกอบไปด้วยเทคนิคต่าง ๆ เช่น เทคนิคเชิงสถิติ เทคนิคการแบ่งกลุ่มข้อมูล เทคนิคการจำแนกข้อมูล และเทคนิคการวิเคราะห์แนวโน้มที่คาดว่าจะเกิดขึ้น
ทำให้สามารถนำข้อมูลที่เป็นประโยชน์ที่ได้จากการวิเคราะห์ด้วยเทคนิค Data mining ไปใช้ในด้านต่าง ๆ ไม่ว่าจะเป็นการพัฒนากลยุทธ์การตลาด เพิ่มรายได้ เพิ่มประสิทธิภาพการทำงาน ลดต้นทุน ด้านการแพทย์ หรือด้านการลงทุน เป็นต้น
Data Mesh สถาปัตยกรรมแบบกระจายสำหรับการจัดการข้อมูล ถูกออกแบบมาเพื่อแก้ไขปัญหาทีมข้อมูลส่วนกลาง ที่ไม่สามารถบริหารจัดการข้อมูลและเข้าใจข้อมูลในแต่ละโดเมน โดยสถาปัตยกรรมนี้เป็นการวางโครงสร้างการจัดการข้อมูลด้วยแนวคิด Data ownership ทีมที่เป็นเจ้าของโดเมนเป็นผู้รับผิดชอบในการบริหารจัดการข้อมูล, Data as a product
โดยเจ้าของโดเมนสามารถเตรียมข้อมูลที่จำเป็นต่อการใช้งานและมีคุณภาพ, Data available everywhere and self-serve ที่ข้อมูลสามารถเข้าถึงได้จากทุกที่ และสามารถทำได้ด้วยตัวเอง และ Federated governance ที่การทำเรื่อง Data Governance จะถูกรับผิดชอบโดยเจ้าของโดเมนนั้น ๆ
ส่งผลให้ให้การดูแลและจัดการข้อมูลเป็นความรับผิดชอบของแต่ละฝ่ายหรือแต่ละหน่วยงานในองค์กรโดยทำได้คล่องตัวขึ้น ช่วยให้สามารถแบ่งปันข้อมูลร่วมกันระหว่างฝ่ายและสามารถเข้าถึงข้อมูลได้สะดวกและปลอดภัย เป็นอีกหนึ่งเทคนิคที่จะช่วยยกระดับวัฒนธรรรมองค์กรให้กลายเป็นองค์กรที่ขับเคลื่อนด้วยข้อมูลได้อย่างมีประสิทธิภาพยิ่งขึ้น
Data Ingestion เป็นกระบวนการในการขนย้ายข้อมูลจากต้นทางที่เป็นข้อมูลดิบ (Raw data) หลากหลายแหล่งที่มา ไม่ว่าจะเป็น Databases Data lake หรืออุปกรณ์ IoT ไปยังแหล่งข้อมูลปลายทางหรือแพลตฟอร์มเป้าหมาย เพื่อการบริหารจัดการข้อมูล โดยสามารถแบ่งการทำงานได้เป็น 2 รูปแบบ คือ แบบกลุ่ม (Batch) และเรียลไทม์ (Real-time) ขึ้นอยู่กับวัตถุประสงค์ในการนำเข้าข้อมูล
Data Integration ขั้นตอนในการรวบรวมข้อมูลทั้งหมดจากทุกที่ไม่ว่าจะเป็น Log, Cloud หรือ Databases มาจัดเก็บไว้ที่ฐานข้อมูลปลายทางเพียงแหล่งเดียว โดยใช้เทคนิคการรวมข้อมูลที่หลากหลาย เช่น การนำเข้าข้อมูล (Data ingestion) การทำความสะอาดข้อมูล (Data cleansing) การกำหนดมาตรฐานข้อมูล/การแปลงข้อมูล (Data Transformation) เป็นต้น
การทำ Data integration จะช่วยเพิ่มประสิทธิภาพในการเข้าถึง ค้นหา และนำข้อมูลไปใช้งานต่อ ที่สามารถทำได้รวดเร็วจากการรวมข้อมูลทั้งหมดไว้ในแหล่งเดียวกัน
Data Cleansing การทำความสะอาดข้อมูล คือกระบวนการในการแก้ไขหรือลบข้อมูลที่ไม่ถูกต้อง ซ้ำ และไม่สมบูรณ์ ออกจากข้อมูล เป็นขั้นตอนสำคัญที่ช่วยให้ข้อมูลที่ยุ่งเหยิงกลายเป็นข้อมูลที่มีคุณภาพก่อนนำไปใช้งาน เนื่องจากข้อมูลอาจถูกรวบรวมจากหลากหลายวิธิการ รูปแบบและมีจำนวนมหาศาล ทำให้มีโอกาสพบข้อมูลที่ผิดหรือซ้ำซ้อนได้
จึงมีกระบวนการในการจัดการ เช่น การกำจัดข้อมูลที่มีความซ้ำซ้อน (Remove duplicate) การ กรองข้อมูลที่เป็น Outliers การจัดการ Missing data และการจัด Validate ข้อมูลและปรับเปลี่ยนข้อมูลให้ถูกต้อง
ซึ่งถ้าหากนำข้อมูลที่ยังไม่ผ่านการทำความสะอาดไปใช้ อาจทำให้ผลลัพธ์ที่ได้จากการวิเคราะห์และประมวลผลของเทคโนโลยีหรืออัลกอรึธึมเกิดความคาดเคลื่อน ไม่แม่นยำ นำไปสู่การตัดสินใจที่ผิดพลาด และการใช้งานที่ไม่ได้ประสิทธิภาพ
Data Preparation การจัดเตรียมข้อมูล คือกระบวนการในการจัดระเบียบและจัดโครงสร้างข้อมูลดิบ (Raw data) ให้อยู่ในรูปแบบที่เหมาะสมก่อนการนำไปวิเคราะห์และประมวลผล โดยใช้เทคนิคหลากหลายรูปแบบ
ตั้งแต่การค้นหาและทำโปรไฟล์ข้อมูล (Data discovery and profiling) การทำความสะอาดข้อมูล (Data cleansing) การกำหนดมาตรฐานข้อมูล/การแปลงข้อมูล (Data Transformation) การทำโครงสร้างข้อมูล (Data Structuring) จนถึงการรวมชุดข้อมูลที่เกี่ยวข้องกันเพื่อทำให้ข้อมูลมีความสมบูรณ์มากขึ้น (Data Enrichment)
ซึ่งข้อมูลที่ถูกจัดเตรียมให้อยู่ในรูปแบบที่เป็นระเบียบพร้อมใช้งานแล้วนั้น จะช่วยให้สามารถวิเคราะห์ข้อมูลได้ง่ายและแม่นยำยิ่งขึ้น
In-Memory Computing การประมวลผลในหน่วยความจำ เป็นการจัดเก็บข้อมูลด้วยหน่วยความจำ หรือ Memory ของเซิร์ฟเวอร์ และยังรวมถึงความสามารถในการประมวลผลแบบขนาน (Parallel Processing)
ซึ่ง In-Memory Computing จะช่วยให้การนำข้อมูลไปใช้งานทำได้รวดเร็วมากขึ้น อีกทั้งยังช่วยให้วิเคราะห์ข้อมูลมหาศาลได้แบบเรียลไทม์อีกด้วย ซึ่งส่งผลโดยตรงกับประสิทธิภาพการทำงานขององค์กร รวมทั้งช่วยเพิ่มศักยภาพทางธุรกิจให้รวดเร็วและทันการแข่งขันมากยิ่งขึ้น
โฆษณา