9 มิ.ย. 2022 เวลา 07:52 • วิทยาศาสตร์ & เทคโนโลยี
Knowledge: ได้เวลาอัพเลเวลความยากกันแล้ว กับ Big Data Vocabulary ระดับความยาก Level 4 ซึ่งเพิ่มคำศัพท์ที่เจาะลึก Technical ด้าน Big Data มากขึ้น จะมีคำอะไรบ้าง และเพื่อน ๆ ตอบได้กี่คำ มาแชร์กันเลย!
ทดสอบความรู้คำศัพท์ ใน Big Data Vocabulary Level อื่น ๆ
Level 1 คลิก > https://bit.ly/VocabLevel1
Level 2 คลิก > https://bit.ly/VocabLevel2
Level 3 คลิก > https://bit.ly/VocabLevel3
Data Model หรือ Data Modeling คือแบบจำลองข้อมูลที่แสดงภาพรวมระบบข้อมูลทั้งหมดหรือบางส่วนในองค์กร เพื่ออธิบายความหมายของข้อมูล โครงสร้าง จุดเชื่อมต่อ ความสัมพันธ์ รวมทั้งเงื่อนไขต่าง ๆ การทำ Data model จะช่วยให้องค์กรสามารถจัดการโครงสร้างระบบข้อมูลได้อย่างมีประสิทธิภาพ จากการกำหนดและออกแบบระบบข้อมูลที่สอดคล้องกับทรัพยากรที่มีอยู่
รวมทั้งการเลือกใช้เทคโนโลยีที่เหมาะสม แสดงออกมาเป็นภาพโครงสร้างที่เป็นรูปธรรม ช่วยให้ทุกฝ่ายที่เกี่ยวข้องสามารถวางแผนร่วมกันได้ว่าจะจัดเก็บข้อมูลอย่างไร ด้วยกระบวนการหรือเทคโนโลยีใด ใครมีสิทธิ์เข้าถึงข้อมูลในส่วนใดบ้าง และจะใช้ประโยชน์จากข้อมูลอย่างไรให้ตอบโจทย์การทำงานของทุกฝ่ายในองค์กรอย่างมีประสิทธิภาพ
Data Aggregation เป็นขั้นตอนในการรวบรวมข้อมูล จากหลากหลายแหล่งที่มาให้เป็นข้อมูลกลุ่มเดียว เพื่อนำเสนอในการสรุปเชิงสถิติ โดยสามารถรวบรวมได้ตั้งแต่ข้อมูลแบบตารางไปจนถึง Data lake และสามารถเจาะจงข้อมูลได้ตามความต้องการ โดยการทำ Data Aggregation นั้นจำเป็นอย่างมาก และเป็นขั้นตอนที่ต้องทำก่อนที่จะสามารถทำ Data Analytics หรือ งานในฝั่ง Business Intelligence
Data Capture เป็นกระบวนการดึงข้อมูลจากกระดาษหรือเอกสารอิเล็กทรอนิกส์ ทั้งในรูปแบบข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง และทำการแปลงเป็นข้อมูลดิจิทัลที่คอมพิวเตอร์สามารถอ่านได้ เพื่อช่วยให้สามารถจัดเก็บ ค้นหา และนำข้อมูลไปใช้งานได้อย่างสะดวกรวดเร็วมากขึ้น
โดยเครื่องมือที่ช่วยในการทำ Data capture มีมากมาย ไม่ว่าจะเป็นการทำ Data Scraping เพื่อดึงข้อมูลจากเว็บไซต์ ด้วย Python หรือการทำ Document Data Capture โดยใช้ OCR (Optical Character Recognition) เพื่อแปลงรูปภาพเป็น Text
Natural Language Processing (NLP) การประมวลผลภาษาธรรมชาติหรือภาษามนุษย์ เป็นหนึ่งในเทคโนโลยีปัญญาประดิษฐ์หรือ AI ถูกสร้างขึ้นเพื่อทำให้คอมพิวเตอร์สามารถเข้าใจและตีความภาษาของมนุษย์ได้ และมีความสามารถในการสื่อสารได้เทียบเท่ากับมนุษย์ โดยเป็นส่วนหนึ่งของวิทยาการคอมพิวเตอร์ ที่อาศัยการทำงานร่วมกันในหลายด้าน เช่น ภาษาศาสตร์ คณิตศาสตร์ รวมทั้งจิตวิทยา
โดย NLP เป็นการนำ Machine Learning มาใช้กับข้อมูลในกลุ่ม Text, Speech และ Image ซึ่ง NLP ได้เข้ามามีบทบาทในชีวิตมนุษย์และอุตสาหกรรมมากขึ้น ไม่ว่าจะเป็นผู้ช่วยดิจิทัล การสั่งการด้วยเสียง การแนะนำการใช้ไวยากรณ์ หรือในภาคธุรกิจ
อีกทั้ง NLP ยังสามารถช่วยเพิ่มศักยภาพการวิเคราะห์ข้อมูลมหาศาล เพื่อให้ได้ข้อมูลเชิงลึกที่เป็นประโยชน์ต่อธุรกิจที่แม่นยำ ช่วยเพิ่มประสิทธิภาพการทำงานของพนักงาน และลดความซับซ้อนของกระบวนการทางธุรกิจได้อีกด้วย
ETL ย่อมาจาก Extract-Transform-Load เป็นกลไกในการนำข้อมูลจากหลากหลายแหล่งจากฐานข้อมูลมารวมไว้ในที่เดียว ด้วยประกอบไปด้วย 3 ขั้นตอน ดังนี้
Extract: กระบวนการดึงข้อมูล จากแหล่งข้อมูลภายนอก
Transform: การนำข้อมูลมาแปลงอยู่ในรูปแบบที่เหมาะสมต่อการใช้งาน เพื่อให้ได้ข้อมูลที่มีคุณภาพ
Load: การนำข้อมูลเข้าสู่ระบบปลายทางที่ต้องการ ไม่ว่าจะเป็น Data warehouse, Data lake หรือฐานข้อมูลอื่น ๆ
ซึ่งการทำ ETL นั้น เป็นกระบวนการที่จำเป็นอย่างมากในวางรากฐานของข้อมูล เพื่อเตรียมข้อมูลให้มีคุณภาพและพร้อมต่อการนำไปใช้งาน จนกระทั่งนำไปสู่ขั้นตอนการนำข้อมูลไปวิเคราะห์ต่อยอด สร้าง Dashboard เพื่อการตัดสินใจที่ดีขึ้นขององค์กร
Relational Database หรือระบบฐานข้อมูลเชิงสัมพันธ์ คือการจัดเก็บข้อมูลในรูปแบบตาราง (Table) โดยประกอบด้วย แถว (Row) ซึ่งจะเก็บข้อมูลเป็นเรคคอร์ด คอลัมน์ (Column) จะเก็บค่า ฟิลด์ต่างๆของข้อมูล และมีการสร้าง Relation ระหว่างตารางที่มีความสัมพันธ์กัน มักใช้ภาษา SQL ในการเขียนเพื่อเรียกใช้งานข้อมูล
ตัวอย่างของ Relational Database ที่เป็นที่นิยม เช่น Mysql, PostgreSQL, Microsoft sql server, MariaDB และ Oracle ซึ่ง Relational Database เป็นฐานข้อมูลที่ได้รับความนิยมอย่างมาก เนื่องจากรูปแบบที่ง่ายต่อการเข้าใจและการนำไปใช้งานต่อ รวมถึงมีความยืดหยุ่นในการจัดเก็บข้อมูลที่มีโครงสร้างและสามารถเรียกใช้ข้อมูลได้อย่างรวดเร็ว พร้อมทั้งช่วยลดข้อมูลขยะได้อีกด้วย
Non-Relational Database หรือฐานข้อมูล NoSQL ย่อมาจาก Not Only SQL เป็นวิธีการในการจัดการและออกแบบฐานข้อมูล สำหรับข้อมูลมหาศาล หรือ Big data ที่มีความหลากหลาย ซับซ้อน มีการเปลี่ยนแปลงบ่อย และไม่มีโครงสร้างที่ชัดเจน อีกทั้งยังเป็นฐานข้อมูลที่มีความสามารถในการขยายระบบในรูปแบบแนวนอน (Horizontal Scalability)
ตัวอย่างของ NoSQL ที่เป็นที่นิยม เช่น mongoDB, Cassandra ซึ่งข้อดีของ NoSQL คือ เป็นฐานข้อมูลที่มีความยืดหยุ่นสูง สามารถปรับขยายระบบได้ตามการเติบโตของข้อมูล รวมทั้งสามารถรองรับข้อมูลที่มีจำนวนมหาศาลและมีความหลากหลาย และสามารถเข้าถึงด้วย Latency ที่ต่ำ ทำให้องค์กรได้รับข้อมูลเชิงลึกที่เป็นประโยชน์จากข้อมูลที่ไม่มีโครงสร้างได้อย่างมีประสิทธิภาพ
Database Schema โครงสร้างฐานข้อมูลสคีมา คือภาพโดยรวมของระบบฐาน (Database) และระบบฐานข้อมูลเชิงสัมพันธ์ (Relational Database) โดยเป็นการกำหนดวิธีการจัดระเบียบข้อมูลในฐานข้อมูลเชิงสัมพันธ์ เช่น ตาราง มุมมอง ชนิดของข้อมูล ฟิลด์
ซึ่งโครงสร้างฐานข้อมูลสคีมาจะระบุได้ว่า Entity มีความสัมพันธ์กันอย่างไร ประกอบไปด้วยข้อมูลอะไรบ้าง โดยมักใช้แผนภาพสคีมาในการสื่อสาร เพื่อให้โปรแกรมเมอร์เข้าใจฐานข้อมูลลูกค้าและปฏิบัติงานต่อได้อย่างมีประสิทธิภาพ
Online Analytical Processing (OLAP) ย่อมาจาก Online Analytical Processing เป็นเทคโนโลยีในการประมวลข้อมูลและนำเสนอข้อมูลในหลายมิติ ที่มีการ Summary โดยการนำ Transaction data มารวมเป็น Multi-Dimensional data model ส่วนใหญ่ถูกนำมาใช้ในงานประเภทการทำ Report ที่จำเป็นสำหรับการวิเคราะห์ ตัดสินใจ ได้อย่างมีประสิทธิภาพ
ช่วยให้องค์กรสามารถเข้าถึงข้อมูลที่มีคุณภาพได้เร็วขึ้น และนำข้อมูลไปใช้ในการวิเคราะห์แนวโน้ม คาดการณ์ วางแผน รวมถึงการตัดสินใจเพื่อประโยชน์ขององค์กรได้อย่างมีประสิทธิภาพ
Zettabytes คือหน่วยวัดข้อมูลทางคอมพิวเตอร์ หรือวัดข้อมูลดิจิทัล เพื่อแสดงขนาดของข้อมูล โดย 1 เซตตะไบต์ มีขนาดเทียบเท่า 1,000,000,000,000,000,000,000 ไบต์ ซึ่งเป็นหน่วยวัดข้อมูลที่มีขนาดใหญ่มาก โดยใช้สำหรับวัดข้อมูลมหาศาลจำนวนมากเท่านั้น
โฆษณา