11 พ.ค. 2022 เวลา 08:48 • วิทยาศาสตร์ & เทคโนโลยี
Knowledge: หลังจากทดสอบความรู้คำศัพท์ด้าน Big Data ใน Big Data Vocabulary Level 1 > https://bit.ly/3w45Kik แบบพื้นฐานสุด ๆ กันไปแล้ว 🔸มาต่อกันที่ Level 2 ซึ่งเพิ่มความยากขึ้นมาอีก 1 ระดับ เพื่อน ๆ ตอบได้กี่คำกันบ้าง มาแชร์กันเลย!
Metadata คำอธิบายชุดข้อมูลที่แสดงรายละเอียดความเป็นมาของข้อมูลสารสนเทศ โดยถูกสร้างขึ้นอย่างมีโครงสร้าง เพื่อใช้อธิบายลักษณะของข้อมูล บริบทของข้อมูล และระบุตัวตนทางดิจิทัล เช่น ชื่อชุดข้อมูล วัตถุประสงค์ คำสำคัญ หรือประเภทของข้อมูล เป็นต้น ซึ่งจะทำให้ผู้ใช้ข้อมูลทราบแหล่งที่มาและรูปแบบของข้อมูล เพื่อให้สะดวกต่อการบริหารจัดการและทำให้สามารถสืบค้นได้อย่างแม่นยำและรวดเร็วยิ่งขึ้น
Deep Learning (DL) เป็นส่วนหนึ่งของ Machine learning คือการจำลองพฤติกรรมของสมองมนุษย์ โดยถูกสร้างขึ้นจากการนำโครงข่ายประสาทเทียม (Neurons network) มาซ้อนกันหลาย ๆ เลเยอร์ เริ่มจาก เลเยอร์ที่หนึ่งที่ทำหน้าที่ในการรับข้อมูล และเลเยอร์สุดท้ายที่ทำหน้าที่ในการส่งออกผลลัพธ์ที่ได้จากการประมวลผลข้อมูล
ซึ่งระหว่างเลเยอร์ที่หนึ่งและสุดท้ายยังมีเลเยอร์ที่แรกว่า Hidden layer อยู่ด้วย เนื่องจากการมีเลเยอร์ของข้อมูลหลายชั้นและถูกเก็บในรูปแบบ Stack จึงทำให้เกิดการเรียนรู้ข้อมูลในเชิงลึก และถูกเรียกว่า Deep learning นั่นเอง ยิ่ง Deep learning เรียนรู้ข้อมูลได้มากเท่าไหร่ ก็ยิ่งมีความแม่นยำมากขึ้น โดยไม่จำเป็นต้องอาศัยคำแนะนำของมนุษย์
เทคโนโลยี Deep learning ถือเป็นเทคโนโลยีแห่งอนาคตที่จะช่วยสร้างประโยชน์มากมาย ไม่ว่าจะเป็น การสร้างรถยนต์ไร้คนขับ การตรวจจับการฉ้อโกงในอุตสาหกรรมธนาคาร การวินิจฉัยโรคในวงการแพทย์ หรือการสั่งการด้วยเสียงที่แม่นยำขึ้น เป็นต้น
API ย่อมาจาก Application Programming Interface คือฟังก์ชันหรือชุดคำสั่งที่ถูกเขียนขึ้นมา เพื่อทำหน้าที่เป็นตัวกลางในการเข้าถึง รับส่ง และแลกเปลี่ยนข้อมูลของโปรแกรมหรือซอฟต์แวร์ที่ต่างกัน เช่น การเข้าใช้แอปพลิเคชันด้วยสมาร์ทโฟน โดยการเชื่อมต่ออินเทอร์เน็ต เมื่อมีการกำหนดคำสั่งที่แอฟพลิเคชันแล้ว ข้อมูลคำสั่งจะถูกส่งไปยังเซิร์ฟเวอร์ต้นทางเพื่อทำการประมวลผล แล้วส่งข้อมูลกลับมาเพื่อแสดงผลในสมาร์ทโฟน
หรือองค์กรต้องการนำข้อมูลมหาศาลจากฐานข้อมูลแห่งหนึ่งมาวิเคราะห์และประมวลผลบนอีกแพลตฟอร์มหนึ่ง ก็จะต้องอาศัย API เป็นตัวเชื่อมในการดึงข้อมูลจากฐานข้อมูลไปสู่แพลตฟอร์มที่แตกต่างกัน เป็นต้น
Structured Data คือข้อมูลที่มีรูปแบบโครงสร้างชัดเจน ถูกจัดเรียงอย่างเป็นระเบียบ เป็นข้อมูลที่ถูกจัดเก็บไว้ใน Relational Database ไม่ว่าจะเป็นข้อมูลประเภทชื่อ-นามสกุล เบอร์โทรศัพท์ อายุ ที่อยู่ ยอดซื้อ-ขายสินค้า บันทึกการโทรศัพท์ บันทึกการเรียกเก็บเงิน เป็นต้น ซึ่งข้อมูลรูปแบบนี้สามารถสืบค้นได้ง่ายและนำไปต่อยอดในการทำ Data Visualization หรือนำไปวิเคราะห์ใช้งานได้ทันที
แต่ในขณะเดียวกันข้อมูลรูปแบบนี้ค่อนข้างมีน้อยมากและอาจไม่เพียงพอในการนำไปใช้เพื่อยกระดับสู่การเป็น Data-Driven Organization ทำให้องค์กรต้องพยายามนำ Data รูปแบบอื่น ๆ มาใช้ร่วมกัน ยกตัวอย่าง Relational Database ที่เป็นที่รู้จัก เช่น MySQL, Microsoft SQL Server, PostgreSQL, MariaDB
Unstructured Data คือข้อมูลที่ไม่มีโครงสร้างชัดเจน เป็นข้อมูลที่เกิดขึ้นมากมายมหาศาลในยุค Digital เช่น ข้อมูลเอกสารที่มีข้อความยาว ๆ (Word หรือ PDF) รูปภาพ ไฟล์เสียง วิดีโอ เพลง ข้อความบนโซเชียลมีเดีย กระทู้บนเว็บบอร์ด เนื้อหาในเว็บไซต์ เป็นต้น ซึ่งข้อมูลรูปแบบนี้เป็นข้อมูลที่นำไปใช้งานได้ค่อนข้างยาก เนื่องจากไม่มีการแยกประเภทหรือจัดระเบียบอย่างชัดเจน
จึงต้องการเครื่องมือหรือเทคโนโลยีที่ทำให้ข้อมูลพร้อมใช้งานก่อน แต่กลับเป็นข้อมูลที่มีจำนวนมากที่สุดในปัจจุบันและเป็นข้อมูลที่องค์กรไม่ควรมองข้าม เพราะถ้าหากองค์กรสามารถใช้ประโยชน์จาก Unstructure Data ได้ แน่นอนว่าจะได้พบกับ Insight ต่าง ๆ ที่ซ่อนอยู่มากมายและเป็นประโยชน์ในการวิเคราะห์ต่อยอดเพื่อพัฒนาองค์กรและธุรกิจ ยกตัวอย่างไฟล์ที่เป็นที่รู้จัก Word, PDF, JPEG, PNG, MOV, MP4
Semi-Structured Data คือข้อมูลกึ่งมีโครงสร้างหรือข้อมูลกึ่งสำเร็จรูป เป็นรูปแบบข้อมูลที่อยู่ตรงกลางระหว่าง Structured Data และ Unstructured Data ซึ่งสามารถนำไปใช้งานได้ง่ายกว่าแบบไม่มีโครงสร้าง โดยมีการแท็กหรือกำกับว่าข้อมูลนั้น ๆ คือข้อมูลอะไร อยู่ในลำดับชั้นไหน
เช่น XML, CSV, JSON ข้อมูลบันทึกการใช้งานผ่านเว็บ (Web Log) รูปแบบการค้นหา (Search Patterns) Email ที่มีการกำกับเนื้อหาระดับหนึ่ง การ Tag หรือติด #Hashtag ในโซเชียลมีเดีย เป็นต้น ยกตัวอย่างไฟล์ที่เป็นที่รู้จัก XML, CSV, JSON
Batch Processing การประมวลผลข้อมูลแบบกลุ่ม โดยการนำข้อมูลที่จัดเตรียมไว้ตามแต่ละช่วงเวลาเข้าสู่คอมพิวเตอร์ เพื่อทำการประมวลผลพร้อมกัน ซึ่งสามารถประมวลผลข้อมูลได้แบบทันทีที่ต้องการ หรืออัตโนมัติตามคำสั่งที่กำหนดไว้ เช่น การประมวลผลข้อมูลแบบรายวัน รายสัปดาห์ หรือรายเดือน เป็นต้น
Query การสืบค้นข้อมูลจาก Databases ซึ่งสามารถทำได้ด้วยวิธีการง่าย ๆ ผ่านเครื่องมือสำเร็จรูป จนถึงการค้นหาข้อมูลที่ละเอียดขึ้นผ่านการเขียน SQL ช่วยให้ผู้ที่ต้องการใช้งานข้อมูลสามารถคัดเลือกเฉพาะข้อมูลที่ต้องการ เพื่อนำไปใช้งานต่อได้อย่างรวดเร็ว
Python ภาษาการเขียนโปรแกรมระดับสูงที่มีผู้ใช้งานมากที่สุดในปัจจุบัน พัฒนามาจากภาษา C โดยเป็นภาษาที่มีความยืดหยุ่นสูง ถูกออกแบบมาเพื่อลดความซับซ้อนของภาษา ช่วยให้สามารถเรียนรู้และเข้าใจได้ง่ายขึ้น และยังสามารถทำงานร่วมกันภาษาอื่น ๆ ได้อีกด้วย อีกทั้งยังเป็น Open source ที่สามารถใช้งานได้ฟรี ทำให้มีเครื่องมือหรือ Libary เข้ามารองรับอย่างหลากหลาย
ซึ่งรูปแบบการทำงานของ Python คือมีการทำงานแบบ Interpreter โดยการแปลชุดคำสั่งทีละบรรทัด แล้วนำเข้าไปประมวลผลด้วยคอมพิวเตอร์ตามชุดคำสั่งของโปรแกรมที่เราต้องการ รวมทั้งยังสามารถนำไปใช้งานได้ในด้านต่าง ๆ มากมาย
ไม่ว่าจะเป็นการสร้างเว็บไซต์ โปรแกรม ซอฟต์แวร์ เกม ระบบอัตโนมัติ Chatbot ช่วยในการวิเคราะห์ข้อมูล การคำนวณด้านวิทยาศาสตร์และสถิติ ประยุกต์ใช้กับ IoT หรือสร้าง Visualization เป็นต้น จนถูกเรียกว่าเป็นภาษาเขียนโปรแกรมเอนกประสงค์ (General-purpose language) นั่นเอง
โฆษณา