11 ธ.ค. 2021 เวลา 09:52 • วิทยาศาสตร์ & เทคโนโลยี
วิวัฒนาการของการจัดการ Big Data
ความท้าทายของ Big Data ยังคงมุ่งไปที่การทำให้บุคคลที่เหมาะสมได้รับข้อมูลที่ถูกต้องในเวลาที่เหมาะสม แม้ว่าแหล่งข้อมูลและการใช้งานจะเติบโตขึ้นเรื่อย ๆ ก็ตาม
ในปี 2013 ผู้เชี่ยวชาญด้านการตลาด ได้ประกาศจุดเริ่มต้นของยุคข้อมูลขนาดใหญ่ พวกเขารับรู้ว่า “ข้อมูลขนาดใหญ่ช่วยให้องค์กรสามารถจัดเก็บ จัดการ และจัดการข้อมูลจำนวนมหาศาลด้วยความเร็วที่เหมาะสมและในเวลาที่เหมาะสมเพื่อให้ได้ข้อมูลเชิงลึกที่ถูกต้อง”
หากกล่าวอย่างตรง ๆ Big Data ไม่ได้เป็นตัวแทนของเทคโนโลยีเรื่องนี้เพียงอย่างเดียว แต่เป็นชุดเทคโนโลยีการจัดการข้อมูลที่แตกต่างกันซึ่งมีรากฐานมาจากการเปลี่ยนแปลงเทคโนโลยีก่อนหน้านี้หลายครั้ง
คำถามคือ วันนี้ Big Data อยู่ที่ไหน และสิ่งที่จำเป็นในการทำให้แอปพลิเคชันทำงานได้ครบถ้วนเป็นอย่างไร
จากการสำรวจของนักวิเคราะห์เมื่อเร็วๆ นี้พบว่าข้อมูลขนาดใหญ่ยังไม่ได้นำไปสู่ผลลัพธ์ทางธุรกิจขนาดใหญ่ มีการโฆษณาเกินจริง เพราะพนักงานขององค์กรส่วนใหญ่ยังไม่สามารถเข้าถึงข้อมูลเพื่อทำงานให้สำเร็จได้โดยง่าย ปัญหายังคงอยู่ที่ การทำให้ข้อมูลที่ถูกต้องส่งไปยังบุคคลที่เหมาะสมในเวลาที่เหมาะสม เนื่องจากจำนวนแหล่งข้อมูล การใช้งาน และผู้ใช้เพิ่มขึ้น
การเปรียบเทียบ Data Warehouses กับ Data Lakes และ Data Fabric
เพื่อการเก็บข้อมูลทั้งหมดนี้ ระบบการจัดเก็บและการจัดการต่าง ๆ จึงได้เกิดขึ้นตามมา เช่น Data Warehouses, Data Lakes และ Data Fabric องค์กรต่างๆ จะต้องมีรูปแบบบางอย่างจากทั้งสามรูปแบบการเก็บข้อมูล แต่ Data Fabric นั้นจำเป็นสำหรับการรวมข้อมูล การจัดการ และการกำกับดูแลทั่วทั้งองค์กรในระดับโซลูชันและแพลตฟอร์ม การทำงานร่วมกันภายในองค์กรจึงเป็นสิ่งจำเป็น
ส่วนใหญ่การรวมศูนย์ข้อมูลมักจะเป็นไปไม่ได้ หรือการวิเคราะห์นั้นถูกออกแบบโดยใช้บริการเพื่อเข้าถึงแหล่งข้อมูลที่แตกต่างกัน หลังจากนั้นหากพิสูจน์ได้ว่าได้ผลและตรงกับความต้องการทางธุรกิจที่กำหนดไว้ การรวมศูนย์จึงจะสามารถทำในภายหลังได้
นักวิเคราะห์มองเห็นความเชื่อมโยงระหว่างแนวโน้มการกระจายของข้อมูลกับโครงสร้างข้อมูล เราได้เห็นแนวทางของ Data Fabric ที่กำลังได้รับความนิยมมากขึ้นเรื่อย ๆ เพราะการมีพื้นที่เก็บข้อมูลส่วนกลางเพียงแห่งเดียวนั้นไม่สามารถทำให้ข้อมูลทั้งหมดของคุณสามารถเป็นปัจจุบัน ควบคุมได้ และทำให้ถูกต้องได้
ด้วยเหตุนี้ Data Fabric จึงต้องอนุญาตให้มีตำแหน่งข้อมูลที่ต่างกันได้ แนวทาง Data Fabric ช่วยในเรื่องความท้าทายของความรับผิดชอบร่วมกัน โดยแต่ละทีมต้องมีความรับผิดชอบต่อข้อมูลของตนเอง จากนั้นจึงเชื่อมต่อเข้ากับการนำข้อมูลลงใน Data Lake อาจกล่าวว่า Data Lake เป็นหนทางเดียวสู่ความสำเร็จในการวิเคราะห์ และแน่นอนว่าพวกเขาต้องการให้องค์กรถ่ายโอนข้อมูลทั้งหมดไปยัง Cloud
แนวโน้มทั้งหมดเหล่านี้มีความสำคัญ แต่ละแนวคิดให้บริการผู้ใช้ที่แตกต่างกันและกรณีการใช้งาน Data Warehouse สำหรับการวิเคราะห์ที่ทำซ้ำได้ประสิทธิภาพสูง ส่วน Data Lakes ใช้สำหรับการพัฒนาและการทดลอง และ Data Mesh ใช้สำหรับการจัดการข้อมูลที่กระจายด้วยการกำกับดูแล ดังนั้นจึงไม่มีความซ้ำซ้อนกัน และถือว่า Data Fabric และ Data Mesh เป็นแนวคิดที่เท่าเทียมกัน
กลยุทธ์การรวมศูนย์ Big Data ของคุณไว้บนแพลตฟอร์มเดียว
ผู้เชี่ยวชาญใช้ประโยชน์จากกลยุทธ์สองแบบ แต่ยึดติดกับแพลตฟอร์มเดียว CIO ท่านหนึ่งกล่าวว่า กล่าวว่าเขาชอบที่จะมีสองกลยุทธ์ของข้อมูล หนึ่งกลยุทธ์สำหรับการผลิต และอีกกลยุทธ์หนึ่งสำหรับการวิเคราะห์ แต่ละแห่งมีแพลตฟอร์มศูนย์กลางหลักของตนเองและรองรับที่เก็บข้อมูลหลายที่ กรณีนี้จะมีแพลตฟอร์มแยกกันระหว่าง 2 ฮับหลัก
แต่ผู้ขายรายใดจะให้บริการเหล่านี้ได้สำหรับข้อมูลเป็นจำนวนมาก เพราะ CIO เหล่านี้ยังไม่เห็นสิ่งใดที่คิดว่าดีพอที่จะเป็นแพลตฟอร์มที่สมบูรณ์ได้ ด้วยเหตุนี้ CIO Deb Gildersleeve กล่าวว่า "ในหลาย ๆ ด้าน มันไม่เกี่ยวกับการรวมศูนย์ข้อมูลและเพิ่มเติมเกี่ยวกับการผสมผสานข้อมูล คุณจะรวมข้อมูลทั้งหมดของคุณเข้าด้วยกันได้อย่างไร เพื่อให้คุณเห็นภาพและเชื่อมต่อกับระบบอื่นๆ ของคุณ ไม่ว่าจะอยู่ในองค์กรหรือบน Cloud”
การรวมศูนย์ข้อมูลทั้งหมดก็อาจจะสร้างปัญหาเรื่องต้นทุน การกำกับดูแล และความปลอดภัย ข้อมูลถูกล็อกไว้ในแอปพลิเคชันสายงานธุรกิจ ในสถานที่และภายใน Cloud Ecosystems การเชื่อมต่อกับข้อมูลที่เก็บอยู่โดยตรงจะช่วยขจัดความเสี่ยงและเพิ่มความเร็วให้กับข้อมูลเชิงลึก
ความสามารถทั้งหมดคงไม่น่าจะมีในผู้ขายรายเดียว บางรายมีความสามารถในการสืบค้น แต่เรื่องราวการกำกับดูแลยังไม่ได้รับการเปิดเผย ข้อมูลขนาดใหญ่ทำให้การย้ายสิ่งต่าง ๆ เป็นเรื่องท้าทาย หลายแพลตฟอร์มใช้เป็นบรรทัดฐานได้ หากคุณโชคดี คุณสามารถปรับให้เข้ากับเครื่องมือและทักษะที่มีได้
Data Fabric จึงเป็นแนวคิดในการจัดการข้อมูลเพื่อให้ได้ Pipelines ของบริการข้อมูลที่ยืดหยุ่น ใช้งานซ้ำได้ และยังสนับสนุนกรณีการใช้งานด้านปฏิบัติการและการวิเคราะห์ต่างๆ
การปฏิบัติตามกฎการกำกับดูแลข้อมูลและความเป็นส่วนตัวของข้อมูล
ในการควบคุมข้อมูลอย่างมีประสิทธิผล ธุรกิจต่างๆ ต้องมีความเข้าใจอย่างชัดเจนว่าพวกเขามีข้อมูลใดบ้าง องค์กรจำเป็นต้องเข้าใจว่าข้อมูลประเภทใดควรอยู่ใน Data Lake หรือ Data Fabric หาก มีความเกี่ยวข้องกับแอปพลิเคชันเฉพาะหรือความพยายามใหม่ ธุรกิจจำเป็นต้องมอบหมายผู้บริหารให้ดูแลการใช้ข้อมูลส่วนบุคคลอย่างเหมาะสม ผู้บริหารยังสามารถช่วยตอบคำถามว่าการใช้งานข้อมูลที่เป็นไปได้และกับสิ่งที่เหมาะสมทำอย่างไร
ผู้จัดการข้อมูลมีบทบาทในการกำกับดูแลที่สำคัญ ดังนั้นจึงต้องกำหนดหน้าที่ทั้งหมดในการเข้าถึงและจัดการการแก้ไขข้อมูลที่แหล่งที่มาเริ่มต้นของข้อมูล และมี KPI ที่เราต้องทบทวนทุกเดือนและปรับเปลี่ยนตามความจำเป็น
ผู้จัดการข้อมูลต้องได้รับการกำหนดหน้าที่ล่วงหน้าและต้องรู้วิธีตรวจสอบการทำงานกับพวกเขาตลอดเส้นทาง ผู้ดูแลข้อมูลต้องลงชื่อในการออกแบบระดับสูง ทั้งนี้ขึ้นอยู่กับประเภทข้อมูล การฝึกอบรมภาคบังคับเกี่ยวกับการเข้าถึงและการปฏิบัติตามข้อกำหนดเพื่อเข้าถึงชุดข้อมูลใดๆ และสำหรับชุดข้อมูลเฉพาะทางอาจต้องมีเพิ่มเติมด้วย
ผลกระทบของ Cloud ต่อกลยุทธ์ด้าน Big Data
Cloud กำลังกลายเป็นอีกรูปแบบของการประมวลผลและการจัดเก็บข้อมูลมากกว่าเพียงสภาพแวดล้อมที่แยกจากกัน การจัดการ Cloud และการมองเห็นเป็นสิ่งสำคัญ สมมติว่าการใช้ระบบCloud เป็นวิธีที่รวดเร็วในการลดงบประมาณ ในหลายกรณีก็ไม่มีเหตุผลที่จะย้ายแอปพลิเคชันบางตัวไปยัง Cloud ความสามารถในการพิสูจน์แนวคิดและการทดลองในทันทีบน Cloud นั้นเป็นเรื่องใหญ่มาก
แต่ระบบ Cloud จะช่วยให้องค์กรสามารถทดลองสิ่งใหม่ ๆ รวมทั้งเพิ่มและลดพลังการประมวลผลตามความจำเป็นก่อนได้ทันที
กระบวนการข้อมูลเติบโตเต็มที่
กระบวนการข้อมูลจำเป็นต้องมีพื้นฐานของเงื่อนไขที่กำหนดไว้อย่างชัดเจน การเริ่มต้นในระบบธุรกรรมเป็นสิ่งสำคัญ หากข้อมูลเริ่มผิดพลาด จะใช้เวลามากมายในการขัดเกลาและปรับปรุงข้อมูลนั้น แต่องค์กรจำเป็นต้องยอมรับข้อกำหนดของข้อมูลที่แชร์และดูแลรักษาเช่นกัน
ด้วยเหตุนี้จึงถึงเวลาแล้วที่จะเปลี่ยนกระบวนการข้อมูล โดยใช้กระบวนการเช่น DataOps สิ่งเหล่านี้จะเป็นสิ่งสำคัญสำหรับองค์กรที่ขับเคลื่อนด้วยข้อมูล มันจะไม่เก่าเก็บ ธุรกิจต่างๆ ยังคงดิ้นรนอยู่กับ DevOps เป็นส่วนใหญ่
Data Literacy มีความสำคัญต่อความสำเร็จเช่นกัน ผู้ดูแลจำเป็นต้องมีวุฒิภาวะในด้านที่อำนวยความสะดวกในการแบ่งปันบริบทรอบ ๆ ข้อมูล ดังนั้นสิ่งต่างๆ เช่น การรู้เท่าทันข้อมูล DataOps สามารถช่วยให้มีความยืดหยุ่น แต่ก็ยังไม่ได้เป็นแนวทางปฏิบัติด้านเทคนิคที่สมบูรณ์ทั้งหมด
กล่าวโดยสรุป
เห็นได้ชัดว่า Big Data อยู่ในสถานะที่นักวิเคราะห์เรียกว่า “Trough of Disillusionment” แม้ว่าบริษัทที่ขับเคลื่อนด้วยข้อมูลจะเป็นผู้ชนะในระยะยาว แต่ก็มีงานยากที่ต้องทำอีกมาก
ผู้ชนะเกมนี้จะต้องใช้การกำกับดูแลข้อมูลที่จำเป็น เพื่อให้มีข้อมูลเพียงพอต่องานและได้รับการปกป้อง พวกเขายังต้องปรับปรุงกระบวนการข้อมูลด้วย DataOps และการกำกับดูแลข้อมูลร่วมกันสามารถช่วยได้ ด้วยการดำเนินการเช่นนี้ผู้ชนะด้านข้อมูลจะสร้างสิ่งที่เรียกว่า "Operational and Digital Backbones"
เรียบเรียงจาก eWeek
โฆษณา