10 ก.ย. 2020 เวลา 01:00 • วิทยาศาสตร์ & เทคโนโลยี
ดาต้าแคตตาล็อก (Data Catalog) จะช่วยเตรียมความพร้อมรับมือ COVID-19 ได้อย่างไร
จากสถานการณ์โควิด 2019 ที่ส่งผลกระทบเป็นวงกว้างในระดับประเทศและระดับโลกนั้นถือเป็นความท้าทายสำคัญที่รัฐบาลของแต่ละชาติเผชิญรวมทั้งรัฐบาลของประเทศไทยเรา หลายภาคส่วนทั้งหน่วยงานในภาครัฐ ภาคเอกชน และประชาชน มีคำถามหลากมิติที่ต้องการคำตอบจากรัฐบาล ไม่ว่าจะเป็นคำถามเชิงเศรษฐกิจ เช่น ภาวะไข่ขาดตลาด คำถามเชิงความพร้อมด้านสาธารณสุข เช่น การเตรียมสถานที่กักกันตัว การเตรียมบุคลากรเพื่อรับมือต่อสถานการณ์ที่เป็นอยู่และที่จะเกิดขึ้น
คำถามเหล่านี้จำเป็นต้องใช้ข้อมูลมากมายมหาศาลจากหลากหลายภาคส่วน ซึ่งถึงแม้ข้อมูลเหล่านี้จะเป็นข้อมูลที่แต่ละหน่วยงานภาครัฐทั้งระดับกรมหรือกระทรวงถือครองตามพันธกิจของแต่ละหน่วยงานอยู่แล้ว ทว่าในมุมมองของเอกชนหรือภาคเอกชนที่อาจต้องการใช้ข้อมูลที่รัฐมีอยู่นั้น หรือแม้แต่ในมุมมองของคนทำงาน ไม่ว่าจะเป็นข้าราชการ พนักงานของรัฐ หรือเจ้าหน้าที่ลักษณะอื่นใดที่ทำงานให้กับภาครัฐเอง การจะตระหนักรู้และเข้าใจถึงอำนาจหน้าที่ของล้านแปดหน่วยงานของรัฐที่ทำงานภายใต้รัฐบาลเพื่อรับใช้ประชาชนนั้นเป็นสิ่งที่ต้องอาศัยประสบการณ์และความเชี่ยวชาญ
ความรู้ในส่วนนี้เป็นสิ่งที่จำเป็นต้องอาศัยเวลาเพื่อศึกษา ค้นคว้า ค้นหา ทดลองติดต่อ โทรผิดโทรถูก
เมื่อเกิดคำถามว่าจะทราบได้อย่างไรว่าข้อมูลส่วนไหนถูกเก็บ ถือครอง หรือเป็นความรับผิดชอบของกระทรวง กรม กองอะไร ที่ผ่านมานั้นความรู้ในส่วนนี้เป็นสิ่งที่จำเป็นต้องอาศัยเวลาเพื่อศึกษา ค้นคว้า ค้นหา ทดลองติดต่อ โทรผิดโทรถูก กูเกิลเจอบ้างไม่เจอบ้าง ทำให้ความสามารถในการล่วงรู้ประเภท ลักษณะของข้อมูล และแม้แต่ความสามารถที่จะรู้ว่าข้อมูลเหล่านี้ถูกรับผิดชอบโดยหน่วยงานกรมไหนกองใดนั้น กลายเป็นสิ่งที่จำเป็นต้องอาศัยประสบการณ์ กึ๋น และความเก๋าของแต่ละปัจเจกเป็นปัจจัยสำคัญ
จะมีวิธีการใดที่จะสามารถช่วยให้เราสามารถเข้าใจถึงแหล่งข้อมูลและลักษณะของข้อมูลเหล่านี้ได้ง่ายขึ้นบ้างหรือไม่ จากคำถามนี้สถาบันส่งเสริมการวิเคราะห์และบริหารข้อมูลขนาดใหญ่ภาครัฐ (Government Big Data Institute: GBDi) จึงได้มีส่วนเข้าไปช่วยศูนย์บริหารสถานการณ์การแพร่ระบาดของโรคติดเชื้อไวรัสโคโรนา 2019 (ศบค.) จัดทำแคตตาล็อกข้อมูล (Data Catalog) เพื่อให้เจ้าหน้าที่ บุคลากร หรือผู้ที่เกี่ยวข้องได้สามารถรับรู้ เข้าใจถึงแหล่งข้อมูลเหล่านี้ได้สะดวกรวดเร็วมากขึ้น
ตัวอย่างแคตตาล็อกแหวนแต่งงาน (ภาพจาก Wiki Commons)
ถ้าถามว่าอะไรคือแคตตาล็อก (Catalog) ครั้งแรก ๆ ที่หลายคนได้ยินคำนี้อาจจะมาจากเวลาที่จะไปซื้อสินค้า อาจเป็นห้างสรรพสินค้า ซูเปอร์มาร์เก็ต ร้านขายสินค้าตกแต่งบ้าน ร้านขายเสื้อผ้า ฯลฯ ซึ่งแคตตาล็อกจะเป็นเสมือนแหล่งรวบรวมลิสต์รายการสินค้าที่ห้างร้านนั้น ๆ มีขายให้แก่ลูกค้า ผู้ที่ต้องการซื้อสินค้าสามารถเช็กตรวจสอบจากแคตตาล็อก (ซึ่งส่วนใหญ่มีลักษณะเป็นสิ่งพิมพ์บนกระดาษ อาจเย็บเข้าเล่ม) ได้ โดยที่ไม่จำเป็นต้องไปเดินไล่ดูในโกดังสินค้า ซึ่งแคตตาล็อกเหล่านี้จะมีข้อมูลสินค้าชิ้นนั้น ๆ โดยสังเขปให้ผู้ที่สนใจสามารถเลือกได้ว่าตรงกับความสนใจของตนมากน้อยแค่ไหน ยกตัวอย่างหากเป็นเฟอร์นิเจอร์ ก็อาจบอกราคา สี ขนาด ความกว้างยาวสูง วัสดุที่ใช้ เป็นต้น ข้อมูลเหล่านี้เป็นสิ่งที่จะช่วยให้ข้อมูลสินค้าชิ้นนั้น ๆ ให้แก่ลูกค้าโดยที่ไม่จำเป็นต้องเห็นตัวสินค้าจริง
รายการสินค้าที่จะลิสต์ออกมาคือลิสต์ชุดข้อมูลเป็นสำคัญ แทนที่จะเป็นเฟอร์นิเจอร์ อุปกรณ์แต่งบ้าน เสื้อผ้า ฯลฯ อย่างที่เราคุ้นเคยกัน
Data Catalog ก็เช่นเดียวกันกับแคตตาล็อกสินค้าที่ได้ยกตัวอย่างมาในข้างต้น เพียงแต่ในคราวนี้รายการสินค้าที่จะลิสต์ออกมาให้เราได้เลือกสรรคือลิสต์ชุดข้อมูลเป็นสำคัญ แทนที่จะเป็นเฟอร์นิเจอร์ อุปกรณ์แต่งบ้าน เสื้อผ้า ฯลฯ อย่างที่เราคุ้นเคยกัน แน่นอนว่านอกจากลิสต์รายการชุดข้อมูลทั้งหมดที่มีบริการหรือที่องค์กรหนึ่ง ๆ รับผิดชอบอยู่แล้ว เพื่อให้เห็นว่าชุดข้อมูลหนึ่ง ๆ มีหน้าตาเป็นอย่างไร สิ่งจำเป็นที่ขาดไม่ได้ก็คือรายละเอียดที่อธิบายลักษณะของชุดข้อมูลชิ้นนั้น ๆ รายละเอียดของข้อมูลเหล่านี้เราเรียกว่า เมทาดาต้า (Metadata) ซึ่งหลายคนอาจเรียกกันให้เข้าใจง่าย ๆ ว่าก็คือ “ข้อมูลของข้อมูล” นั่นเอง หากเมทาดาต้าของสินค้าเฟอร์นิเจอร์จะช่วยให้เราเห็นรายละเอียดว่าเฟอร์นิเจอร์ชิ้นนั้น มีราคา สี ขนาด ความกว้างยาวสูง วัสดุที่ใช้ ฯลฯ เป็นอย่างไร เมทาดาต้าของชุดข้อมูลก็จะเป็นส่วนที่จะช่วยให้เราเห็นรายละเอียดว่าชุดข้อมูลนั้น ๆ ใครเป็นเจ้าของ มีที่มาความสำคัญ ความถี่ในการอัพเดต วิธีการติดต่อขอเข้าถึง หรือมีชั้นความลับ ฯลฯ เป็นอย่างไร
นอกจากเมทาดาต้าของข้อมูลแล้ว เพื่อให้ลูกค้าหรือผู้สนใจได้เห็นลักษณะหน้าตาของชุดข้อมูลได้ชัดเจนขึ้น อีกสิ่งหนึ่งที่มักมาคู่กันสำหรับชุดข้อมูลที่มีลักษณะเป็นโครงสร้างที่แน่นอน (Structured Data) ก็คือพจนานุกรมข้อมูล (Data Dictionary) พจนานุกรมเหล่านี้คือการลิสต์รายการหัวตาราง (Data Fields) ของชุดข้อมูลหนึ่ง ๆ เพื่อให้ลูกค้าเห็นว่าชุดข้อมูลที่ตนกำลังพิจารณาอยู่นั้นประกอบด้วยฟีลด์ชื่ออะไรบ้าง และฟีลด์นั้น ๆ เก็บข้อมูลอะไร มีลักษณะรูปแบบหรือฟอร์แม็ตเป็นแบบไหน เป็นต้น ยกตัวอย่างเช่นหากมีฟีลด์ที่ชื่อ dob บางคนที่ไม่คุ้นก็อาจไม่ทราบว่าฟีลด์นี้เก็บข้อมูลวันเกิด หรือหากรู้ก็อาจต้องการเห็นคร่าว ๆ ว่า เก็บเป็นปี พ.ศ. หรือ ค.ศ. กันแน่ หรือในกรณีที่หากเป็นฟีลด์ที่เก็บข้อมูลที่จัดกลุ่มลงประเภทไว้ (Categorical Data) ผู้สนใจก็อาจต้องการทราบว่ามีหมวดหมู่อะไรที่เป็นไปได้สำหรับฟีลด์นั้นบ้าง การมีพจนานุกรมข้อมูลจะช่วยเพิ่มความชัดเจนในข้อมูลแต่ละชิ้นได้ดีขึ้น
เว็บแอปพลิเคชั่นดาต้าแคตตาล็อก รวบรวมชุดข้อมูลเผยแพร่สาธารณะของรัฐบาลไทย
เมื่อทราบเช่นนี้แล้ว ขั้นตอนแรกของการจัดทำดาต้าแคตตาล็อกจึงอาจเริ่มจากการสืบสาวไล่เรียงลิสต์รายการชุดข้อมูลที่จะเป็นประโยชน์ในการนำไปใช้แก้ปัญหาหรือตอบคำถามในหัวข้อที่ต้องการตามด้วยการตรวจสอบให้แน่ชัดว่าชุดข้อมูลเหล่านั้นมีเก็บรักษาอยู่จริงในโกดังที่ใดที่หนึ่ง ก่อนจะสืบเสาะค้นหาเมทาดาต้าสำหรับชุดเหล่านั้น และเรียบเรียงรวบรวมเมทาดาต้า (และพจนานุกรมข้อมูล หากเป็นไปได้) ของชุดข้อมูลเหล่านี้ให้อยู่ในที่ทางเดียวกัน อาจเป็นในรูปแบบตารางรายชื่อ เป็นรายงาน หรือหากจะให้ค้นหาได้ง่ายเหมือนตอนเสิร์ชหาข่าวซุบซิบดาราจากหน้ากูเกิล ก็อาจทำเป็นแอปพลิเคชันสำหรับให้ผู้สนใจเข้ามาค้นหาจากระบบผ่านคอมพิวเตอร์ได้ (ดูเพิ่มเติมเกี่ยวกับ Data Catalog)
สามารถเข้ามาสืบค้นจากแคตตาล็อกเพื่อตรวจสอบว่าข้อมูลลักษณะดังกล่าวถูกดูแลโดยหน่วยงานใดบ้าง
เมื่อรวบรวมรายการชุดข้อมูลได้แล้ว การจะค้นหาข้อมูลที่ต้องการก็สามารถทำได้สะดวกง่ายดายมากขึ้น เมื่อผู้ใช้ข้อมูลได้เห็นว่าจะตามหาข้อมูลที่ตนต้องการได้จากที่ไหนผ่านรายละเอียดชุดข้อมูลที่ระบุไว้ในเมทาดาต้าของชุดข้อมูลชิ้นนั้น ๆ ก็จะช่วยให้ผู้ใช้ข้อมูลเหล่านั้นสามารถเข้าถึงข้อมูลและนำไปใช้จัดทำพัฒนาระบบต่าง ๆ ได้อย่างรวดเร็วมากขึ้น ยกตัวอย่างเช่น หากรัฐบาลต้องการสร้างแผนที่แสดงข้อมูลปริมาณการซื้อขายไข่ไก่ในแต่ละวันตามแต่ละท้องที่ ทางหน่วยงานก็สามารถเข้ามาสืบค้นจากแคตตาล็อกที่จัดทำไว้เพื่อตรวจสอบว่าข้อมูลลักษณะดังกล่าวถูกดูแลโดยหน่วยงานใดบ้าง ข้อมูลจากกระทรวงพาณิชย์สามารถให้คำตอบได้ครบถ้วนตามความต้องการแล้วหรือไม่อย่างไร
หนึ่งในปัญหาปากท้องสำคัญในยุคโควิดได้แก่ปัญหาราคาไข่ไก่ (ภาพจาก pixabay)
อีกตัวอย่างหนึ่งคือในกรณีที่มีหน่วยงานที่รับผิดชอบต้องการพัฒนาระบบจัดเตรียมสถานที่กักตัวรับมือสถานการณ์โควิดที่ระบาดอยู่ในปัจจุบัน ผู้พัฒนาระบบก็สามารถสืบค้นจากดาต้าแคตตาล็อกเพื่อจัดเตรียมระบบให้รองรับการบูรณาการข้อมูลจากกระทรวงการต่างประเทศที่ดูแลข้อมูลผู้แสดงความจำนงกลับเข้าประเทศ เชื่อมโยงเข้ากับข้อมูลการบินจากบริษัท ท่าอากาศยานไทย จำกัด ประกอบร่วมกับข้อมูลผู้เดินทางเข้าออกประเทศซึ่งดูแลโดยสำนักงานตรวจคนเข้าเมือง ก่อนจะนำข้อมูลที่ได้ประกอบเข้ากับข้อมูลสถานที่กักตัวซึ่งบริหารจัดการผ่านกระทรวงกลาโหม
จะเห็นได้ว่าบริการดาต้าแคตตาล็อกที่จัดทำขึ้นสามารถใช้เป็นเครื่องมือหนึ่งเพื่อช่วยในการศึกษาพิจารณาข้อมูลสำหรับพัฒนาระบบอื่น ๆ ได้รวดเร็วขึ้น แทนที่ผู้พัฒนาระบบแต่ละรายจะต้องเข้าติดต่อหน่วยงานเจ้าของข้อมูลเหล่านี้เป็นรายเป็นครั้งไป
ดาต้าแคตตาล็อกช่วยให้การทำงานด้านข้อมูลง่ายขึ้นทั้งในระดับผู้บริหาร และเจ้าหน้าที่ระดับปฏิบัติงาน
ในองค์กรที่มีหลากหลายแผนกนั้น เป็นไปไม่ได้เลยที่การบริหารจัดเก็บข้อมูลจะเกิดจากส่วนกลางเพียงหน่วยเดียว โดยทั่วไปข้อมูลอาจถูกเก็บกระจัดกระจายขึ้นกับพันธกิจของแต่ละแผนก เมื่อเป็นเช่นนี้แล้วจึงเป็นเรื่องยากที่ผู้บริหารสูงสุดจากส่วนกลางจะสามารถเข้าใจหรือมองเห็นลักษณะข้อมูลที่แต่ละหน่วยแต่ละภาคส่วนดูแลรับผิดชอบ การจัดทำดาต้าแคตตาล็อกจึงเป็นส่วนสำคัญที่จะช่วยให้ผู้บริหารระดับสูงได้เห็นภาพรวมของลักษณะข้อมูลที่จัดเก็บอยู่ในแต่ละฝ่ายว่ามีความครบถ้วนครอบคลุมแล้วหรือไม่อย่างไร นอกจากนี้ยังช่วยให้พนักงานได้เข้าใจลักษณะข้อมูลที่อยู่ในความรับผิดชอบของอีกฝ่ายที่ตนไม่ได้สังกัดอยู่ได้ดีขึ้น เมื่อมีความต้องการใช้ข้อมูลชิ้นใด ๆ ก็อาจสามารถติดต่อขอข้อมูลจากอีกแผนกได้โดยตรง ซึ่งจะช่วยลดการเก็บข้อมูลซ้ำซ้อนโดยไม่จำเป็นได้อีกด้วย
อ่านบทความที่น่าสนใจเกี่ยวกับ Big Data ได้ที่
#govbigdata #bigdata #bigdatathailand #datascience #dataengineer #dataanalytic #digitalthailand #DataCatalogue
โฆษณา