สร้างแผนที่การระบาดโควิด-19 อย่างถูกหลักการ
ภาพประกอบแผนที่การระบาดของโควิดจาก COVID-19 Tracker ของ Microsoft Bing
ในปัจจุบันนี้เรามีเทคโนโลยีและเครื่องมือมากมายที่จะช่วยการนำเสนอข้อมูลในหลากหลายรูปแบบไม่ว่าจะเป็นแผนภาพหรือแผนที่ต่าง ๆ ได้อย่างง่ายดายและทันท่วงที สำหรับช่วงการระบาดของโควิดนี้ เราได้เห็นสื่อหรือหน่วยงานต่าง ๆ นำเสนอข้อมูลการระบาดของโรคทั้งในบริบทของประเทศไทยและในบริบทของสถานการณ์โลก แผนที่การระบาดถูกนำมาแชร์มากมายในโซเชียลมีเดีย และผู้อ่านหลายคนก็อาจจะอยากลองนำข้อมูลมาทำแผนที่เอง
วันนี้เรามาลองดูกันดีกว่าว่าก่อนที่จะทำแผนที่อะไรนั้น อาจจะต้องนึกถึงหลักการอะไรบ้าง
ในบทความนี้เราจะมาดูแผนที่แสดงการระบาดของโรคในประเทศจีน เนื่องจากมีการระบาดมานานกว่าใครเพื่อน และ เป็นประเทศแรกที่มีข้อมูลที่นำมาใช้ทำแผนที่ เดี๋ยวเรามาดูแผนที่แบบต่าง ๆ กันนะครับ (แผนที่ที่เราจะศึกษาเหล่านี้มาจาก ESRI ครับ)
แผนที่แบบสี
สำหรับเทคนิคที่ยอดนิยมที่สุดในการแสดงข้อมูลจำนวนในแผนที่นั้นก็คือ การใช้สีในแต่ละพื้นที่ หรือ เรียกว่า choropleth mapping โดยใช้สีเข้มขึ้นเพื่อสื่อถึงจำนวนที่มากขึ้นในพื้นที่นั้น ๆ เทคนิคนี้เป็นเทคนิคที่ดีเพราะสามารถทำให้ผู้เห็นเข้าใจได้ง่ายและรวดเร็ว แต่ก็สามารถทำให้ตีความหรือเข้าใจข้อมูลผิดได้ถ้าใช้ไม่ถูกวิธี จะผิดได้อย่างไรเรามาดูกันครับ
รูป 1 การใช้ choropleth mapping กับจำนวนผู้ป่วยรวม
รูปที่ 1 คือแผนที่การระบาดของโรคโควิดในประเทศจีนเมื่อวันที่ 24 กุมภาพันธ์ 2563 ที่ใช้เทคนิค choropleth mapping ภาพนี้อาจจะดูดีและเข้าใจง่ายใช่มั้ยครับ แต่จริง ๆ แล้วแผนที่นี้หลอกตาเราอยู่อย่างหนึ่ง คือ สีที่ใช้แสดงถึงจำนวนรวมทั้งหมด (total) ในพื้นที่ ทว่าต้องอย่าลืมว่าแต่ละพื้นที่นั้นนอกจากจะมีขนาดไม่เท่ากันแล้วก็ยังมีจำนวนประชากรที่แตกต่างกัน การเปรียบเทียบสี (ซึ่งแสดงจำนวนผู้ติดเชื้อในพื้นที่) ของสองพื้นที่กันตรง ๆ อาจนำไปสู่ความเข้าใจที่คลาดเคลื่อนจากที่ควรจะเป็น ในแผนที่บอกว่ามณฑลหูเป่ยมีผู้ป่วยกว่า 65,000 คน ซึ่งดูเป็นจำนวนที่เยอะ แต่เราไม่รู้ว่าประชากรหูเป่ยมีจำนวนกี่คน มากกว่าหรือน้อยกว่ามณฑลข้างเคียง การเทียบด้วยจำนวนทั้งหมดอย่างเดียวจึงไม่ใช่การเปรียบเทียบที่ดีนัก นั่นจึงเป็นหลักการในการทำแผนที่ว่าการใช้สีแบบนี้ไม่ควรจะแสดงถึงค่ารวมของทั้งพื้นที่ นอกจากนี้อาจจะทำให้คนอ่านติดภาพในหัวไปว่าการระบาดนั้นเกิดขึ้นนั้นกระจายออกไปทั่วทั้งมณฑล ทั้งที่ความเป็นจริงนั้นการระบาดอาจจะถูกจำกัดอยู่ในเมืองใหญ่ในใจกลางมณฑลอย่างเดียวก็เป็นได้
รูป 2 กราฟแท่งเปรียบเทียบจำนวนผู้ป่วยในแต่ละมณฑล
อีกอย่างหนึ่งที่ต้องคำนึงถึงเมื่อใช้ choropleth mapping ก็คือ color scheme หรือ เกณฑ์ในการใช้สี ในรูปที่ 1 นี้มีการใช้จำนวนผู้ป่วย 1000 คนเป็นค่าสูงสุดและให้เป็นสีเข้มที่สุด ซึ่งมีอยู่ห้ามณฑลด้วยกัน ถ้าดูแผนที่นี้อย่างเผิน ๆ อาจเข้าใจว่าห้ามณฑลนี้มาการระบาดพอ ๆ กัน ใช่มั้ยครับ… ผิดครับ ลองมาดูกราฟจะเห็นได้ว่าหูเป่ยมีปริมาณสูงกว่าอีกสี่มณฑลมาก ถ้าดูกราฟแท่งนี้แล้วกลับไปมองแผนที่ในรูป 1 จะพบว่ามันสื่อความหมายต่างกันสิ้นเชิง ซึ่งเป็นเพราะว่าการใช้ 1000 เคสผู้ป่วยเป็นตัวแบ่งสีนั้นอาจจะไม่ใช่ทางเลือกที่ดีนัก
รูป 3 การใช้ choropleth mapping กับอัตราส่วนจำนวนผู้ป่วย
จากสองข้อนี้เราควรจะทำอย่างไรดี ถึงจะได้แผนที่ที่ดูแล้วไม่ทำให้เข้าใจผิด? เราลองมาดูแผนที่อีกชิ้นที่นำเสนอข้อมูลเดียวกันกันนะครับ
อย่างแรกเลยแผนที่นี้เปลี่ยนมาใช้สีน้ำเงินแทน เนื่องจากสีแดงเป็นสีที่สื่อถึงอารมณ์รุนแรง ถ้าย้อนกลับไปดูแผนที่ในรูปที่ 1 จะเห็นได้ว่าการที่มีสีแดงทั่วทั้งประเทศ อาจจะทำให้รู้สึกว่ามันแดงหมดทั้งประเทศแล้วนะหรืออาจะสื่อถึงความตายในขณะที่เรานำเสนอเพียงจำนวนผู้ป่วยไม่ได้หมายถึงจำนวนผู้เสียชีวิต การใช้สีแดงจะเป็นการเพิ่มอารมณ์ไปโดยที่ไม่จำเป็น (ถึงแม้จะดูสวยก็ตามเถอะ) แต่การใช้สีอื่นก็สามารถสื่อความหมายได้เหมือนกัน
อย่างที่สองการใช้สีของแผนที่นี้สื่อถึงอัตราส่วนผู้ป่วยต่อจำนวนประชากร ไม่ได้หมายถึงจำนวนผู้ป่วยทั้งหมด ซึ่งนี่ทำให้สามารถแสดงได้ว่าการมีผู้ป่วย 10 คนในเมืองใหญ่ กับ 10 คนในหมู่บ้านเล็ก ๆ นั้นเห็นถึงความรุนแรงต่างกัน
อย่างที่สามหูเป่ยมีผู้ติดเชื้อ 111 คนต่อแสนคน ในขณะที่มณฑลอื่นมีไม่ถึง 3 คนต่อแสนคน จึงใช้สีที่ต่างจากมณฑลอื่นอย่างเห็นได้ชัด ซึ่งแสดงให้เห็นถึงความแตกต่างที่ชัดเจนยิ่งขึ้น การใส่ label และ legend ที่เหมาะสมก็ช่วยให้ตีความข้อมูลได้ถูกต้องมากขึ้น
อย่างไรก็ตามการใช้ choropleth mapping ก็ไม่ได้เป็นวิธีเดียวในการนำเสนอข้อมูลบนแผนที่ แล้วยังมีวิธีอื่นอีกไหม?
แผนที่แบบจุด
เราสามารถใช้แผนที่แบบจุดกระจาย หรือ dot density map แทนการใช้สีเพื่อแสดงข้อมูลผู้ป่วยได้ โดยในรูปที่ 4 แต่ละจุดในภาพสื่อถึงผู้ป่วยสิบคน การใช้จุดทำให้เราสามารถนำเสนอจำนวนผู้ป่วยทั้งหมดได้เลย ไม่ต้องทำอัตราส่วนก่อน เพราะจุดแต่ละจุดนั้นมีขนาดเท่ากันจะไม่ทำให้เกิดการตีความผิดแบบในกรณีใช้สี เนื่องจากเราไม่รู้ตำแหน่งทีแท้จริงของผู้ป่วยจึงให้จุดจะกระจายแบบสุ่มในแต่ละพื้นที่ ซึ่งแสดงให้เห็นถึงความแตกต่างที่ชัดเจนระหว่างหูเป่ยและมณฑลอื่น ๆ ข้อเสียคือทำให้คนอ่านเข้าใจผิดว่าแต่ละจุดหมายถึงผู้ป่วยหนึ่งคน ดังนั้นการใส่ label ที่เหมาะสมจึงมีความจำเป็น
รูป 4 การใช้ dot density map
แผนที่อีกแบบที่สามารถใช้ได้คือแผนที่แสดงด้วยสัญลักษณ์สัดส่วน หรือ proportional symbol map ซึ่งใช้ขนาดของวงกลมมาแสดงถึงจำนวนผู้ป่วย โดยที่พื้นที่ของวงกลมจะแสดงถึงจำนวนผู้ป่วยรวมของแต่ละมณฑล
รูป 5 การใช้ proportional symxbol map
มีใครเห็นข้อแตกต่างของแผนที่นี้กับแผนที่ที่ผ่านมาไหมครับ? ในแผนที่นี้เราสามารถมองเห็นฮ่องกงและมาเก๊าได้ เนื่องจากสองเขตนี้มีขนาดเล็กทำให้ยากต่อการมองเห็นใน choropleth หรือ dot density map ในขณะที่แผนที่แบบ proportional symbol map ช่วยให้เราเห็นข้อมูลของพื้นที่ที่มีขนาดเล็กได้เพราะขนาดของวงกลมที่แสดงจะไม่ขึ้นกับขนาดของพื้นที่นั่นเอง
เนื่องจากหูเป่ยมีตัวเลขผู้ป่วยสูงจุดอื่น ๆ จึงมีขนาดเล็กหมด เราสามารถแก้ปัญหานี้ได้โดยใช้อัตราส่วนแบบ logarithm หรือที่เรียกกันว่า log scale ในการแสดงขนาดของจุด จะทำให้เปรียบเทียบมณฑลอื่น ๆ ได้ง่ายยิ่งขึ้น แต่อย่าลืม legend ที่ชัดเจนเพื่อบอกว่าขนาดของวงกลมหมายถึงอะไร
รูป 6 การใช้ proportional symbol map โดยใช้ log scale
แผนที่แบบอื่น ๆ
เทคนิคที่กล่าวมาทั้งหมดก็น่าจะเพียงพอแล้ว ที่จะนำมาออกแบบแผนที่แสดงข้อมูล แต่จริง ๆ แล้วมันก็ยังมีอีกหลายอย่าง ซึ่ง ”อาจจะ” นำมาใช้ได้
รูป 7 การใช้แผนที่ความร้อน
เทคนิคแรกเลยที่จะพูดถึงคือการใช้แผนที่ความร้อนหรือ heat map… ดูไม่งามเลยใช่มั้ยครับ แผนที่นี้สร้างโดยการประมาณค่าตัวเลขในพื้นที่ต่าง ๆ ให้ครอบคลุมทั้งประเทศ โดยใช้ค่าตั้งต้นจากผู้ป่วยในแต่ละมณฑลเป็นจุดกลางมณฑล ปัญหาคือมณฑลในจีนมีขนาดใหญ่มาก จุดกลางมณฑลที่ใช้ในการคำนวณอาจจะไม่ใช่จุดกึ่งกลางของการระบาดในมณฑลนั้น ๆ อีกอย่างหนึ่งคือเราดูแผนที่นี้แล้วดูไม่ออกว่าจุดเริ่มต้นของการระบาดอยู่ที่หูเป่ย ส่วนสีที่ใช้นั้นก็ดูไม่ค่อยสื่อถึงกับการระบาดของโรคเท่าไร
แล้วแผนที่สามมิติล่ะ ใคร ๆ ก็ชอบสามมิติ แต่ผมว่าไม่
รูป 8 การใช้แผนที่สามมิติ
การใส่ effect สามมิติเข้าไปในแผนที่นั้น ไม่ได้ให้ข้อมูลอะไรออกมามากและดูเหมือนจะเบี่ยงเบนความสนใจของผู้อ่านไปจากข้อมูลที่ต้องการจะนำเสนอเสียด้วยซ้ำ แถมอย่างในรูปที่ 8 กราฟสามมิติที่แสดงจำนวนผู้ป่วยเป็นความสูง อาจจะบดบังข้อมูลของมณฑลบางมณฑลอีกด้วย
แผนที่แบบ interactive
อย่างสุดท้ายที่ผมจะพูดถึงคือการทำ Interactive map บนเว็บหรือ Dashboard ปัจจุบันมีเครื่องมือมากมายเช่น Power BI หรือ Tableau ซึ่งทำให้เราสามารถเล่นกับแผนที่ได้ เช่น สามารถคลิกที่แต่ละพื้นที่แล้วแสดงข้อมูลแบบละเอียดออกมา หรือเมื่อซูมเข้าไปจะทำให้ข้อมูลที่แสดงออกมาละเอียดขึ้น เช่น เปลี่ยนจากจำนวนรวมของมณฑลเป็นจำนวนรวมแต่ละเมืองแทน การทำแผนที่เหล่านี้ก็ยังต้องคำนึกถึงสิ่งที่เขียนไว้ในบทความนี้เพื่อที่จะไม่ให้สื่อสารผิดวิธี ปัญหาหนึ่งของการทำ interactive map แบบนี้ คือผู้ใช้สามารถซูมเข้าไปได้เรื่อย ๆ ซึ่งหากซูมมากเกินไปกว่าขีดจำกัดของข้อมูลที่มีอาจจะทำให้คนเข้าใจผิดได้ เช่น ถ้าซูมเข้าไปที่จังหวัดจนมองไม่เห็นจุดที่แสดงถึงข้อมูล จะทำให้มองไม่เห็นจุดแล้วเข้าใจผิดได้ว่าในพื้นที่นั้นไม่มีการระบาดเป็นต้น จึงควรจำกัดการซูมไม่ให้เล็กกว่าขีดจำกัดของการแสดงผล
รูปที่ 9 การใช้แผนที่แบบ interactive ที่ซูมเข้ามาเกินไป
และนี่ก็เป็นหลักการนำเสนอข้อมูลบนแผนที่ หวังว่าผู้อ่านทุกท่านจะนึกถึงหลักการเหล่านี้ ก่อนที่นำไปใช้ในการออกแบบแผนที่แสดงข้อมูลไม่ว่าจะเป็นเรื่องของสถานการณ์ระบาดของไวรัสโควิดหรือเรื่องอื่น ๆ ก็ตามครับ
อ่านบทความที่น่าสนใจเกี่ยวกับ Big Data ได้ที่
#govbigdata #bigdata #bigdatathailand #datascience #dataengineer #dataanalytic #digitalthailand #Map #DataVisualization #COVID-19 #Dashboard
ความคิดเห็น
ยังไม่มีข้อความในโพสต์นี้