19 ม.ค. 2021 เวลา 23:00 • สิ่งแวดล้อม
มอง PM 2.5 ในมุมของ Data Scientist
1
จากเลคเชอร์ของ อ. ดร. กริชชาติ ว่องไวลิขิต อาจารย์ภาควิศวกรรมเคมี จุฬาลงกรณ์มหาวิทยาลัย ซึ่งมีเนื้อหาเกี่ยวกับ เราจะใช้ศาสตร์ของ Data Science อย่างไรในการวิเคราะห์สถานการณ์ PM 2.5
1
ก่อนอื่น มาทำความรู้จักกับ Data Scientist กันก่อน
Data Scientist คือคนที่นำข้อมูล (Big data) มาวิเคราะห์ตามกระบวนการวิทยาศาสตร์ นั่นคือตั้งสมมติฐาน ทดลอง และหาข้อสรุปจากข้อมูลที่มี ซึ่งข้อสรุปที่ได้นั้นจะนำไปสู่การสร้างโมเดล เช่น โมเดลทำนายผล หรือ predictive model
2
ซึ่งหน้าที่ของ Data Scientist ในขั้นต้นคือ
2
1. เข้าใจในปัญหาที่ต้องการแก้ไข (Define problem)
2. ดึงข้อมูลจากแหล่งข้อมูล (Data collection)
3. ทำความเข้าใจในข้อมูลที่มี (Data understanding / Data analysis)
1
จากนั้นจึงค่อยนำข้อมูลไปประมวลผล และสรุปผลต่อไป
และในวันนี้ไอจะชวนเพื่อน ๆ มาลองฝึกเป็น Data Scientist กันค่ะ
1
ให้จำเอาไว้ว่าคุณสมบัติที่ดีของ Data Scientist ก็คือการเป็นคนช่างสงสัย ขยันตั้งคำถามว่าทำไม
https://www.youtube.com/watch?app=desktop&v=QoWt_FBvayM
บัดนี้ "คุณ" คือ Data Scientist ที่เก่งที่สุดในประเทศไทย และรัฐบาลได้จ้างคุณหนึ่งพันล้านบาทให้คุณหา solution ของปัญหาฝุ่น PM 2.5
.
.
.
ด้วยความที่เป็นมืออาชีพและรู้ว่าต้องทำอะไร
คุณทำความเข้าใจในปัญหาที่ต้องการแก้ไข (Define problem) ก่อนเป็นอันดับแรก
คุณจึงค้นคว้าข้อมูลใน internet
.
.
ในปัจจุบันฝุ่นที่มีความอันตรายต่อร่างกายของเราก็คือ PM 2.5 (ฝุ่นที่มีขนาดเล็กกว่า 2.5 µm) และ PM 10 (ฝุ่นที่มีขนาดเล็กกว่า 10 µm)
สาเหตุที่คนไม่กล่าวถึงฝุ่นที่มีขนาดใหญ่กว่านี้ก็เพราะร่างกายเราสามารถกรองได้ เวลาสูดเข้าไปมันจะไปติดอยู่ตามขนจมูก จึงไม่เป็นอันตราย
1
แต่ถ้าหากเล็กกว่า 10 µm มันจะอยู่ตามทางเดินหายใจของเรากับปอด และถ้าเล็กกว่า 2.5 µm สามารถซึมผ่านผนังปอดเข้าสู่กระแสเลือดเราได้เลย
ที่มา: https://www.dreamstime.com/
ปกติแล้ว PM 2.5 ในประเทศไทยจะมาจากการเผาไหม้เป็นหลัก ไม่ว่าจะเป็นจากการเกษตร ควันรถยนต์ หรือโรงงานอุตสาหกรรม
ส่วน PM 10 มาจากการก่อสร้าง, ดิน/ถนน หรือเกสรดอกไม้
.
.
จากนั้นคุณก็ดึงข้อมูลจากแหล่งข้อมูลต่าง ๆ ที่น่าเชื่อถือ (Data collection) เพื่อนำไปสู่การทำความเข้าใจในข้อมูล (Data understanding / Data analysis)
ในการดึงข้อมูลนี้คุณได้ดึงข้อมูลจากหลาย ๆ แห่งมาวิเคราะห์ประกอบกัน ซึ่งบางทีก็มีกราฟให้ บางทีก็มีแต่ raw data มาให้ คุณก็นำ raw data นั้นมาแสดงผลเป็นกราฟเอง (Data Visualization)
คุณพบกราฟที่น่าสนใจ ดังนี้
กราฟแสดงค่า PM 2.5 (ไมโครกรัม/ลูกบาศก์เมตร) แบบรายเดือนในกรุงเทพฯ
ตั้งแต่ปี 2554 - 2561
ที่มา : กรมควบคุมมลพิษ http://air4thai.pcd.go.th/webV2/history/
"คุณ" สังเกตได้ว่า ทุกปีมีแนวโน้มค่าฝุ่นเป็นไปในทิศทางเดียวกัน คือสูงในช่วงต้นปีและปลายปี และมีค่ามาตรฐานอยู่ที่ 50 มคก./ลบ.ม.
นอกจากนี้ยังมีกราฟค่า PM 2.5 แบบรายปี ตั้งแต่ปี 2016 - 2020
ที่มา: Berkeley Earth
คุณเห็นว่าในกรุงเทพฯ มีช่วง peak ตั้งแต่ธันวาคมถึงมีนาคม
ในขณะที่เชียงใหม่มีช่วง peak ตั้งแต่มีนาคมถึงพฤษภาคม
และ pattern จะเป็นแบบนี้ในทุก ๆ ปี
นอกจากนี้กราฟของเชียงใหม่ มีแกนตั้งที่สูงกว่ากรุงเทพฯด้วย
คุณคิดได้ว่าการที่มันมีแนวทางที่ซ้ำ ๆ กัน นั้นไม่ใช่เรื่องบังเอิญ ต้องมีที่มาที่ไปอย่างแน่นอน
ด้วยความสงสัย คุณจึงเก็บข้อมูลเพิ่มอีก
โดยเจาะลึกเข้าไปที่แหล่งที่มาของปัญหา PM 2.5 ในบ้านเรา ซึ่งมีที่มาจาก 3 แหล่งหลัก ๆ ก็คือ การเผา ควันรถ และควันจากโรงงานอุตสาหกรรม
.
.
.
คุณสามารถหาได้แต่ข้อมูลของการเผา และรถยนต์เท่านั้น ไม่มีข้อมูลสถิติการปล่อยมลพิษจากโรงงานอุตสาหกรรม คุณจึงดูแค่การเผา และรถยนต์
- การเผาในที่โล่ง
ภาพถ่ายจากดาวเทียมแสดง hotspot (จุดร้อน หรือจุดที่มีการเผา) ณ วันที่ 19 ม.ค. 64 จาก Firms NASA
ที่มา: https://firms.modaps.eosdis.nasa.gov/
คุณได้เห็นว่าการเผาสวนใหญ่เกิดขึ้นที่ประเทศกัมพูชา
ซึ่งสอดคล้องกับข้อมูลจาก ASMC (ASEAN Specialized meteorological centre)
ที่มา: http://asmc.asean.org/asmc-haze-hotspot-monthly-new#Hotspot
'เว็บไซต์นี้สามารถดูจำนวนการเผาแบบรายเดือนได้ด้วยนี่หว่า'
คุณจึงดูที่ประเทศที่เผา จำนวนการเผา และช่วงเวลาที่เผา
ที่มา: http://asmc.asean.org/asmc-haze-hotspot-monthly-new#Hotspot
"คุณ" สังเกตได้ว่าในปี 2019 ประเทศพม่าและลาวมีจำนวนครั้งการเผาสูงในช่วงมีนาคมถึงพฤษภาคม ในขณะที่ประเทศกัมพูชามีการเผามากในช่วงมกราคมถึงมีนาคม และมีการเผาเล็กน้อยในช่วงปลายปี เป็นการเก็บเกี่ยวผลผลิต
และ trend จะเป็นแบบนี้ในทุก ๆ ปี
ปี 2020 ก็เช่นกัน
ที่มา: http://asmc.asean.org/asmc-haze-hotspot-monthly-new#Hotspot
'แต่เอ๊ะ... ช่วงเดือนนี่มันคุ้น ๆ นะ'
คุณจึงนำไปเทียบกับช่วงเวลาที่กรุงเทพและเชียงใหม่มีค่าฝุ่นสูงที่สุด จึงได้เห็นว่ามันสมเหตุสมผลกัน เนื่องจากกรุงเทพฯ อยู่ใกล้กับกัมพูชา ในขณะที่เชียงใหม่อยู่ติดกับพม่า และใกล้กับลาว
ในปีนี้ 2021 ก็เช่นเดียวกัน กัมพูชามีการเผาสูงมาก ๆ ในช่วงกลางเดือนมกราคม
ที่มา: http://asmc.asean.org/asmc-haze-hotspot-monthly-new#Hotspot
คุณคิดว่าเท่านี้ก็พอจะได้อะไรบางอย่างแล้ว จึงไปที่แหล่งที่มาถัดไป
- มลพิษจากท่อไอเสียรถยนต์
คุณดูกราฟดัชนีการจราจรในกรุงเทพมหานคร
ดัชนี 0 คือรถไม่ติดเลย ส่วนดัชนี 10 คือติดหนักมาก
**มีการเปลี่ยนวิธีการวัดในปี 2018
ที่มา: https://traffic.longdo.com/trafficindex
นอกจากนี้ คุณได้ไปเจอจำนวนรถโดยสารหรือประเภทรถยนต์ในแต่ละพื้นที่ จากกลุ่มสถิติการขนส่ง กรมการขนส่งทางบก
1
คุณคิดว่านี่เป็นอีกหนึ่ง dataset ที่สามารถดูได้ว่ารถติดหรือไม่ติดมีผลกับฝุ่นอย่างไร คุณจึงเก็บไว้ก่อน
วันนี้ คุณทำงานอย่างหนักแล้ว จึงพอแค่นี้ และเข้านอน
เช้าวันต่อมา
ด้วยความรอบคอบ คุณนั่งดูกราฟวนไปมา และคุณก็ได้เจอกับคำถามที่ปั่นหัวคุณแต่หัววัน
จากกราฟทางซ้าย "คุณ" เห็นได้ว่าค่าฝุ่นในกรุงเทพฯ มีช่วง peak ณ วันที่ 4 มกราคม และ 16 มกราคม ซึ่งสอดคล้องกับกราฟการเผาของประเทศกัมพูชาที่สูงก่อนวันที่ 4 และ 16 มกราคม
แล้ววันที่ 8 มีการเผาที่กัมพูชาเยอะ แล้วทำไมที่กรุงเทพฯ ถึงมีค่าฝุ่นน้อยล่ะ???
.
.
.
'เดี๋ยวนะ เหมือนเราลืมไปว่าการที่ฝุ่นจะมาถึงกรุงเทพฯ ได้นั้น ต้องอาศัยลมนี่'
เมื่อคิดได้ดังนี้ คุณจึงนั่งค้นคว้าเกี่ยวกับลม กับ PM 2.5 ทันที และบังเอิญไปเจอข้อความบนเว็บไซต์หนึ่ง
อีกหนึ่งปัจจัยสำคัญที่ก่อให้เกิดปัญหา PM 2.5 ก็คืออุตุนิยมวิทยา ได้แก่ ลม และอุณหภูมิ
- ทิศทางลม
1
ทิศทางลมในวันที่ 4 นั้น พัดจากกัมพูชามากรุงเทพฯ
ในขณะที่วันที่ 8 นั้น ลมจากกัมพูชาพัดไปทางใต้ ไม่ได้พัดผ่านกรุงเทพฯ
คุณคลายความสงสัยถึงสาเหตุที่ค่า PM 2.5 วันที่ 8 นั้น ในกรุงเทพฯ มีค่าน้อยในทันที
ส่วนทิศทางลมในวันที่ 12 มกราคม มาจากตะวันออกเฉียงเหนือ ทางแถบประเทศจีน
‘อย่างนี้นี่เอง วันนั้นจำได้ว่าหนาวมาก’ คุณนึกย้อนกลับไป
วันที่ 14 เป็นวันที่ไม่มีลม ทำให้ฝุ่นฟุ้งกระจาย ในขณะเดียวกันก็ไม่มีลมพัดมันออกไป ทำให้วันที่ 14-16 มกราคมนั้น มีค่าฝุ่น PM 2.5 พุ่งขึ้นสูงมาก
ลมในวันที่ 18 ก็เป็นเหตุให้เมื่อวานซืนและเมื่อวานก็มีฝุ่นไม่สูงมากนัก
'อืมมม...ลมและแหล่งกำเนิดนั้น มีผลต่อการเกิด PM 2.5 สินะ ถ้าวันไหนโชคร้ายก็มีลมพัดจากประเทศที่มีการเผาเยอะ ๆ และถ้าโชคร้ายขึ้นไปอีกคือจะไม่มีลมในเวลาต่อมา แต่ถ้าโชคดีก็จะมีลมแรง ๆ มาพัดมันออกไป'
2
'ถ้าอย่างนั้นเราคงจะหาวิธีแก้มันให้หายไม่ได้ จริงอยู่ที่ PM 2.5 นั้นเกิดจากพฤติกรรมบางอย่างของคนในประเทศเรา แต่มันเป็นเรื่องของธรรมชาติซะเป็นส่วนใหญ่ จะไปบังคับธรรมชาติก็ไม่ได้'
คุณรู้สึกหมดหวังกับ solution ของ PM 2.5 จึงคิดอะไรเรื่อยเปื่อย
.
.
.
1
'แล้ววันนี้สภาพฝุ่น PM 2.5 จะเป็นยังไงนะ'
ทันใดนั้นเอง ความคิดหนึ่งก็ผุดขึ้นมาในสมองอันหลักแหลมของคุณ
คุณรีบดูภาพลมของวันที่ 20 ประกอบกับกราฟด้านบนที่สองสามวันมานี้ประเทศเพื่อนบ้านเราเริ่มมีการเผาอีกแล้ว
ทำให้คุณทำนายได้ทันทีว่าวันนี้ 20 มกราคม จะมีค่าฝุ่นสูงอีกครั้ง
2
'ไชโย!!!' คุณร้องในใจ
'ในเมื่อเราหาวิธีแก้มันไม่ได้ ทำไมเราไม่ลองสร้างโมเดลในการทำนายค่าฝุ่นในวันต่อ ๆ ไปดูล่ะ'
คุณค้นพบทางสว่าง
.
.
.
แต่การค้นคว้าของคุณยังไม่จบ คุณจึงค้นคว้าต่อ
- อุณหภูมิ
Temperature inversion
เป็น zone ที่มีการกักอากาศอยู่ในบริเวณนั้น เหมือนเป็นฝาชีที่ครอบปิดอากาศอยู่ ภาษาทางอุตุนิยมวิทยาเรียกว่า Planetary Boundary Layer (PBL) ซึ่งจะเห็นได้ชัดในช่วงหน้าหนาว เพราะ layer มันจะกดตัวต่ำลง
มีคนทำสถิติไว้ของเชียงใหม่ในปี 2017-2018 เส้นสีแดงคือเส้นสูงสุดในแต่ละวัน สีฟ้าคือเส้นต่ำสุดในแต่ละวัน
1
จะสังเกตได้ว่า PBL นั้นจะถูกกดลงต่ำมากในช่วงหน้าหนาว ทำให้ฝุ่นที่เกิดขึ้นจะมีพื้นที่การกระจายตัวที่ลดลง เป็นผลให้ความเข้มข้นฝุ่นเพิ่มขึ้น
นอกจากเจ้า PBL จะเกิดขึ้นทุกวันแล้ว ในแต่ละวันมันยังเปลี่ยนแปลงอีกด้วย
ซึ่ง PBL นี้จะอยู่ต่ำในช่วงกลางคืน และลอยตัวสูงขึ้นในช่วงกลางวัน สูงสุดที่บ่าย 3 ของทุกวัน
สาเหตุมาจากในตอนกลางวันอุณหภูมิพื้นโลกสูง อากาศก็ลอยตัวสูง ตอนกลางคืนอุณหภูมิพื้นโลกต่ำ อากาศก็ลอยตัวต่ำ
ดังนั้นสรุปได้ว่าอุณหภูมิที่พื้นโลกมีผลต่อความสูงของ PBL และความสูงของ PBL ก็มีผลต่อความเข้มข้นของฝุ่นนั่นเอง
เป็นเหตุให้ในช่วง 8-9 โมงของทุกวันมีค่าฝุ่นสูงที่สุด เพราะเป็นจังหวะที่เจ้า PBL กำลังกระจายตัวออกหลังจากถูกกดต่ำมาทั้งคืน
'พุทโธ่! ถือเป็นเคราะห์ซ้ำกรรมซัดของประเทศไทยแท้ ๆ โดนทั้งเผา ทั้งลม ทั้ง temperature inversion กดต่ำ พร้อมกันในช่วงนี้’
.
.
.
หลังจากนั้นคุณได้ทำโมเดลทำนายค่าฝุ่น
เสร็จแล้วจึงนำโมเดล และนโยบายการแก้ปัญหาสำหรับคนในประเทศไปเสนอต่อรัฐบาล ซึ่งรัฐบาลได้นำไปใช้จริง และผลตอบรับดีอย่างมาก เพราะวันใดที่มีค่าฝุ่นเยอะ ผู้คนจะพร้อมใจกันปิดกิจการ และงดออกจากบ้าน เป็นผลให้มลภาวะลดลง รวมไปถึงผู้คนมีสุขภาพที่ดีด้วย
มากไปกว่านั้น ทั่วโลกก็ยอมรับว่าประเทศไทยนั้นมีระบบพยากรณ์ค่าฝุ่นที่แม่นยำที่สุดในโลก และโมเดลของคุณก็ได้ถูกนำไปใช้ทั่วโลกจนคุณกลายเป็นคนไทยคนแรกที่เป็นมหาเศรษฐีอันดับต้น ๆ ของโลก
.
.
.
"คุณ" ตื่นจากความฝัน
แต่สิ่งที่ได้จากความฝันคือ ทำให้คุณได้รู้ว่าการใช้ data science เข้ามาช่วยนั้น
ทำให้ได้คำตอบมากกว่าการ visualize ข้อมูลดูเฉย ๆ จริง ๆ
เป็นอย่างไรกันบ้างคะเพื่อน ๆ
หวังว่าจะได้มุมมองใหม่ ๆ เพิ่มขึ้นไม่มากก็น้อย
สำหรับวันนี้ต้องขอลาไปก่อน
สวัสดียามเช้าค่ะ :)
โฆษณา