8 พ.ค. 2023 เวลา 02:16 • วิทยาศาสตร์ & เทคโนโลยี

Simpson’s Paradox

ตัวแปรแฝงที่เปลี่ยนแปลงข้อสรุป กับ 2 กรณีตัวอย่างที่น่าเหลือเชื่อ
Simpson’s Paradox คืออะไร?
ความขัดแย้งของซิมป์สัน (Simpson’s Paradox) เป็นปรากฏการณ์ทางสถิติ ที่เกิดขึ้นในกรณีที่แนวโน้มของข้อมูลมีทิศทางสลับด้านกันเมื่อมีการแบ่งกลุ่มของข้อมูลย่อย โดยในบทความนี้ผู้เขียนจะนำเสนอตัวอย่างที่น่าสนใจในการการสรุปข้อมูลจากข้อมูลชุดเดียวกัน แต่สามารถได้ข้อสรุปที่ตรงกันข้ามกัน
Case Study 1: เคสการอคติทางเพศของ UC Berkeley (Dexter, 2017)
เมื่อปี 1973 มหาวิทยาลัย UC Berkeley มีประเด็นเรื่องการมีอคติทางเพศ เนื่องจากเมื่อดูสถิติการรับนักศึกษาเข้าแล้ว มีนักเรียนเพศหญิงเพียง 35% (จาก 4321 คน) ที่ได้รับการคัดเลือกเพื่อเข้าเรียน แต่นักเรียนเพศชายกลับได้รับคัดเลือกเพื่อเข้าเรียนถึง 44% (จาก 8442 คน) จึงกลายเป็นประเด็นทางสังคมในเรื่องความไม่เท่าเทียมทางเพศ
ตารางที่ 1: อัตราการได้เข้าเรียนจำแนกตามเพศ
ต้นตอของความไม่เท่าเทียมอยู่ที่ไหน?
ซึ่งเมื่อทางมหาวิทยาลัย UC Berkeley ได้เห็นข้อมูลนี้ แล้วจึงได้ทำการสืบค้นข้อมูลเพิ่มเติม เพื่อทีจะชี้เป้าว่าภาควิชาใด ที่เป็นต้นตอของความไม่เท่าเทียมทางเพศในครั้งนี้ จากนั้นจึงได้เผยข้อมูลสรุปสำหรับ 6 ภาควิชา ที่มีจำนวนผู้สมัครมากที่สุดได้ดังนี้
ตารางที่ 2: เปรียบเทียบอัตราการได้เข้าเรียนจำแนกตามเพศและภาควิชา
การสรุปข้อมูลในแง่มุมนี้ได้ให้ข้อสรุปที่แตกต่างกัน โดยสามารถสรุปได้ว่ามีทั้งหมด 4 ภาควิชา (จาก 6) ที่มีอัตราส่วนการรับนักเรียนเพศหญิงสูงกว่าอัตราส่วนการรับนักเรียนเพศชาย ซึ่งขัดแย้งกับแนวโน้มภาพรวมที่อัตราการรับนักเรียนชายสูงกว่า
รูปที่ 2: ภาควิชา A ที่มีอัตราการรับสูง มีผู้สมัครหญิงน้อย แต่ภาควิชา F ที่มีอัตราการรับเข้าต่ำมีจำนวนผู้สมัครทั้งสองเพศใกล้เคียงกัน
โดยที่คำถามต่อไปที่น่าสนใจก็คือ เกิดอะไรขึ้นกับข้อมูลชุดนี้ ? ในกรณีนี้เราอาจจะเรียกว่ามีตัวแปรแฝง (Lurking Variable) ซึ่งในกรณีนี้คือ “ภาควิชา” โดยผู้อ่านสามารถสังเกตได้ว่าภาควิชา A มีอัตราการรับที่สูงมาก (82% ของนักเรียนหญิงที่สมัครภาควิชานี้) แต่มีจำนวนนักเรียนหญิงที่สมัครเข้าภาควิชา A เพียง 108 คน (คิดเป็น 2% ของนักเรียนหญิงที่สมัครทั้งหมด) แต่มีจำนวนนักเรียนชายที่สมัครเข้าภาควิชา A อยู่ถึง 825 คน (คิดเป็น 10% ของนักเรียนชายที่สมัครทั้งหมด)
ในทางกลับกัน ภาควิชา F นั้นมีอัตราการรับนักศึกษาต่ำนั้นมีผู้สมัครที่เป็นนักเรียนหญิง 341 คน (คิดเป็น 8% ของนักเรียนหญิงที่สมัครทั้งหมด) แต่มีผู้สมัครที่เป็นนักเรียนชายเพียง 373 คน (คิดเป็น 4% ของนักเรียนชายที่สมัครทั้งหมด)
ดังนั้นเมื่อทำการวิเคราะห์จากข้อมูลสถิตินี้ อาจะสรุปได้ว่า ผู้สมัครเพศหญิงมีแนวโน้มที่จะสมัครเข้าภาควิชาที่มีอัตราการคัดเลือกเข้าเรียนต่ำ (ภาควิชา F) แต่ผู้สมัครเพศชายมีแนวโน้มที่จะสมัครเข้าภาควิชาที่มีอัตราการคัดเลือกเข้าเรียนสูง (ภาควิชา A) จึงเป็นสาเหตุให้เกิด Simpson’s Paradox ในครั้งนี้
Case Study 2: การสูบบุหรี่ทำให้อายุยืน (David R. Appleton, 1996)
ในปี ค.ศ. 1996 ได้มีงานวิจัยที่ประเทศอังกฤษ โดยทำการศึกษาเปรียบเทียบอัตราการรอดชีวิต 20 ปี ระหว่างกลุ่มตัวอย่างที่สูบบุหรี่ และกลุ่มที่ไม่สูบบุหรี่ โดยคณะผู้วิจัยพบว่ากลุ่มตัวอย่างที่สูบบุหรี่ นั้นมีอัตราการมีชีวิตรอด (ไม่เสียชีวิตภายใน 20 ปี) สูงกว่ากลุ่มตัวอย่างที่สูบบุหรี่ (76% สำหรับผู้สูบบุหรี่ และ 69% สำหรับผู้ไม่สูบบุหรี่) ในเบื้องต้นนั้นจะสามารถสรุปได้ว่าการสูบบุหรี่นั้นทำให้มีอายุยืนมากขึ้น
ตารางที่ 3: เปรียบเทียบจำนวนการรอดชีวิตในระยะ 20 ปี ระหว่างกลุ่มตัวอย่างที่สูบบุหรี่ และไม่สูบบุหรี่
ตัวแปรแฝงอยู่ที่ไหน?
แน่นอนว่าข้อสรุปเบื้องต้นที่ได้นั้นค่อนข้างตรงกันข้ามกับสิ่งที่เรารู้และเข้าใจกัน ในกรณีนี้เราวิเคราะห์แบบเจาะลึก (Drill Down) ว่าสาเหตุที่แท้จริงที่ทำให้ข้อมูลออกมาเป็นลักษณะใด เพื่อที่จะค้นหา ผู้ร้ายตัวจริง (Lurking Variable) โดยนำกลุ่มตัวอย่างมาแบ่งเป็น 2 กลุ่มอายุ (18-65 ปี และ 65 ปีขึ้นไป) จะสามารถระบุสาเหตุเบื้องหลังแท้จริงนั้นเป็นที่การกระจายตัวของอายุในกลุ่มตัวอย่าง
ตารางที่ 4: อัตราการรอดชีวิตเมื่อ Drill Down ด้วยกลุ่มอายุ
เมื่อวิเคราะห์แบบจำแนกกลุ่มอายุตามตารางด้านบน จะพบว่ากลุ่มที่ไม่สูบบุหรี่นั้น มีอัตราการรอดชีวิตสูงกว่ากลุ่มที่สูบบุหรี่ในทั้งสองกลุ่มอายุ ซึ่งตรงกันข้ามกับข้อสรุปเมื่อทำการพิจารณาจากภาพรวม
ความขัดแย้งเชิงข้อมูลในกรณีนี้เกิดจากความเอนเอียงในการสุ่มตัวอย่าง (Sampling Bias) โดยจะพบว่ากลุ่มตัวอย่างที่ไม่สูบบุหรี่นั้นมีสัดส่วนที่ของผู้มีอายุเกิน 65 ปีถึง 26% แต่กลุ่มที่สูบบุหรี่มีสัดส่วนของผู้ที่มีอายุเกิน 65 ปีอยู่เพียง 8% ดังนั้นอัตราการรอดชีวิตของกลุ่มที่ไม่สูบบุหรี่จึงมีน้อยกว่า ในการวิเคราะห์แบบภาพรวม
ข้อสรุปและวิธีการหลีกเลี่ยง Simpson’s Paradox
ในปัจจุบันข้อมูลนั้น ถือเป็นสินทรัพย์ที่มีค่าสำหรับหลาย ๆ องค์กรในการตัดสินใจโดยการขับเคลื่อนด้วยข้อมูล (Data-Driven Decision Making) ซึ่งบทความนี้ ได้ทำการแสดงกรณีตัวอย่างของการแสดงผลของข้อมูล ให้ตรงกันข้ามกันกับความเป็นจริง เพื่อลดความเสี่ยงในการตีความผิดพลาดที่เกิดจาก Simpson’s Paradox ผู้วิเคราะห์ข้อมูลควรจะทำการหาตัวแปรแฝง (Lurking Variables) โดยพิจารณาสิ่งต่อไปนี้
  • 1.
    เพิ่มการวิเคราะห์ข้อมูลแบบ Drill Down: ในกรณีที่มีข้อมูลหลาย ตัวแปร ผู้วิเคราะห์สามารถแบ่งกลุ่มข้อมูล (Group by) ก่อนทำการคำนวณสถิติสรุป เพื่อหาตัวแปรแฝง (Lurking Variables)
  • 2.
    ควบคุมการ Sampling Bias: ควรตรวจสอบการกระจายตัวของข้อมูลในกลุ่มตัวอย่าง ว่ามีความสมดุลกันมากหรือน้อยเพียงใด
  • 3.
    ปรึกษาผู้เชี่ยวชาญเฉพาะด้าน: ความเข้าใจในบริบทของข้อมูลนั้นมีความสำคัญอย่างยิ่งต่อการวิเคราะห์ข้อมูล ดังนั้นจึงต้องขอความเห็นจากผู้ที่มีความรู้เฉพาะทาง (Domain Experts) เพื่อระบุสาเหตุ และตัวแปรแฝงที่เป็นไปได้
เนื้อหาโดย วีรภัทร สาธิตคณิตกุล
ตรวจทานและปรับปรุงโดย อนันต์วัฒน์ ทิพย์ภาวัต
โฆษณา