6 ต.ค. 2020 เวลา 05:15 • วิทยาศาสตร์ & เทคโนโลยี
Survival Analysis กับความท้าทายในการจัดการ Censored Data
Survival Analysis คืออะไร
Survival Analysis (การวิเคราะห์การรอดชีพ) หรือเรียกอีกอย่างว่า การวิเคราะห์ระยะปลอดเหตุการณ์ เป็นสาขาย่อยหนึ่งในสถิติ มีเป้าหมายเพื่อวิเคราะห์และสร้างแบบจำลองที่ทำนายเวลาที่ใช้ในการเกิดเหตุการณ์บางอย่างที่เราสนใจ (Time to Event หรือ Survival Time) เช่น ระยะเวลาการเสียชีวิตของผู้ป่วยมะเร็ง ระยะเวลาที่เครื่องจักรจะเสีย หรือระยะเวลาที่ลูกค้าจะย้ายค่าย เป็นต้น
Survival Analysis มีการประยุกต์ใช้มากในทางการแพทย์ ส่วนในสาขาอื่น ๆ ก็มีการนำวิธีนี้ไปใช้ในการวิเคราะห์ข้อมูลที่สนใจระยะเวลาการเกิดเหตุการณ์ในลักษณะนี้ด้วยเช่นเดียวกัน
แผนภาพแสดงระยะเวลาการย้ายค้ายของลูกค้าแต่ละราย
ตัวอย่างการประยุกต์ Survival Analysis ในสาขาต่าง ๆ
Healthcare
ในทางการแพทย์มีการประยุกต์ใช้ Survival Analysis ค่อนข้างเยอะ โดยตัวอย่างเหตุการณ์ที่สนใจ อาจจะเป็นการเสียชีวิต การเข้ารับการรักษาซ้ำ การออกจากโรงพยาบาล หรือเหตุการณ์อื่น ๆ ตัวอย่าง เช่น การทดลองเปรียบเทียบประสิทธิภาพการรักษา โดยแบ่งเป็นสองกลุ่มทดสอบที่มีการให้ยาต่างชนิดกัน เพื่อเปรียบเทียบระยะเวลาในการรักษาหาย
ตัวอย่างการประยุกต์ใช้ Survival Analysis ในทางการแพทย์
Customer Lifetime Value (CLV)
Customer Lifetime Value (CLV) คือ มูลค่าตลอดช่วงชีวิตของลูกค้า ใช้สำหรับนักการตลาดในการประเมินความคุ้มค่าในการใช้จ่ายสำหรับการบริหารจัดการลูกค้า โดยโจทย์คือ การหารูปแบบการซื้อของลูกค้าที่มีค่า CLV สูง โดยค่า CLV จะถูกกำหนดด้วยสมการที่เรียกว่า Survival Function ซึ่งสามารถใช้ในการประมาณเวลาในการซื้อสินค้าของลูกค้าจากข้อมูลร้านค้าและลักษณะทางประชากรที่แตกต่างกันของลูกค้าได้ เช่น ศึกษาว่าลูกค้าเพศหญิงหรือชายที่โดยรวมแล้วปิดการขายได้เร็วกว่ากัน เราก็จะทำการเสนอสินค้าหรือโปรโมชั่นให้กับลูกค้ากลุ่มนั้น เป็นต้น
การแบ่งกลุ่มลูกค้าตาม Customer Lifetime Value
หนึ่งในความท้าทายของการวิเคราะห์ข้อมูลลักษณะนี้คือการมีอยู่ของบางตัวอย่างข้อมูลที่ไม่สามารถทราบผลลัพธ์ของเหตุการณ์ในช่วงที่ศึกษาได้ เช่น อาสาสมัครออกไปกลางคันระหว่างการทดลอง หรืออาจจะไม่พบการเกิดเหตุการณ์ใด ๆ เลยในช่วงเวลาที่ทำการศึกษานั้น จึงไม่สามารถสรุปได้ว่าจริง ๆ แล้วเกิดเหตุการณ์นั้นเกิดขึ้นกับตัวอย่างหรือไม่ เพราะเหตุการณ์ที่สนใจอาจจะเกิดขึ้นหลังจากช่วงเวลาที่เราสังเกตก็เป็นได้ และในทางปฏิบัติเราก็ไม่สามารถรอเก็บข้อมูลจนกว่าเหตุการณ์นั้นจะเกิดได้ ข้อมูลเหล่านี้จะถูกเรียกว่าเป็นข้อมูลที่มีการเซ็นเซอร์ (censored data) ซึ่ง Survival Analysis นั้นสามารถรับมือกับข้อมูลลักษณะนี้ได้อย่างดี
Survival Data and Censoring
ก่อนอื่นมาพูดถึงลักษณะของข้อมูลที่ใช้กับการวิเคราะห์ประเภทนี้กันก่อนหรือที่เราเรียกว่าเป็นข้อมูลประเภท Survival Data จากที่กล่าวมาข้างต้นเป็นไปได้บ่อยครั้งที่เราจะไม่พบการเกิดเหตุการณ์ในบางตัวอย่างเนื่องจากข้อจำกัดของเวลาในการสังเกต เช่น นักวิจัยทางการแพทย์จะไม่รอถึง 50 ปีเพื่อติดตามการเกิดโรค ด้วยเหตุนี้เราจึงสนใจหรือทำการศึกษา ณ ช่วงเวลาใดเวลาหนึ่งระหว่างการป่วยเท่านั้น หรือบางตัวอย่างอาจมีการขาดการติดตาม (follow up) ไประหว่างทางเนื่องจากสาเหตุต่าง ๆ เช่น ผู้ป่วยไม่ได้กลับมาตรวจโรคอีกครั้ง ปรากฏการณ์ลักษณะนี้จะถูกเรียกว่าการเซ็นเซอร์ (censoring) ซึ่งเราสามารถที่จะแบ่งประเภทของการเซ็นเซอร์นี้ออกเป็น 3 ประเภทหลัก ๆ ตามลักษณะการเกิด ได้แก่
1) Right-censoring:
คือ กรณีที่ยังไม่เกิดเหตุการณ์ระหว่างช่วงเวลาที่ทำการสังเกต ซึ่งอาจจะเกิดเหตุการณ์ หรือไม่เกิดเหตุการณ์หลังจากนั้นก็ได้ ในที่นี้เราจะรู้เพียงแค่สถานะสิ้นสุด ณ ช่วงเวลาการสังเกตเท่านั้น
2) Left-censoring:
คือ กรณีที่แต่ละตัวอย่างข้อมูล ไม่ได้เริ่มทำการทดลอง ณ จุดเดียวกัน หรือมีจุดเริ่มต้นเกิดก่อนช่วงเวลาศึกษาและไม่รู้ช่วงเวลาที่แน่นอนว่าเริ่มต้นเมื่อไหร่ ทำให้ไม่รู้ว่าระยะเวลาก่อนที่จะสังเกตพบเหตุการณ์ได้ผ่านมานานเท่าใดแล้ว
3) Interval-censoring:
คือ กรณีที่ไม่รู้เวลาการเกิดเหตุการณ์ที่แน่นอน รู้แค่ว่าเกิดในช่วงเวลาใดเวลาหนึ่ง ระหว่างที่ทำการสังเกต
Data censoring ประเภทต่าง ๆ
จากรูปแสดงตัวอย่างการเกิดเหตุการณ์และการเซ็นเซอร์แต่ละประเภท โดยในแกนตั้งจะแสดงถึงตัวอย่าง (instance) แต่ละตัวอย่าง และแกนนอนแสดงระยะเวลา โดยเส้นสีฟ้าสองเส้น แสดงจุดเริ่มต้นของการสังเกตและจุดสิ้นสุดของการสังเกต โดยแบ่งการเกิดขึ้นของกรณีต่าง ๆ ได้ ดังนี้
ตัวอย่างที่ 1
คือ กรณีที่เหตุการณ์ที่เราสนใจเกิดขึ้นระหว่างการทำการสังเกต กรณีนี้จะไม่ถือว่าเป็นข้อมูลเซ็นเซอร์ เพราะเรารู้ระยะเวลาการเกิดขึ้นของเหตุการณ์ที่แน่นอน
ตัวอย่างที่ 2, 3
เป็นกรณีที่เกิด right-censoring ขึ้น เนื่องจาก เราไม่รู้จุดสิ้นสุดของเหตุการณ์ เนื่องจากเหตุการณ์เกิดขึ้นนอกช่วงเวลาการสังเกต หรือยังไม่เกิดเหตุการณ์ขึ้น
ตัวอย่างที่ 4
เป็นกรณีที่เกิด left-censoring ขึ้น เนื่องจากไม่ทราบเวลา ณ จุดเริ่มต้น หรือ จุดกำเนิดของตัวอย่างนี้ จึงไม่สามารถทราบช่วงเวลาทั้งหมดที่ตัวอย่างนี้มีชีวิตอยู่ จนกระทั่งมาพบเหตุการณ์นั้นในระหว่างการสังเกตได้
ตัวอย่างที่ 5
เป็นกรณีที่เราไม่ทราบเวลาแน่นอนของการเกิดเหตุการณ์ ทราบแค่ว่าเหตุการณ์เกิดขึ้นในช่วงเวลานี้ เนื่องจากเราอาจจะไม่ได้ทำการสังเกตตัวอย่างนั้นตลอดเวลา เช่น นัดตรวจคนไข้ 2 อาทิตย์ครั้ง ก็อาจจะทำให้ตรวจพบ ณ วันตรวจ แต่ในความเป็นจริง คนไข้อาจจะเริ่มป่วยระหว่างสองอาทิตย์ที่ผ่านมาก็ได้ ซึ่งเราไม่ทราบว่าเป็นวันไหน เพราะไม่ได้ทำการตรวจทุกวัน
ทำไมต้องใช้ Survival Analysis
ลักษณะของการเซ็นเซอร์แบบ right-censoring ถูกพบค่อนข้างบ่อยในหลายกรณี เช่น การย้ายค่ายของลูกค้าที่ใช้บริการค่ายมือถือของเราปัจจุบัน เราไม่สามารถทราบได้เลยว่า ลูกค้าคนนั้นจะย้ายค่ายจากเราไปหรือไม่และเมื่อไหร่ ซึ่งทำให้ไม่สามารถรู้ถึงคำตอบจริง ๆ ของลูกค้าแต่ละคน เราไม่สามารถแบ่งลูกค้าเป็นสองประเภทว่า ย้ายค่าย หรือ ไม่ย้ายค่ายได้ชัดเจน เพราะจริง ๆ แล้วทุกคนมีโอกาสย้ายค่ายได้ตลอดเวลา แค่ไม่รู้ว่าเหตุการณ์นั้นจะเกิดขึ้นเมื่อไหร่ ในการวิเคราะห์ข้อมูลที่มีการเซ็นเซอร์ลักษณะนี้มีข้อพึงระวังอยู่ ซึ่งหนึ่งในข้อผิดพลาดที่นักวิเคราะห์ข้อมูลมักจะทำ คือ การเลือกที่จะไม่สนใจตัวอย่างที่ถูกเซ็นเซอร์โดยการตัดตัวอย่างเหล่านั้นทิ้งแล้ววิเคราะห์เฉพาะตัวอย่างข้อมูลที่สังเกตพบเหตุการณ์ในช่วงเวลาที่ศึกษาเท่านั้น ทีนี้ลองมาดูตัวอย่างกัน
สมมุติว่ากลุ่มประชากรที่เราศึกษา ประกอบมาจากกลุ่มประชากรย่อยที่มีลักษณะแตกต่างกันสองกลุ่ม ได้แก่ กลุ่ม A และ กลุ่ม B โดยประชากรกลุ่ม A มีอายุการมีชีวิตอยู่ที่สั้น เฉลี่ยประมาณ 2 เดือน เทียบกับกลุ่มประชากร B ที่มีอายุเฉลี่ยนานถึง 12 เดือน ซึ่งผู้วิจัยจะไม่ได้ทราบถึงข้อเท็จจริงนี้มาก่อน และเมื่อสิ้นสุดช่วงเวลาสังเกตที่เวลา 10 เดือน (t=10) เราจะต้องหาอายุเฉลี่ยของประชากรทั้งหมด จะมีวิธีการคำนวณอย่างไร
ในรูปด้านล่างนี้ เส้นสีแดงแสดงถึงอายุขัยของแต่ละคน ในกรณีที่เหตุการณ์การตายได้ถูกสังเกตพบในช่วงเวลาศึกษา ส่วนเส้นสีน้ำเงินแสดงถึงอายุขัยของคนที่ไม่สังเกตุพบเหตุการณ์ในช่วงเวลา 10 เดือนที่ศึกษา (right-censored individuals) หากเราลองประมาณค่าเฉลี่ยด้วยการตัดข้อมูล right-censored ทิ้ง แล้วคำนวณค่าเฉลี่ยจากตัวอย่างที่เหลือ โดยคำนวณเฉพาะเส้นสีแดงเท่านั้น จะพบว่าเราทำการประเมินค่าเฉลี่ยต่ำกว่าความเป็นจริง เนื่องจากเราตัดเส้นสีน้ำเงินที่ไม่รู้ว่าเวลาจริงออกไป แต่เรารู้ว่าอย่างต่ำคือ 10 เดือน
แล้วถ้าเราคิดค่าเฉลี่ยอายุขัยจากอายุขัยทั้งหมดที่สังเกตได้ในช่วงเวลา โดยการรวมอายุขัยปัจจุบัน ณ สิ้นสุดช่วงเวลาสังเกตของตัวอย่างที่ถูกเซ็นเซอร์ทางด้านขวา (Right-censored) ซึ่งถ้ามาดูค่าอายุขัยจริงของตัวอย่างที่ไม่ได้พบเหตุการณ์ในช่วงเวลาสังเกตแสดงในรูปด้านล่าง ก็จะเห็นว่าเราก็ยังประมาณค่าเฉลี่ยได้ต่ำกว่าความเป็นจริงอยู่ดี เพราะข้อมูลที่ถูกเซ็นเซอร์ (เส้นสีน้ำเงิน) มีค่าอายุขัยจริงที่เยอะกว่าช่วงเวลาในการสังเกตมาก ทำให้ค่าเฉลี่ยจริง ๆ มีค่ามากกว่าการคิดด้วยวิธีนี้
ดังนั้นข้อมูลลักษณะนี้ ที่มีการพบข้อมูลที่ถูกเซ็นเซอร์จำนวนมาก หากเราใช้วิธีการทำ Regression Analysis ธรรมดา ซึ่งไม่ได้เอาข้อมูลที่ถูกเซ็นเซอร์มาคิดด้วย ในการวิเคราะห์และทำนายเวลาที่จะเกิดเหตุการณ์ ก็อาจจะได้ผลที่ไม่ค่อยแม่นยำนัก
Survival Analysis จึงถูกพัฒนาขึ้นมาเพื่อแก้ปัญหาดังกล่าวนี้ นั่นก็คือการประมาณค่าบางอย่างในกรณีที่ข้อมูลเรามีการเซ็นเซอร์เกิดขึ้น นอกจากนี้ถึงแม้ว่าข้อมูลในทุกตัวอย่างของเรามีการสังเกตพบเหตุการณ์ในช่วงเวลาศึกษาทั้งหมด การทำ Survival Analysis ก็ยังเป็นเครื่องมือที่เป็นประโยชน์ในการศึกษาอัตราการเปลี่ยนแปลงและระยะเวลาของการเกิดเหตุการณ์นั้น ๆ ได้เช่นเดียวกัน
ที่มา:
อ่านบทความที่น่าสนใจเกี่ยวกับ Big Data ได้ที่
#govbigdata #bigdata #bigdatathailand #datascience #dataengineer #dataanalytic #digitalthailand #SurvivalAnalysis #CensoredData #DataCensoring #TimeToEvent
โฆษณา