19 ก.ย. 2023 เวลา 06:10 • วิทยาศาสตร์ & เทคโนโลยี

Ep. 11 | ความเที่ยง (Reliability): ค่าบอกความน่าเชื่อถือของเครื่องมือวัด

👉
ในบทความที่แล้ว (Ep. 10) เราพูดถึงความหมายและขอบเขตของ psychometrics ศาสตร์ที่ว่าด้วยลักษณะของเครื่องมือวัดทางจิตวิทยา (psychological measurement tool)
ในครั้งนี้ เราจะเจาะลึกไปที่ความเที่ยง (reliability) ซึ่งเป็น 1 ใน 2 ลักษณะทางไซโคเมทริกขั้นพื้นฐาน ว่า มีนิยามและความสำคัญยังไง มีกี่ประเภทและแต่ละประเภทสามารถประเมินได้อย่างไรบ้าง
🤓 1. นิยาม
ความเที่ยงสะท้อนถึงความสอดคล้องของผลลัพธ์ (เช่น คะแนนบุคลิกภาพ) ในการประเมินลักษณะทางจิตวิทยาของเครื่องมือวัด
เนื่องจากในทางทฤษฎี ไม่มีเครื่องมือไหนที่สมบูรณ์แบบ ผลลัพธ์ในการวัด (observed score) จึงไม่ได้ประกอบด้วยลักษณะที่เราต้องการวัด (true score) แต่ยังมีค่าความคลาดเคลื่อน (error) ผสมอยู่ด้วย ซึ่งสามารถเขียนเป็นสมการได้ดังนี้
Observed score = True score + Error
ความเที่ยงอาจถูกมองได้ว่าเป็นความสามารถของเครื่องมือวัดในการตรวจจับลักษณะที่ต้องการ (true score) โดยมีความคลาดเคลื่อน (error) น้อยที่สุด นั่นคือ ยิ่งเครื่องมือวัดมีความเที่ยงสูงเท่าไร ก็ยิ่งสามารถวัดลักษณะที่ต้องการได้มากขึ้นเท่านั้น
🤔 2. ความสำคัญ
จากสมการ จะเห็นได้ว่า ความเที่ยงมีความสำคัญ เพราะจุดประสงค์ในการใช้เครื่องมือวัด เราต้องการรู้ลักษณะที่ต้องการ (เช่น ความฉลาด) การที่เครื่องมือให้ผลลัพธ์ที่มีความคลาดเคลื่อนด้วย จะทำให้เราไม่สามารถรู้ได้ว่า ผลลัพธ์ที่ได้มาสะท้อนให้เห็นถึงลักษณะที่เราต้องการประเมินขนาดไหนและน่าเชื่อถือขนาดไหน (เช่น ไม่รู้ว่า คนที่เราประเมินมี IQ อยู่ที่เท่าไร)
นอกจากนี้ เมื่อขาดความเที่ยงและผลลัพธ์ที่ได้ไม่น่าเชื่อถือ เรายังเจอกับความไม่แน่นอนในการเชื่อมโยงความสัมพันธ์ระหว่างลักษณะที่เราต้องการวัดและพฤติกรรมหรือตัวบ่งชี้อื่น ๆ อีกด้วย (เช่น ความสามารถในการเรียน ผลการเรียน)
ดังนั้น ความเที่ยงจึงมีความสำคัญในการใช้เครื่องมือวัด เพราะเป็นสิ่งที่จะช่วยบอกได้ว่า ผลลัพธ์ที่จะได้จากเครื่องมือวัดมีความน่าเชื่อและสามารถนำไปใช้งานต่อได้มากแค่ไหน
😎 3. ประเภท
ประเภทของความเที่ยงสามารถแบ่งได้เป็น 3 ประเภทหลักตามวิธีการประเมินความเที่ยง (reliability estimate)
.
Test-retest reliability คือ ความสอดคล้องของเครื่องมือในเวลาที่ต่างกัน (รูป: Image by mrsiraphol on Freepik)
⌛ 3.1. ประเภทที่ 1: Test-Retest Reliability
Test-retest reliability เป็นความเที่ยงที่มองว่า ความควาดเคลื่อนในการวัด เกิดจากเวลาที่ผ่านไประหว่างการวัด (โดยเฉพาะกับลักษณะทางจิตวิทยาที่ในทางทฤษฎีเชื่อว่า เป็นลักษณะที่มีความเสถียรต่อเวลา เช่น บุคลิกภาพ) ดังนั้น เครื่องมือวัดที่มีความเที่ยงควรให้ผลลัพธ์ที่สอดคล้องกันแม้ว่าจะประเมินในเวลาที่ต่างกัน (เช่น วัดครั้งแรกวันนี้และวัดอีกครั้งพรุ่งนี้)
การประเมินความเที่ยงแบบ test-retest reliability สามารถทำได้โดย
(1) ให้กลุ่มตัวอย่างทำแบบทดสอบเดียวกัน (เช่น แบบทดสอบความฉลาด) ในเวลาที่ต่างกัน (เช่น ครั้งแรกเมื่อ 1 สัปดาห์ก่อน และอีกครั้งในวันนี้)
(2) นำผลลัพธ์จากการวัดทั้ง 2 ครั้งมาวิเคราะห์หาความสอดคล้อง หากมีความสอดคล้องสูง (เช่น คะแนนความฉลาดที่วัดเมื่อสัปดาห์ก่อนกับวันนี้ไม่แตกต่างกันมาก) ก็จะแสดงให้เห็นว่า เครื่องมือวัดของเรามีความเที่ยงสูง
ทั้งนี้ การกำหนดเวลาระหว่างการวัดแต่ละครั้ง ควรให้สอดคล้องกับระยะเวลาระหว่างการวัดและพฤติกรรมที่เราต้องการทำนาย
ยกตัวอย่างเช่น เราต้องการใช้แบบวัดความฉลาดเพื่อทำนายว่า นักเรียนจะสอบได้เกรดเท่าไร ซึ่งระยะเวลาระหว่างการทดสอบความฉลาดและผลสอบ คือ 1 เทอม เราก็ควรทดสอบความเที่ยงของแบบทดสอบความฉลาดโดยมีระยะเวลาระหว่างการทดสอบ 1 เทอมด้วยเช่นกัน
.
Internal consistency reliability คือ ความสอดคล้องระหว่างข้อคำถาม (รูป: Image by Freepik)
✌️ 3.2. ประเภทที่ 2: Internal Consistency Reliability
การทดสอบความเที่ยงแบบ internal consistency มักใช้กับเครื่องมือที่เป็นแบบประเมินตัวเอง (self-report) เช่น แบบทดสอบบุคลิกภาพที่ให้เราตอบ “เห็นด้วย”/“ไม่เห็นด้วย” หรือ “ตรง”/“ไม่ตรง” กับชุดคำถาม (item) หรือข้อความ (เช่น “ฉันเป็นคนขยัน” “ฉันชอบเข้าสังคม”)
ความเที่ยงแบบ internal consistency reliability มองว่า ความคลาดเคลื่อนอยู่ในความไม่สอดคล้องกันของข้อคำถาม ดังนั้น เครื่องมือวัดที่มีความเที่ยงสูงควรจะมีข้อคำถามที่ให้ผลลัพธ์ (เช่น คะแนนบุคลิกภาพ) ไปในทิศทางเดียวกัน (เช่น ทุกข้อให้คะแนนสูงไปในทางเดียวกัน หรือต่ำไปในทางเดียวกัน)
ข้อดีของการประเมิน internal consistency reliability คือ สามารถเก็บข้อมูลเพื่อทดสอบได้ครั้งเดียว (แตกต่างจาก test-retest reliability ที่ต้องเก็บ 2 ครั้งขึ้นไป) โดยมีขั้นตอนคือ
(1) ให้กลุ่มตัวอย่างทำแบบทดสอบ
(2) นำข้อมูลที่ได้มาวิเคราะห์หาความสอดคล้องระหว่างข้อคำถาม
ในการวิเคราะห์ ถ้าพบว่า ชุดข้อคำถามมีความสอดคล้องกันสูง ก็แสดงว่า เครื่องมือวัดมีความเที่ยงสูง
นอกจากนี้ ในการวิเคราะห์ หากพบว่า มีข้อคำถามที่ไม่มีความสอดคล้องกับข้ออื่น ๆ (เช่น ในแบบทดสอบบุคลิกภาพชอบเข้าสังคม มีข้อคำถามว่า “ฉันเป็นคนขยัน”) เราสามารถตัดข้อคำถามนี้ออก เพื่อเพิ่มความสอดคล้องและความเที่ยงให้กับเครื่องมือได้ (เพราะ เครื่องมือจะประกอบด้วยข้อคำถามที่มุ่งที่ลักษณะที่ต้องการวัดเหมือนกันหมด)
.
Inter-rater reliability คือ ความสอดคล้องระหว่างการประเมินของผู้ประเมิน (รูป: Image by master1305 on Freepik)
👁️ 3.3. ประเภทที่ 3: Inter-Rater Reliability
ความเที่ยงประเภท inter-rater reliability มีหลักการและวิธีประเมินเหมือนกับ internal consistency reliability แต่มีความแตกต่าง คือ ใช้กับการวัดที่มีผู้ประเมิน (rater) หรือผู้สังเกตการณ์ (observer) เป็นคนให้คะแนน เช่น นักจิตวิทยาประเมินพฤติกรรมเด็กว่า เป็นโรคสมาธิสั้นไหม เป็นต้น ซึ่งเราจะนำคะแนนนี้ไปใช้วิเคราะห์หาความสอดคล้องและความเที่ยง หากพบว่า มีความสอดคล้องระหว่างคะแนนของผู้ประเมินแต่ละคนสูง ก็แสดงว่า การประเมินด้วยเกณฑ์การประเมินและ/หรือผู้ประเมินแบบนี้มีความเที่ยงสูง
😁 4. สรุปความเที่ยง
ความเที่ยงสะท้อนให้เห็นถึงความสามารถของเครื่องมือวัดในการตรวจจับลักษณะที่เราต้องการได้โดยมีความคลาดเคลื่อนน้อยที่สุด ซึ่งสามารถใช้บอกได้ว่า ผลลัพธ์ที่ได้จากเครื่องมือวัดมีความน่าเชื่อถือขนาดไหน
ความเที่ยงมี 3 ประเภทหลัก ซึ่งแบ่งตามวิธีการประเมินค่าความเที่ยง ได้แก่
(1) Test-retest reliability: ความเที่ยงที่ประเมินโดยการเปรียบเทียบการวัดที่เกิดขึ้นในเวลาที่ต่างกัน
(2) Internal consistency reliability: ความเที่ยงที่ประเมินจากความสอดคล้องของข้อคำถาม
(3) Inter-rater reliability: ความเที่ยงที่ประเมินจากความสอดคล้องของการประเมินของผู้ประเมินหรือผู้สังเกตการณ์
⏭️ 5. ตอนต่อไป
ในบทความหน้า เราจะมาพูดถึงลักษณะทางไซโคเมทริกที่สำคัญอีกอย่าง: ความตรง (validity)
#psychology #individualdifferences #personality #psychometrics #psychometricproperties #reliability #internalconsistency #testretestreliability #interraterreliability #จิตวิทยา #บุคลิกภาพ #ไซโคเมทริก #ความเที่ยง
📃 สรุปเนื้อหาจาก:
Ashton, M. C. (2023). Basic concepts in psychological measurement. In Individual Differences and Personality (pp. 1–29). Elsevier. https://doi.org/10.1016/B978-0-323-85950-9.00003-0
Furr, R. M., & Bacharach, V. R. (2014). Psychometrics: An introduction (2nd ed.). SAGE Publications.
Geisinger, K. F. (2013). Reliability. In K. F. Geisinger, B. A. Bracken, J. F. Carlson, J.-I. C. Hansen, N. R. Kuncel, S. P. Reise, & M. C. Rodriguez (Eds.), APA handbook of testing and assessment in psychology, Vol. 1. Test theory and testing and assessment in industrial and organizational psychology (pp. 21–42). American Psychological Association. https://doi.org/10.1037/14047-002
ภาพปก: Image by azerbaijan_stockers on Freepik
โฆษณา