12 ก.ค. 2022 เวลา 00:01 • วิทยาศาสตร์ & เทคโนโลยี
เห็นโพสต์ ก็รู้ใจ
Photo by Deeksha Pahariya on Unsplash
ยุคนี้คนไทยติดโซเชียลมีเดียรูปแบบต่างๆ กันอย่างกว้างขวาง ทั้งเฟซบุ๊ค ทวิตเตอร์ อินสตาแกรม ฯลฯ
ผมเองก็โพสต์และแชร์เฟซบุ๊คทุกวัน วันละหลายๆ หน จะเกิดอะไรขึ้นหากมีคนนำสิ่งที่เราโพสต์ไป มาวิเคราะห์หา “ความเป็นตัวเรา” ออกมา
นี่ไม่ใช่แค่เรื่องสมมุติ แต่มีนักวิจัยทำแล้วจริงๆ นะครับ
คณะนักวิจัยที่มหาวิทยาลัยเพนซิลเวเนีย สหรัฐอเมริกา ร่วมมือกับอีกคณะหนึ่งจากมหาวิทยาลัยเคมบริดจ์ สหราชอาณาจักร ช่วยกันคิดค้นหาวิธีประเมินบุคลิกลักษณะของผู้โพสต์ได้ โดยไม่ต้องรู้จักตัวเลย
อาศัยแค่ข้อมูลการโพสต์เฟซบุ๊คเป็นหลัก ซึ่งผลที่ได้ก็น่าทึ่งทีเดียวละครับ
งานวิจัยนี้ตีพิมพ์อยู่ในวารสารชื่อ PLOS ONE ฉบับเดือน ก.ย. 2013 (doi:10.1371/journal.pone.0073791)
งานวิจัยนี้ทำกับอาสาสมัครมากถึง 75,000 คน ที่เซ็นยินยอมให้ดึงข้อมูลที่โพสต์ลงเฟซบุ๊คมาใช้วิเคราะห์ได้ ซึ่งทีมงานก็ดึงมาอย่างมากมายมหาศาล คือราว 700 ล้านคำหรือวลีทีเดียว
โชคดีที่ยุคนี้การวิเคราะห์ข้อมูลระดับบิ๊กเดต้าแบบนี้ ไม่เกินความสามารถแบบสมัยก่อนอีกแล้ว
Photo by Kenny Eliason on Unsplash
สิ่งที่นักวิจัยต้องการก็คือ รูปแบบจำเพาะของภาษาที่แต่ละคนนำมาใช้ โดยวิเคราะห์แล้วนำมาทำเป็นแบบจำลองในคอมพิวเตอร์ เพื่อใช้ทำนายเรื่องต่างๆ ตั้งแต่อายุ เพศ หรือบุคลิกลักษณะต่างๆ ซึ่งบางเรื่องก็แม่นยำมากจนน่าตกใจ
เช่น การทำนายเพศของอาสาสมัครนั้นมีความแม่นยำถึง 92% (ในภาษาอังกฤษไม่มีคำลงท้าย “ครับ” หรือ “ค่ะ” แบบของคนไทย จึงออกจะแยกลำบากอยู่ อันที่จริงภาษาวัยรุ่นไทยสมัยนี้ที่ไม่มีคำลงท้ายบอก ก็น่าจะบอกยากเหมือนกัน)
นักวิจัยศึกษาเรื่องการเลือกใช้คำของผู้คนมานานแล้ว คำต่างๆ ที่เลือกใช้ สามารถทำให้เข้าใจอารมณ์ความรู้สึก หรือสภาวะทางจิตใจในขณะนั้นๆ ได้อย่างเป็นดี
แต่การศึกษาในสมัยก่อนหน้านี้จะใช้วิธีการแบบที่เรียกว่า Close Vocabulary Approach ซึ่งทำได้โดยการเลือกชุดคำศัพท์มาชุดหนึ่งที่บ่งบอกอารมณ์ความรู้สึกแบบที่ต้องการศึกษา เช่น “สบายอกสบายใจ” “กระตือรือร้น” หรือ “เยี่ยมยอด”
จากนั้น ก็ดูว่ามีความถี่ที่แต่ละคนใช้คำศัพท์แบบนั้นเท่าใด
วิธีการแบบนี้จะมีข้อจำกัดอยู่บ้าง เช่น บางทีก็ใช้คำพวกนี้วัดสิ่งที่ต้องการไม่ได้จริงๆ หรือได้แค่คร่าวๆ หรือใกล้เคียงเท่านั้น
แถมบางทีบางคำอาจทำให้เข้าใจผิดได้ ถ้ามีหลายความหมาย เช่น คำว่า crude ที่ใช้บ่งบอกอารมณ์ในทางลบ อาจพบบ่อยกว่าปกติในผู้เข้าทดลองที่ทำงานในกลุ่มพลังงาน
เพราะปรากฏอยู่ในคำพื้นฐานคือ crude oil (น้ำมันดิบ)
หรือคำว่า sick ที่แปลว่า “ป่วย” แต่พอเจอ sick of (เซ็ง, เบื่อ, ไม่ชอบ) ก็อาจทำให้สับสนได้
ข้อจำกัดอีกเรื่องหนึ่งของวิธีการแบบนี้ก็คือ ต้องอาศัยคำหรือชุดคำที่เลือกไว้ซึ่งเปลี่ยนแปลงไม่ได้ แม้จะมีประโยชน์บางอย่าง เช่น ช่วยยืนยันได้ว่า “คนซึมเศร้า” มักจะใช้คำบางคำ เช่น sad (เรื่องเศร้าหรือเศร้า) บ่อยกว่าคนปกติ แต่ก็ไม่ได้ให้ข้อมูลหรือมุมมองอะไรอื่นเพิ่มเติมอีกมากนัก
เช่น ไม่ได้บอกว่าคนกลุ่มนี้มักจะกล่าวถึงเรื่องกีฬาหรือกิจกรรมทางสังคมน้อยกว่าคนที่มีความสุขดีหรือไม่ ฯลฯ
นอกจากนี้แล้ว กลุ่มตัวอย่างยังมักจะเป็นกลุ่มขนาดเล็กเท่านั้น ซึ่งการเกิดขึ้นของเทคโนโลยีที่ช่วยให้วิเคราะห์ข้อมูลปริมาณมากๆ ที่เราเรียกว่า บิ๊กเดต้า ช่วยทำให้ข้อจำกัดพวกนี้หมดไปในปัจจุบัน
Photo by Mika Baumeister on Unsplash
นักวิจัยเลือกใช้วิธีการใหม่เรียกว่า Open Vocabulary Approach ซึ่งในการทดลองนี้ ต้องจัดการกับข้อมูลมากถึง 700 ล้านคำที่ดึงมาจากข้อความที่คนในกลุ่มทดลองโพสต์ลงบนเฟซบุ๊ค จึงเปิดโอกาสให้หาความสัมพันธ์กับนิสัยใจคอหรือบุคลิกลักษณะได้อย่างครอบคลุมและแม่นยำขึ้นอีกมาก
โดยเทคนิคการวิเคราะห์ที่ใช้นี้ มีชื่อเรียกอย่างจำเพาะว่า Differential Language Analysis หรือ DLA
โดยการกำหนดให้ DLA ตรวจสอบความสัมพันธ์ระหว่างผู้โพสต์กับอายุ เพศ และลักษณะ 5 อย่างหลักของคนที่พบได้บ่อยสุดคือ นิสัยชอบเข้าสังคม ประนีประนอม รอบคอบระมัดระวัง วิตกจริต และเป็นคนเปิดเผย
การที่เลือกลักษณะทั้ง 5 แบบดังกล่าวก็เพราะว่า เป็นลักษณะที่ศึกษากันมาก จึงรู้รายละเอียดแล้วเป็นอย่างดี และกำหนดลักษณะได้แน่นอน
แต่อันที่จริงแล้ววิธีการแบบนี้ยังสามารถใช้ทำนายลักษณะซึมเศร้าหรือมีความสุขได้ด้วยเช่นกัน
นักวิจัยนำเสนอผลการทดลองในรูปของเวิร์ดคลาวด์ (word cloud) ที่หลายคนอาจจะเคยเห็นกันมาแล้ว แต่อาจไม่รู้ว่ามีชื่อเรียกแบบนี้
https://wordcloudapi.com/
มันคือกลุ่มของคำที่มีคำบางคำใหญ่กว่า บางคำก็กลางๆ และมีคำที่เล็กกว่า โดยทั่วไปคำที่ใหญ่กว่าก็คือ คำที่พบบ่อยกว่านั่นเอง ยิ่งคำนั้นใหญ่มากเท่าใด ก็แปลว่ายิ่งพบบ่อยมากเท่านั้น
ผลการทดลองแสดงให้เห็นว่า คำที่คนที่มีนิสัยชอบเข้าสังคมจะโพสต์บนเฟซบุ๊คบ่อยคือ ปาร์ตี้ ค่ำคืนที่ยอดเยี่ยม (great night) และชวนฉันด้วย (hit me up)
จากนั้น นักวิจัยก็แบ่งกลุ่มทดลองออกเป็นสองกลุ่ม กลุ่มแรกที่ครอบคลุมคนราว 3/4 ของทั้งหมดนั้น จะมีระบบ Machine Learning ที่วิเคราะห์ข้อความที่โพสต์ของคนเหล่านี้ ก่อนจะใช้ทำนายว่าพวกเขาน่าจะตอบแบบสอบถามเช่นใด (เป็นการเปรียบเทียบเพื่อยืนยัน)
จากนั้น จึงสร้างแบบจำลองขึ้นและนำมาใช้ทำนายอายุ เพศ และบุคลิกลักษณะของคนอีก 1/4 ที่เหลือว่าตรงมากน้อยเพียงใด ซึ่งผลก็น่าทึ่งอย่างที่เล่าไปแล้วคือ ระบุเพศได้ตรง 92% ขณะที่ระบุอายุแบบบวกลบไม่เกิน 3 ปีได้ถูกต้องมากกว่าครึ่งหนึ่งของทั้งหมด และความแม่นยำในการทำนายบุคลิกไม่ต่างกับแบบสอบถามในรูปแบบเดิมๆ ที่เคยทำกัน
โดยรวมจึงสรุปได้ว่า แค่ดูจากโพสต์บนเฟซบุ๊ค ก็สามารถวิเคราะห์ “ตัวตน” ในหลายมิติได้อย่างแม่นยำระดับหนึ่งแล้ว
แต่ที่น่าสนใจและวิธีการทดสอบแบบเก่าทำไม่ได้ก็คือ คำในเวิร์ดคลาวด์ทำให้เห็นความเชื่อมโยงบางอย่าง
เช่น คนมีลักษณะวิตกจริตต่ำ มักจะโพสต์คำที่มีลักษณะเชิงเข้าสังคมบ่อยมากกว่าพวกวิตกจริต ไม่ว่าจะเป็นคำว่าการประชุม พบปะสังสรรค์ หรือกีฬาต่างๆ ซึ่งอาจจะไม่ได้หมายความว่า การเล่นกีฬาทำให้วิตกกังวลน้อยลง
แต่อาจจะหมายความว่า พวกขี้วิตกกังวลอาจจะพยายามหลีกเลี่ยงกีฬาต่างๆ มากกว่า
น่าสนใจว่าในอนาคตการวิจัยทำนองนี้จะบอกอะไรกับตัวตนของเราได้มากกว่านี้อีกสักเพียงใด
โฆษณา