1 ก.พ. เวลา 03:00 • การศึกษา

การเรียนรู้แบบเสริมแรง

เป็นการเรียนรู้ที่สามารถเกิดขึ้นได้ทันทีจากผลลัพธ์โดยไม่ต้องมีการชี้แนะ
การเรียนรู้แบบเสริมแรง เป็นสิ่งที่อธิบายถึงสาเหตุของการลองผิดลองถูก ซึ่งจะสอดคล้องกับแนวคิด "กฎแห่งผล" ของ Thorndike ที่ว่า พฤติกรรมหนึ่ง ๆ มีโอกาสถูกกระทำเพิ่มขึ้น เมื่อการกระทำในลักษณะนั้นสร้างผลที่ดี
การเรียนรู้แบบเสริมแรง สร้างพฤติกรรมใหม่ ๆ ที่ซับซ้อนมากขึ้น เพื่อให้มนุษย์สามารถบรรลุเป้าหมายหนึ่ง ๆ ได้ โดยไม่ต้องมีใครมาสอน
การเรียนรู้แบบเสริมแรงจะมีอยู่ 2 ทาง ได้แก่ ทางบวก กับทางลบ
การเสริมแรงทางบวก คือ การให้สิ่งที่พึงปรารถนาเมื่อได้กระทำสิ่งหนึ่ง ๆ อาทิ เมื่อนักเรียนตอบคำถามได้ถูกต้อง แล้วครูให้รางวัลเป็นคะแนน รางวัลจะเป็นสิ่งที่พึงปรารถนา แล้วนักเรียนจะเรียนรู้ด้วยการจดจำคำตอบที่ถูกต้องไว้
การเรียนรู้ในลักษณะนี้ได้ผล จากการกระทำบางสิ่งแล้วได้ผลลัพธ์ที่ได้ดีเกินคาด ทำให้สมองจะหลั่งโดพามีน (dopamine) พร้อมทั้งพยายามปรับปรุงการคาดเดาเหตุการณ์เพื่อให้ตรงกันกับสิ่งที่จะเกิดขึ้นจริงในอนาคต
ในขณะที่การเสริมแรงทางลบ คือ การนำสิ่งที่ไม่พึงปรารถนาออกไปเมื่อได้กระทำสิ่งหนึ่ง ๆ อาทิ เมื่อนักเรียนทั้งห้องเริ่มตั้งใจเรียน แล้วครูตัดสินใจเปิดเครื่องปรับอากาศในห้องเรียน การเปิดเครื่องปรับอากาศเป็นการนำสิ่งที่ไม่พึงปรารถนา ซึ่งความรู้สึกร้อนขณะที่เรียนในห้องเรียน ออกไป เมื่อทำแบบนี้ นักเรียนในห้องก็จะเรียนรู้ที่จะตั้งใจเรียน เพื่อที่จะได้ไม่รู้สึกร้อน
การเรียนรู้จากการเสริมแรงทางลบจะมาจาก "ความรู้สึกโล่งใจ" ที่เกิดขึ้นจากการได้หลีกเลี่ยงสิ่งที่ไม่ต้องการ แต่ถึงกระนั้นก็ยังถือว่าเป็นสิ่งที่ดีเกินคาดสำหรับสมอง
มีผู้คนบางส่วนคิดว่า การเสริมแรงทางลบคือการลงโทษ ซึ่งในความเป็นจริงไม่ได้เป็นเช่นนั้น "การเสริมแรงทางลบไม่ใช่การลงโทษ" เพราะการเสริมแรงทางลบคือการนำสิ่งที่ไม่พึงปรารถนาออกไป ซึ่งจะแตกต่างจากการลงโทษที่เป็นการนำสิ่งที่ไม่พึงปรารถนาเข้ามา
ข้อดีต่าง ๆ ของการเรียนรู้แบบเสริมแรงได้ถูกกล่าวไปแล้ว ทีนี้มาดูความอันตรายของมันกันบ้าง
การเรียนรู้แบบเสริมแรงจะก่อให้เกิดอันตราย เมื่อทุกครั้งของการกระทำสร้างความรู้สึกที่ดีอย่างสม่ำเสมอ เช่น การใช้สารเสพติดหรือการเล่นพนัน เพราะจะทำให้สมองเกิดการเรียนรู้ว่า ต้องทำสิ่งนั้น ๆ บ่อย ๆ เพื่อให้โดพามีนหลั่งออกมาได้บ่อย ๆ จนเกิดเป็นอาการเสพติดได้
เพื่อป้องกันการเสพติดความรู้สึกที่ดีจากการเสริมแรง การกระทำควรเกิดความรู้สึกที่ดีแค่บางครั้งเท่านั้น ห้ามกระทำสิ่งใด ๆ ที่ก่อให้เกิดอาการเสพติดอย่างเด็ดขาด
อ้างอิง:
"กฎแห่งผล"
Thorndike, E. L. (1927). The law of effect. The American journal of psychology, 39(1/4), 212-222.
"การเรียนรู้แบบเสริมแรงสร้างพฤติกรรมที่ซับซ้อน"
Staddon, J. E., & Cerutti, D. T. (2003). Operant conditioning. Annual review of psychology, 54(1), 115-144.
"การเสริมแรงทางบวกและทางลบ"
Ferster, C. B., & Skinner, B. F. (1957). Schedules of reinforcement.
"การเรียนรู้เสริมแรง เรียนรู้จากผลลัพธ์ที่ดีเกินคาด"
Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599.
"โดพามีนจะหลั่ง เมื่อพบผลลัพธ์ที่ดีเกินคาด"
Berridge, K. C., & Robinson, T. E. (1998). What is the role of dopamine in reward: hedonic impact, reward learning, or incentive salience?. Brain research reviews, 28(3), 309-369.
"ความโล่งใจทำให้เกิดการเรียนรู้"
Zhang, S., Mano, H., Lee, M., Yoshida, W., Kawato, M., Robbins, T. W., & Seymour, B. (2018). The control of tonic pain by active relief learning. Elife, 7, e31949.
"การเสริมแรงทางลบ ไม่ใช่การลงโทษ"
Baron, A., & Galizio, M. (2005). Positive and negative reinforcement: Should the distinction be preserved?. The Behavior Analyst, 28(2), 85-98.
"การเสพติดจากการใช้สารเสพติด"
Wise, R. A., & Koob, G. F. (2014). The development and maintenance of drug addiction. Neuropsychopharmacology, 39(2), 254-262.
"การเสพติดจากการเล่นพนัน"
Greo. (2023). Operant learning and gambling behaviour [Knowledge snapshot].
"การเรียนรู้แบบเสริมแรง ห้ามก่อให้เกิดการเสพติด"
Svartdal, F. (2000). Persistence during extinction: Conventional and reversed PREE under multiple schedules. Learning and Motivation, 31(1), 21-40.

ดูเพิ่มเติมในซีรีส์

โฆษณา