25 เม.ย. 2019 เวลา 08:17 • วิทยาศาสตร์ & เทคโนโลยี
การแจกแจงแบบปกติสำคัญอย่างไร?
1
การแจกแจง เป็นหนึ่งในเครื่องมือทางคณิตศาสตร์ที่ทรงพลังอย่างยิ่งในการวิเคราะห์และวางแผนเรื่องต่างๆ ทั้งด้านเศรษฐศาสตร์ การตลาด จนถึง วิทยาศาสตร์
1
แต่ปัญหาคือ การเก็บข้อมูลในกลุ่มประชากรที่มีขนาดใหญ่นั้นไม่ใช่เรื่องง่าย (คำว่ากลุ่มประชากรใหญ่นั้นยังไม่ต้องถึงระดับอำเภอ หรือ ประเทศก็ได้ เอาแค่เก็บข้อมูลพนักงานในองค์กรใหญ่ๆอย่างบริษัทมหาชนเพียงบริษัทเดียวให้ครบถ้วนก็ไม่ง่ายแล้ว)
อีกทั้งการแจกแจงนั้นมีหลากหลายรูปแบบ ซึ่งในหลายๆกรณี เราไม่รู้ด้วยซ้ำว่าธรรมชาติของกลุ่มข้อมูลที่เราสนใจนั้นมีการแจกแจงในรูปแบบใดทำให้ยากต่อการวิเคราะห์
อย่างไรก็ตาม นักคณิตศาสตร์พบว่ามีการแจกแจงชนิดหนึ่งที่เปรียบได้กับศูนย์กลางของการแจกแจงทั้งหมดซึ่งเป็นประโยชน์ต่อการวิเคราะห์และช่วยในการเข้าถึงข้อมูลสำคัญของประชากรจำนวนมากได้เป็นอย่างดี นั่นคือ การแจกแจงปกติ (Normal distribution) ซึ่งนักเรียน นักศึกษาสายวิทย์ทุกคนต้องเคยเรียนและรู้จักมัน
ถ้าเราโยนเหรียญหนึ่งเหรียญ ผมคือ ไม่ออกหัว ก็ต้องออกก้อย
แต่ถ้าเราเราโยนเหรียญหนึ่งเหรียญ แต่โยน 4 ครั้ง ความเป็นไปได้ทั้งหมดจะมี 16 แบบ
เหรียญไม่ออกหัวเลยมี 1 รูปแบบ
เหรียญออกหัว 1 ครั้งมี 4 รูปแบบ
เหรียญออกหัว 2 ครั้งมี 6 รูปแบบ
เหรียญออกหัว 3 ครั้งมี 4 รูปแบบ
เหรียญออกหัวทั้ง 4 ครั้งมี 1 รูปแบบ
ถ้าเราเขียนการกระจายตัวของจำนวนหัวที่ออกจะได้แผนภูมิลักษณะนี้
แผนภูมินี้เป็นการแจกแจงที่เกิดจากทฤษฎี
แต่ในทางปฏิบัติ หากเราทำการทดลองโยนเหรียญจริงๆจะพบว่าการแจกแจงอาจไม่ได้ออกมาตรงกับทฤษฎีนัก แต่ถ้าเราโยนด้วยจำนวนเซ็ตการโยนที่มากพอ การแจกแจงที่ได้จะมีแนวโน้มเข้าใกล้กับทฤษฎี
นักคณิตศาสตร์เรียก การกระจายตัวของการโยนเหรียญนี้ว่า การแจกแจงแบบไบโนเมียล (binomial distribution) ซึ่งสามารถใช้อธิบายปรากฏการณ์อื่นๆในลักษณะนี้ได้
ความน่าสนใจคือ ถ้าเราโยนเหรียญหนึ่งเหรียญ แต่โยนด้วยจำนวนที่มากขึ้น เช่น โยนร้อยครั้ง การแจกแจงแบบไบโนเมียล จะมีลักษณะใกล้เคียงกับการแจกแจงแบบปกติ ผู้ที่ค้นพบข้อเท็จจริงนี้เป็นคนแรกคือ Abraham de Moivre นักคณิตศาสตร์ชาวฝรั่งเศส
ฟรานซิส กาลตัน (Francis Galton) นักคิดชาวอังกฤษอัจฉริยะ ได้สร้าง Galton Board ซึ่งทุกวันนี้เราพบเห็นได้ตามพิพิธภัณฑ์วิทยาศาสตร์ทั่วไปรวมทั้งในเมืองไทยก็มี
การทำงานของ Galton Board นั้นเรียบง่ายคือ มันจะปล่อยลูกเหล็กใส่กุ่งกลางจุดกระทบ ให้ลูกเหล็กมีโอกาสร่วงไปทางซ้ายกับขวาเท่าๆกัน และจุดกระทบจะถูกวางให้ลูกเหล็กที่หล่นลงมากระทบต่อเนื่องเช่นนี้ไปจนถึงชั้นล่างสุด
หากลูกเหล็กถูกปล่อยด้วยปริมาณมากพอ มันจะกองเป็นโค้งคล้ายกับภูเขาซึ่งถูกประมารณค่าได้ด้วยการแจกแจงเป็บปกติ นั่นเอง
นอกจากนี้ การแจกแจงแบบปัวซง การแจกแจงแบบไคสแควร์ การแจกแจงแบบที ( Student's t Distribution ) ในบางก็กรณีก็สามารถใช้การแจกแจงแบบปกติในการประมาณค่าได้เป็นอย่างดี
คำถามคือ การแจกแจงแบบปกติคืออะไรกันแน่
คำตอบที่ตรงที่สุดคือ การแจกแจงที่เป็นไปตามสมการทางคณิตศาสตร์นี้ ซึ่งกราฟมีลักษณะคล้ายกับภูเขา หรือ ที่เรียกกันว่า โค้งรูประฆัง
2
เหตุผลที่ทำให้การแจกแจงแบบปกติมีความสำคัญในเชิงสถิติและการวิเคราะห์ เป็นผลมาจาก central limit theorem ซึ่งถูกค้นพบโดย ปีแยร์-ซีมง ลาปลาส (Pierre-Simon Laplace) นักคิดผู้ได้รับสมญาว่า นิวตันแห่งฝรั่งเศส
สมมติว่าพนักงานบริษัทแห่งหนึ่งมีทั้งหมด 1,000 คน แล้วเราต้องการเก็บข้อมูลระยะห่างจากบ้านถึงที่ทำงานของพนักงานทุกคนเพื่อนำมาหาค่าเฉลี่ย เพื่อจะได้ประมาณการถูกว่าควรเพิ่มค่าเดินทางให้กับพนักงานแค่ไหน
แต่การเก็บข้อมูลทั้งหมดอาจจะเหนื่อยเกินไป
แทนที่จะถามพนักงานทั้งหมด เราอาจใช้การสุ่มตัวอย่างมาถามแทน เช่น สุ่มพนักงานมา 10 คนเพื่อหาค่าเฉลี่ยครั้งที่ 1 , แล้วสุ่มพนักงานมาอีก 10 คนเพื่อหาค่าเฉลี่ยครั้งที่ 2 ... ทำแบบนี้หลายๆครั้งจะได้ ค่าเฉลี่ยจำนวนมาก
central limit theorem แสดงให้เห็นว่าหากนำค่าเฉลี่ยจากกลุ่มตัวอย่างเหล่านี้มาเขียนกราฟจะได้การแจกแจงแบบปกติเสมอ ไม่ว่าการแจกแจงของประชากรจริงๆจะมีลักษณะอย่างไรก็ตาม
ที่เจ๋งไปกว่านั้นคือ ยิ่งกลุ่มตัวอย่างที่สุ่มมีจำนวนมาก การแจกแจงกลุ่มตัวอย่างนั้นจะมีค่าเฉลี่ยใกล้เคียงกับค่าเฉลี่ยประชากร ทำให้เราไม่ต้องไปหาค่าเฉลี่ยจากคนทั้งหมดก็ได้
สรุปสั้นๆว่า หากเราสุ่มตัวอย่างที่มีขนาดกลุ่มใหญ่พอมาหาค่าเฉลี่ยหลายๆครั้ง
- ค่าเฉลี่ยของกลุ่มตัวอย่างเหล่านั้น จะมีการกระจายตัวเป็นการะแจกแจงแบบปกติ
- การแจกแจงแบบปกติดังกล่าวจะใกล้เคียงกับค่าเฉลี่ยของประชากรแท้จริง
การแจกแจงแบบปกตินั้นยังมีประโยชน์อย่างอื่นเชิงสถิติที่ไม่ได้เล่าไว้ในที่นี้อีกหลายประการ
ในอนาคต ผมจะเล่าเรื่องนักคณิตศาสตร์ใช้การแจกแจงแบบปกติไปประยุกต์ใช้กับการวิเคราะห์ระบบทางดาราศาสตร์เป็นคนแรกให้ฟังครับ
โฆษณา