สำหรับรายละเอียดของข้อมูลและขั้นตอนที่จะได้ผลลัพธ์ออกมา ผมจะขอพูดถึงในส่วนข้อมูลเชิงเทคนิคนะครับ
ซึ่งในส่วนข้อมูลเชิงเทคนิคในบทความชุดนี้ก็จะสามารถแบ่งออกได้เป็น 4 ช่วง ตามนี้เลยครับ:
สิ่งที่คุณต้องเตรียมในการดึงข้อมูลจาก Twitter และวิเคราะห์ข้อมูลในบทความนี้
การดึงข้อมูลจาก Twitter ด้วย Tweepy และเก็บข้อมูลลง Excel ด้วย Pandas
การจัดการข้อมูลเพื่อหายอดทวิตในแต่ละวัน และการหาทวิต 10 อันดับแรกที่มีการ Retweet และยอด favourite สูงสุด ด้วย Pandas
การกรองคำในข้อมูลทวิต ตัดคำ และนับคำ เพื่อหา Hashtag ที่เกี่ยวข้องและคำที่พบบ่อย
สำหรับบทความ Part 1 นี้ ผมจะกล่าวถึง 2 หัวข้อแรกก่อนนะครับ แล้วขอยกหัวข้อที่เหลือไว้ในบทความต่อๆ ไป เอาล่ะครับ เพื่อไม่ให้เป็นการเสียเวลา เรามาเข้าเนื้อหาด้านเทคนิคกันเลยดีกว่า
สิ่งที่ต้องเตรียมในการดึงและวิเคราะห์ข้อมูลจาก Twitter
ในหัวข้อนี้ผมขอพูดถึง 3 สิ่งที่คุณต้องเตรียมสำหรับลองดึงข้อมูลและวิเคราะห์ในบทความนี้นะครับ
Python : สิ่งแรกคือภาษาคอมพิวเตอร์ที่ผมจะใช้ในการทำงาน ซึ่งในบทความนี้ผมได้ใช้ Python ในการ Coding เนื่องจากมีเครื่องมือและการใช้ที่ค่อนข้างง่ายสำหรับงานด้านนี้นะครับ
Libray : ในส่วนของ Library ที่ผมใช้ในงานนี้มีทั้งสิ้น 6 อย่าง ได้แก่
Tweepy ใช้สำหรับในการดึงข้อมูล(Crawler) จาก Twitter
Pandas ใช้สำหรับจัดการข้อมูลที่ดึงมาได้ให้อยู่ในรูปตาราง แล้วจัดกลุ่มหรือทำการวิเคราะห์ข้อมูลต่างๆ ที่อยู่ในรูปตาราง
sklearn ใช้สำหรับทำสิ่งที่เรียกว่า Bag of Word เพื่อใช้สำหรับแปลงคำที่เป็นภาษามนุษย์ให้คอมพิวเตอร์เข้าใจได้
numpy ใช้สำหรับในการช่วยเหลือด้านจัดการและการคำนวณตัวเลขในรูปเมทริกซ์
emoji ใช้สำหรับเป็นฐานข้อมูล emoji เพื่อนำมาใช้กรอง emoji ที่พบในทวิตเพื่อให้สามารถวิเคราะห์ข้อมูลได้สะดวกขึ้น
re หรือ regularExpression ใช้สำหรับในการจับ pattern ของคำที่เราต้องการเพื่อใช้สำหรับกรองคำที่ไม่ต้องการออกไปเช่น URL ของรูปหรือลิงค์อื่นๆ
สำหรับผู้ที่สนใจด้าน pandas หรือ numpy ซึ่งเป็น Library พื้นฐานของด้าน Data Science สามารถศึกษาได้จากที่ medium นี้ครับ