ในช่วงปี 2562-2563 ที่ผ่านมา Government Big Data institute (GBDi) ได้มีโอกาสร่วมมือกับสำนักงานการวิจัยแห่งชาติ (วช.) ที่มีการจัดเก็บผลงานวิจัยภายในประเทศจำนวนไม่น้อยในแต่ละปี ผลงานวิจัยเหล่านั้นถูกแยกย่อยตามสาขาวิชาหลักทั้งหมด 7 สาขา เช่น เกษตรศาสตร์ สังคมศาสตร์ วิศวกรรมและเทคโนโลยี เป็นต้น การแบ่งสาขาเหล่านี้ถูกใช้เป็นข้อมูลช่วยวางแผนนโยบายต่าง ๆ เกี่ยวกับงานวิจัย แต่เนื่องด้วยจำนวนงานวิจัยที่มากขึ้นเรื่อย ๆ ในแต่ละปี จึงเกิดความต้องการที่จะใช้ข้อมูลในระดับที่ละเอียดกว่า 7 สาขาวิชาหลัก จึงต้องนำ Topic Modelling Technique มาช่วยวิเคราะห์เพื่อหาหัวข้องานวิจัยที่ซ่อนอยู่ภายใต้แต่ละสาขาวิชา
ในการศึกษาครั้งนี้ เราได้ตัวอย่างบทคัดย่อภาษาอังกฤษที่ถูกแบ่งเป็น 7 ประเภทตามสาขาวิชาหลัก โดยข้อมูลประกอบด้วยไฟล์หลากหลายประเภท ไม่ว่าจะเป็น Microsoft word, text file, pdf และไฟล์รูปภาพ ก่อนที่จะนำข้อมูลเข้าโมเดลเพื่อทำการวิเคราะห์นั้น จึงต้องมีการจัดเตรียมบทคัดย่อที่ได้รับมาให้อยู่ในรูปแบบที่เหมาะสมก่อน