รู้หรือไม่ว่าไฟล์ PDF นั้นไม่ได้มีแค่ประเภทเดียวเท่านั้น แต่มีอยู่หลายรูปแบบด้วยกัน โดยในแต่ละประเภทจะเหมาะกับการจัดเก็บข้อมูลที่แตกต่างกันไป วันนี้เราจะพาไปรู้จักกันว่า PDF มีกี่ประเภท และมีวิธีการแบ่งประเภทของไฟล์ PDF อย่างไรบ้าง พร้อมแนะนำวิธีจัดการไฟล์ PDF จำนวนมากให้เป็นระบบและเหมาะสมกับการสืบค้น ที่สำคัญยังจะสามารถช่วยจัดการกับข้อมูลต่าง ๆ ได้อย่างมีประสิทธิภาพ
PDF คืออะไร?
ไฟล์ PDF ย่อมาจากคำว่า Portable Document Format หมายถึง รูปแบบไฟล์เอกสารที่สามารถพกพา หรือส่งต่อได้อย่างมีประสิทธิภาพ ซึ่งไฟล์ประเภทนี้ถูกออกแบบมาให้ส่งต่อเอกสารและข้อมูลในเอกสารได้อย่างแม่นยำมากที่สุด
โดยข้อมูลภายในไฟล์จะไม่เปลี่ยนแปลงรูปแบบการแสดงผลเมื่อเปิดโดยโปรแกรมที่รองรับการอ่านไฟล์ PDF ไม่ว่าจะเป็นไฟล์ที่สร้างโดยโปรแกรมใด ๆ ก็ตาม
ด้วยคุณสมบัติที่ทำให้สามารถส่งต่อข้อมูลต่าง ๆ ในรูปแบบไฟล์ได้อย่างแม่นยำ โดยที่รูปแบบเนื้อหาต่าง ๆ ไม่เสียหาย จึงทำให้ไฟล์ PDF ได้รับความนิยมอย่างมาก และมีการพัฒนาต่อยอดเพื่อให้ไฟล์ PDF มีความสอดคล้องกับมาตรฐาน ISO หรือมาตรฐานอุตสาหกรรมต่าง ๆ ด้วยเช่นกัน
การแบ่งประเภทไฟล์ PDF
หากถามว่าไฟล์ PDF มีกี่ประเภท ก็จำเป็นต้องรู้จักกับเกณฑ์ที่ใช้ในการแบ่งประเภทของไฟล์ PDF เสียก่อน ซึ่งเกณฑ์ในการแบ่งไฟล์ PDF นั้นจะมีอยู่ 2 รูปแบบหลัก ๆ คือ
แบ่งประเภทไฟล์ PDF ตามการฝังข้อมูลในไฟล์
1. Digitally Created PDF
ไฟล์ PDF แบบ Digitally Created PDF เป็นไฟล์ที่สร้างขึ้นผ่านซอฟต์แวร์สำหรับสร้างเอกสารอย่างเช่นโปรแกรมตระกูล Microsoft ต่าง ๆ รวมถึง PDF ที่ได้จากการ Export ไฟล์เพื่อพิมพ์เอกสารด้วยเช่นกัน ซึ่งไฟล์ PDF รูปแบบนี้จะใช้การบันทึกไฟล์โดยวางเลเยอร์ของรูปภาพ ทับบนเลเยอร์ของตัวอักษร ไฟล์ประเภทนี้ผู้ใช้จะสามารถค้นหาข้อความต่าง ๆ บนไฟล์ได้ แต่ไม่สามารถค้นหารูปภาพได้
2. Image Only หรือ Scanned PDF
Image Only หรือ Scanned PDF เป็นไฟล์ที่ได้จากการสแกน การถ่ายภาพ หรือการฝังข้อมูลแบบรูปภาพเท่านั้น ไม่มีการแยกเลเยอร์ระหว่างข้อความ กับรูปภาพ ทำให้ไม่สามารถค้นหาข้อความ หรือรูปใด ๆ ในเอกสารได้เลย
3. Searchable PDF หรือ OCRed PDF
ไฟล์ Searchable PDF หรือ OCRed PDF เป็นไฟล์ PDF ที่มีการนำเทคโนโลยี OCR เข้ามาใช้ให้เกิดประโยชน์มากขึ้น ทำให้สามารถสร้างไฟล์ PDF ที่สะดวกต่อการค้นหาข้อความได้จากการสแกนภาพของเอกสารต่าง ๆ โดยไฟล์ PDF รูปแบบนี้จะมีเลเยอร์ภาพของเอกสารทั้งหมด แล้วซ้อนด้วยเลเยอร์ตัวอักษรที่ได้จากเทคโนโลยี OCR อีกชั้นหนึ่ง
แบ่งประเภทไฟล์ PDF ตามมาตรฐาน ISO
1. ISO 32000 : PDF ทั่วไป (Standard PDF) เป็นไฟล์ PDF ที่พบเห็นได้ทั่วไป ส่วนมากแล้วจะใช้บันทึกเอกสารทั่ว ๆ ไปได้ทุกรูปแบบ เพื่อเอื้อต่อการส่งต่อข้อมูล หรือพิมพ์ข้อมูลโดยไม่เกิดความคลาดเคลื่อนของข้อมูลและเอกสาร
2. ISO 19005 : PDF/A สำหรับจัดเก็บไฟล์อิเล็กทรอนิกส์ในระยะยาว เป็นไฟล์ PDF ที่จะไม่อนุญาตให้มีการฝังข้อมูลที่อาจเข้าถึงไม่ได้ในอนาคตอย่างลิงก์เว็บไซต์ ไฟล์เสียง ไฟล์วิดีโอ การเข้ารหัส (Encryption) และอื่น ๆ