Blockdit Logo
Blockdit Logo (Mobile)
สำรวจ
ลงทุน
คำถาม
เข้าสู่ระบบ
มีบัญชีอยู่แล้ว?
เข้าสู่ระบบ
หรือ
ลงทะเบียน
Shoper Gamer
•
ติดตาม
3 ส.ค. 2024 เวลา 09:44 • การศึกษา
Data By Shoper Gamer
Data Cleaning คืออะไร
โดย
ในยุคที่ "ข้อมูลคือทองคำ" การทำ Data Cleaning (การทำความสะอาดข้อมูล) ถือเป็นกระบวนการที่ขาดไม่ได้เพื่อแปลงข้อมูลดิบให้กลายเป็นสินทรัพย์ที่มีคุณภาพ บทความนี้จะพาคุณเจาะลึกตั้งแต่แนวคิดพื้นฐานไปจนถึงเทคนิคปฏิบัติ ที่จะช่วยให้คุณได้ข้อมูลที่พร้อมสำหรับการวิเคราะห์อย่างแท้จริง
★
Data Cleaning คืออะไร
Data Cleaning คือ กระบวนการตรวจสอบ แก้ไข และ ปรับปรุงข้อมูลให้ถูกต้อง สมบูรณ์ และ สม่ำเสมอ เพื่อให้ข้อมูลเหล่านั้นพร้อมสำหรับการนำไปวิเคราะห์ต่อ โดยมีเป้าหมายหลักคือ
✅️ กำจัดความผิดพลาด
ขจัดข้อมูลที่ไม่น่าเชื่อถือ หรือ ข้อผิดพลาดที่เกิดขึ้นขณะจัดเก็บ
✅️ เพิ่มความแม่นยำ
ทำให้มั่นใจว่าข้อมูลสะท้อนความเป็นจริงมากที่สุด
✅️ ป้องกันความเข้าใจผิด หลีกเลี่ยงผลลัพธ์การวิเคราะห์ที่ผิดพลาดซึ่งจะนำไปสู่การตัดสินใจที่ผิดพลาด
★
Data Cleaning ทำงานอย่างไร
1.1) วงจรและขั้นตอนการทำความสะอาดข้อมูล
การทำความสะอาดข้อมูลไม่ใช่การทำครั้งเดียวแล้วจบไป แต่เป็นวงจรที่ต้องทำซ้ำๆ เพื่อให้มั่นใจในคุณภาพ
```mermaid
graph TD
A[ข้อมูลดิบ] --> B[ตรวจสอบและระบุปัญหา]
B --> C[ทำความสะอาดข้อมูล]
C --> D[ตรวจสอบความถูกต้อง]
D --> E{ผ่านเกณฑ์?}
E -->|ไม่| C
E -->|ใช่| F[ข้อมูลพร้อมใช้งาน]
```
★
กระบวนการนี้ประกอบไปด้วย
1) การตรวจสอบ (Inspection) เพื่อหาความผิดปกติ
2) การระบุปัญหา (Identification) ที่ชัดเจน
3) การแก้ไข (Correction) ข้อมูล
4)การยืนยัน (Validation) ผลลัพธ์
5) การบันทึก (Documentation) ทุกขั้นตอนที่เปลี่ยนแปลง
★
ประเภทของขยะ ในข้อมูลที่ต้งกำจัด
○ ข้อมูลสูญหาย (Missing Data) มักแสดงเป็นค่าว่าง (NULL) ซึ่งเกิดจากการป้อนข้อมูลไม่ครบ หรือ ระบบขัดข้อง วิธีจัดการอาจเป็นการลบทิ้ง หรือ การเติมค่าที่เหมาะสม (เช่น ค่าเฉลี่ยหรือค่าที่พบบ่อยที่สุด)
○ ข้อมูลผิดรูปแบบ (Format Inconsistencies) ข้อมูลชุดเดียวกันแต่ถูกบันทึกในหลายรูปแบบ เช่น วันที่ (2024-01-15 กับ 15/01/2024) หรือ เบอร์โทรศัพท์ การแก้ไขคือการแปลงให้เป็นรูปแบบมาตรฐานเดียวกัน
○ ข้อมูลซ้ำซ้อน (Duplicate Data) การมีข้อมูลชุดเดิมซ้ำๆ ทำให้ AI เรียนรู้เกินจริง (Overfitting) และ บิดเบือนสถิติ เราต้องระบุ และ ลบข้อมูลที่ซ้ำซ้อนออก
○ ข้อมูลผิดปกติ (Outliers) ค่าที่โดดออกไปจากกลุ่มมาก เช่น อายุ 200 ปี หรือ เงินเดือนติดลบ มักเกิดจากข้อผิดพลาดในการป้อนข้อมูล ต้องตรวจสอบ และ ตัดสินใจว่าจะลบทิ้งหรือ แก้ไข
2
○ ข้อมูลที่ไม่ถูกต้อง (Inaccurate Data) แม้ค่าจะดูสมเหตุสมผล แต่ไม่ตรงกับความเป็นจริง เช่น รหัสไปรษณีย์ไม่ตรงกับชื่อจังหวัด ต้องมีการตรวจสอบข้ามข้อมูล (Cross-Validation) เพื่อแก้ไข
★
ประโยชน์ของ Data Cleaning
✅️ เพิ่มความน่าเชื่อถือของผลการวิเคราะห์ทั้งหมด
✅️ ลดความเสี่ยง ในการตัดสินใจทางธุรกิจที่ผิดพลาด
✅️ ประหยัดเวลา และ ทรัพยากรที่ต้องใช้ในการวิเคราะห์ซ้ำ
✅️ เพิ่มประสิทธิภาพ และ ความแม่นยำของโมเดล Machine Learning อย่างก้าวกระโดด
✅️ สร้างความมั่นใจ ในการปฏิบัติตามข้อกำหนดด้านข้อมูล (Data Compliance)
★
ตัวอย่างการใช้งาน
1) การจัดการข้อมูลสูญหายด้วย Python (Pandas)
ในทางปฏิบัติ เรามักใช้ไลบรารี Pandas เพื่อตรวจสอบ และ แทนที่ค่าสูญหาย ตัวอย่างเช่น การเติมค่า Mean (ค่าเฉลี่ย) สำหรับตัวเลข หรือ Mode (ค่าที่พบบ่อยที่สุด) สำหรับข้อมูลเชิงหมวดหมู่
```python
# ตัวอย่าง: แทนที่ค่าสูญหายด้วย mean (สำหรับตัวเลข) และ mode (สำหรับ categorical)
df_cleaned['age'].fillna(df_cleaned['age'].mean(), inplace=True)
df_cleaned['department'].fillna(df_cleaned['department'].mode()[0], inplace=True)
```
4
2) การแก้ไขรูปแบบข้อมูล
การสร้างฟังก์ชัน (Function) เพื่อบังคับให้ข้อมูลอยู่ในรูปแบบมาตรฐานเดียวเป็นสิ่งที่สำคัญมาก เช่น การกำหนดรูปแบบวันที่เป็น YYYY-MM-DD เสมอ หรือ การลบอักขระที่ไม่ใช่ตัวเลขออกจากเบอร์โทรศัพท์
3) การจัดการข้อมูลซ้ำซ้อน
การใช้ฟังก์ชัน `drop_duplicates()` เป็นวิธีที่ง่าย และ รวดเร็วที่สุดในการกำจัดระเบียนที่ซ้ำกันทั้งหมด หรือใช้ `subset` เพื่อกำหนดว่าควรพิจารณาข้อมูลซ้ำจากคอลัมน์ใดเป็นหลัก (เช่น อีเมลและ เบอร์โทรศัพท์)
```python
# ตัวอย่าง: ลบข้อมูลซ้ำโดยพิจารณาจากคอลัมน์ 'email' และ 'phone'
df_deduplicated_specific = df.drop_duplicates(subset=['email', 'phone'])
```
4) เทคนิคขั้นสูงสำหรับนักพัฒนา
✅️ Regular Expression (Regex) ใช้เพื่อค้นหา จัดการ และ แยกข้อความที่มีรูปแบบซับซ้อน เช่น การดึงอีเมลออกจากข้อความที่ปนกัน หรือ การทำความสะอาด HTML Tags ที่ติดมากับเนื้อหา
✅️ Machine Learning Imputation สำหรับค่าสูญหายที่ซับซ้อน อาจใช้โมเดล Machine Learning เช่น Random Forest มาช่วยในการทำนายค่าที่หายไปตามความสัมพันธ์ของข้อมูลอื่นๆ
★
แนวทางสำหรับ Data Cleaning
1) บันทึกทุกกระบวนการ (Documentation) ทุกขั้นตอนการทำความสะอาด ตั้งแต่การลบ การแก้ไข ไปจนถึงการเติมค่า ต้องถูกบันทึกไว้อย่างชัดเจน และ โปร่งใส
2) ทำงานบนสำเนา
ห้ามลบ หรือ แก้ไขข้อมูลต้นฉบับเด็ดขาด\! ควรทำงานบนสำเนา (Copy) เพื่อให้สามารถย้อนกลับไปตรวจสอบหรือ เริ่มต้นใหม่ได้เสมอ
3) กำหนดมาตรฐานร่วมกัน ในการทำงานเป็นทีม ควรมีกฎ และ มาตรฐานที่ชัดเจนว่าข้อมูลที่สะอาด ควรมีรูปแบบอย่างไร เพื่อให้ทุกคนทำงานไปในทิศทางเดียวกัน
✏️ Shoper Gamer
>>
https://shopergamer.vercel.app/
✓
Big Data คืออะไร 👇
>>
https://www.blockdit.com/posts/656a850baee4a93edeb669f3
✓
Data Visualization คืออะไร 👇
>>
https://www.blockdit.com/posts/66ab33a4376c2c69f9f55869
✓
Machine Learning คืออะไร 👇
>>
https://www.blockdit.com/posts/656a8326dab7a18faa7c3138
Credit :
👇
●
https://www.tableau.com/learn/articles/what-is-data-cleaning
●
https://blog.datath.com/data-wrangling/
●
https://www.geeksforgeeks.org/data-analysis/what-is-data-cleaning/
เทคโนโลยี
ข่าวรอบโลก
data
บันทึก
1
3
ดูเพิ่มเติมในซีรีส์
Data
1
3
โฆษณา
ดาวน์โหลดแอปพลิเคชัน
© 2025 Blockdit
เกี่ยวกับ
ช่วยเหลือ
คำถามที่พบบ่อย
นโยบายการโฆษณาและบูสต์โพสต์
นโยบายความเป็นส่วนตัว
แนวทางการใช้แบรนด์ Blockdit
Blockdit เพื่อธุรกิจ
ไทย