[Shoper Gamer] Data Cleaning คืออะไร โดย

สำรวจ
ลงทุน
คำถาม

มีบัญชีอยู่แล้ว?หรือ

Shoper Gamer

•

3 ส.ค. 2024 เวลา 09:44 • การศึกษา

Data By Shoper Gamer

Data Cleaning คืออะไร

โดย

ในยุคที่ "ข้อมูลคือทองคำ" การทำ Data Cleaning (การทำความสะอาดข้อมูล) ถือเป็นกระบวนการที่ขาดไม่ได้เพื่อแปลงข้อมูลดิบให้กลายเป็นสินทรัพย์ที่มีคุณภาพ บทความนี้จะพาคุณเจาะลึกตั้งแต่แนวคิดพื้นฐานไปจนถึงเทคนิคปฏิบัติ ที่จะช่วยให้คุณได้ข้อมูลที่พร้อมสำหรับการวิเคราะห์อย่างแท้จริง

★
Data Cleaning คืออะไร

Data Cleaning คือ กระบวนการตรวจสอบ แก้ไข และ ปรับปรุงข้อมูลให้ถูกต้อง สมบูรณ์ และ สม่ำเสมอ เพื่อให้ข้อมูลเหล่านั้นพร้อมสำหรับการนำไปวิเคราะห์ต่อ โดยมีเป้าหมายหลักคือ

✅️ กำจัดความผิดพลาด

ขจัดข้อมูลที่ไม่น่าเชื่อถือ หรือ ข้อผิดพลาดที่เกิดขึ้นขณะจัดเก็บ

✅️ เพิ่มความแม่นยำ

ทำให้มั่นใจว่าข้อมูลสะท้อนความเป็นจริงมากที่สุด

✅️ ป้องกันความเข้าใจผิด หลีกเลี่ยงผลลัพธ์การวิเคราะห์ที่ผิดพลาดซึ่งจะนำไปสู่การตัดสินใจที่ผิดพลาด

★
Data Cleaning ทำงานอย่างไร

1.1) วงจรและขั้นตอนการทำความสะอาดข้อมูล

การทำความสะอาดข้อมูลไม่ใช่การทำครั้งเดียวแล้วจบไป แต่เป็นวงจรที่ต้องทำซ้ำๆ เพื่อให้มั่นใจในคุณภาพ

```mermaid

graph TD

A[ข้อมูลดิบ] --> B[ตรวจสอบและระบุปัญหา]

B --> C[ทำความสะอาดข้อมูล]

C --> D[ตรวจสอบความถูกต้อง]

D --> E{ผ่านเกณฑ์?}

E -->|ไม่| C

E -->|ใช่| F[ข้อมูลพร้อมใช้งาน]

```

★
กระบวนการนี้ประกอบไปด้วย

1) การตรวจสอบ (Inspection) เพื่อหาความผิดปกติ

2) การระบุปัญหา (Identification) ที่ชัดเจน

3) การแก้ไข (Correction) ข้อมูล

4)การยืนยัน (Validation) ผลลัพธ์

5) การบันทึก (Documentation) ทุกขั้นตอนที่เปลี่ยนแปลง

★
ประเภทของขยะ ในข้อมูลที่ต้งกำจัด

○ ข้อมูลสูญหาย (Missing Data) มักแสดงเป็นค่าว่าง (NULL) ซึ่งเกิดจากการป้อนข้อมูลไม่ครบ หรือ ระบบขัดข้อง วิธีจัดการอาจเป็นการลบทิ้ง หรือ การเติมค่าที่เหมาะสม (เช่น ค่าเฉลี่ยหรือค่าที่พบบ่อยที่สุด)

○ ข้อมูลผิดรูปแบบ (Format Inconsistencies) ข้อมูลชุดเดียวกันแต่ถูกบันทึกในหลายรูปแบบ เช่น วันที่ (2024-01-15 กับ 15/01/2024) หรือ เบอร์โทรศัพท์ การแก้ไขคือการแปลงให้เป็นรูปแบบมาตรฐานเดียวกัน

○ ข้อมูลซ้ำซ้อน (Duplicate Data) การมีข้อมูลชุดเดิมซ้ำๆ ทำให้ AI เรียนรู้เกินจริง (Overfitting) และ บิดเบือนสถิติ เราต้องระบุ และ ลบข้อมูลที่ซ้ำซ้อนออก

○ ข้อมูลผิดปกติ (Outliers) ค่าที่โดดออกไปจากกลุ่มมาก เช่น อายุ 200 ปี หรือ เงินเดือนติดลบ มักเกิดจากข้อผิดพลาดในการป้อนข้อมูล ต้องตรวจสอบ และ ตัดสินใจว่าจะลบทิ้งหรือ แก้ไข

○ ข้อมูลที่ไม่ถูกต้อง (Inaccurate Data) แม้ค่าจะดูสมเหตุสมผล แต่ไม่ตรงกับความเป็นจริง เช่น รหัสไปรษณีย์ไม่ตรงกับชื่อจังหวัด ต้องมีการตรวจสอบข้ามข้อมูล (Cross-Validation) เพื่อแก้ไข

★
ประโยชน์ของ Data Cleaning

✅️ เพิ่มความน่าเชื่อถือของผลการวิเคราะห์ทั้งหมด

✅️ ลดความเสี่ยง ในการตัดสินใจทางธุรกิจที่ผิดพลาด

✅️ ประหยัดเวลา และ ทรัพยากรที่ต้องใช้ในการวิเคราะห์ซ้ำ

✅️ เพิ่มประสิทธิภาพ และ ความแม่นยำของโมเดล Machine Learning อย่างก้าวกระโดด

✅️ สร้างความมั่นใจ ในการปฏิบัติตามข้อกำหนดด้านข้อมูล (Data Compliance)

★
ตัวอย่างการใช้งาน

1) การจัดการข้อมูลสูญหายด้วย Python (Pandas)

ในทางปฏิบัติ เรามักใช้ไลบรารี Pandas เพื่อตรวจสอบ และ แทนที่ค่าสูญหาย ตัวอย่างเช่น การเติมค่า Mean (ค่าเฉลี่ย) สำหรับตัวเลข หรือ Mode (ค่าที่พบบ่อยที่สุด) สำหรับข้อมูลเชิงหมวดหมู่

```python

# ตัวอย่าง: แทนที่ค่าสูญหายด้วย mean (สำหรับตัวเลข) และ mode (สำหรับ categorical)

df_cleaned['age'].fillna(df_cleaned['age'].mean(), inplace=True)

df_cleaned['department'].fillna(df_cleaned['department'].mode()[0], inplace=True)

```

2) การแก้ไขรูปแบบข้อมูล

การสร้างฟังก์ชัน (Function) เพื่อบังคับให้ข้อมูลอยู่ในรูปแบบมาตรฐานเดียวเป็นสิ่งที่สำคัญมาก เช่น การกำหนดรูปแบบวันที่เป็น YYYY-MM-DD เสมอ หรือ การลบอักขระที่ไม่ใช่ตัวเลขออกจากเบอร์โทรศัพท์

3) การจัดการข้อมูลซ้ำซ้อน

การใช้ฟังก์ชัน `drop_duplicates()` เป็นวิธีที่ง่าย และ รวดเร็วที่สุดในการกำจัดระเบียนที่ซ้ำกันทั้งหมด หรือใช้ `subset` เพื่อกำหนดว่าควรพิจารณาข้อมูลซ้ำจากคอลัมน์ใดเป็นหลัก (เช่น อีเมลและ เบอร์โทรศัพท์)

```python

# ตัวอย่าง: ลบข้อมูลซ้ำโดยพิจารณาจากคอลัมน์ 'email' และ 'phone'

df_deduplicated_specific = df.drop_duplicates(subset=['email', 'phone'])

```

4) เทคนิคขั้นสูงสำหรับนักพัฒนา

✅️ Regular Expression (Regex) ใช้เพื่อค้นหา จัดการ และ แยกข้อความที่มีรูปแบบซับซ้อน เช่น การดึงอีเมลออกจากข้อความที่ปนกัน หรือ การทำความสะอาด HTML Tags ที่ติดมากับเนื้อหา

✅️ Machine Learning Imputation สำหรับค่าสูญหายที่ซับซ้อน อาจใช้โมเดล Machine Learning เช่น Random Forest มาช่วยในการทำนายค่าที่หายไปตามความสัมพันธ์ของข้อมูลอื่นๆ