Thuật ngữ

Làm sạch dữ liệu

Làm sạch dữ liệu chính cho các dự án AI và ML. Tìm hiểu các kỹ thuật để sửa lỗi, nâng cao chất lượng dữ liệu và tăng hiệu suất mô hình một cách hiệu quả!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Dọn dẹp dữ liệu là quá trình thiết yếu để xác định và sửa hoặc loại bỏ lỗi, sự không nhất quán, sự không chính xác và các bản ghi bị hỏng khỏi một tập dữ liệu. Nó đảm bảo rằng dữ liệu chính xác, nhất quán và có thể sử dụng được, đây là điều cơ bản để xây dựng các mô hình trí tuệ nhân tạo (AI)máy học (ML) đáng tin cậy và hiệu quả. Hãy nghĩ về nó như việc chuẩn bị các nguyên liệu chất lượng cao trước khi nấu ăn; nếu không có dữ liệu sạch, đầu ra cuối cùng (mô hình AI) có khả năng sẽ bị lỗi, tuân theo nguyên tắc "vào rác, ra rác" phổ biến trong khoa học dữ liệu . Dữ liệu sạch dẫn đến hiệu suất mô hình tốt hơn, thông tin chi tiết đáng tin cậy hơn và giảm độ lệch trong AI .

Sự liên quan trong AI và Học máy

Trong AI và ML, chất lượng dữ liệu đào tạo ảnh hưởng trực tiếp đến độ chính xác của mô hình và khả năng khái quát hóa thành dữ liệu mới, chưa từng thấy. Làm sạch dữ liệu là bước đầu tiên quan trọng trong quy trình làm việc ML , thường diễn ra trước các tác vụ như kỹ thuật tính năngđào tạo mô hình. Các mô hình như Ultralytics YOLO , được sử dụng cho các tác vụ đòi hỏi cao như phát hiện đối tượng hoặc phân đoạn thể hiện , phụ thuộc rất nhiều vào các tập dữ liệu sạch, có cấu trúc tốt để học hiệu quả. Các lỗi như hình ảnh gắn nhãn sai, định dạng hộp giới hạn không nhất quán, giá trị bị thiếu hoặc mục nhập trùng lặp có thể làm giảm đáng kể hiệu suất và dẫn đến các dự đoán không đáng tin cậy trong các ứng dụng thực tế. Giải quyết các vấn đề này thông qua việc làm sạch dữ liệu giúp đảm bảo rằng mô hình học các mẫu có ý nghĩa thay vì nhiễu hoặc lỗi có trong dữ liệu thô, ngăn ngừa các sự cố như quá khớp .

Nhiệm vụ dọn dẹp dữ liệu phổ biến

Việc dọn dẹp dữ liệu bao gồm nhiều kỹ thuật khác nhau được thiết kế riêng cho các vấn đề cụ thể trong một tập dữ liệu. Các nhiệm vụ phổ biến bao gồm:

  • Xử lý dữ liệu bị thiếu : Xác định các mục nhập có giá trị bị thiếu và quyết định xem có nên xóa chúng, ước tính chúng (quy kết) hay sử dụng các thuật toán mạnh mẽ đối với dữ liệu bị thiếu. Có nhiều chiến lược khác nhau để xử lý dữ liệu bị thiếu tùy thuộc vào ngữ cảnh.
  • Sửa lỗi và sự không nhất quán: Sửa lỗi đánh máy, chuẩn hóa đơn vị hoặc định dạng (ví dụ: định dạng ngày tháng, viết hoa) và giải quyết các điểm dữ liệu mâu thuẫn. Điều này rất quan trọng để duy trì tính toàn vẹn của dữ liệu.
  • Xóa bản ghi trùng lặp: Xác định và loại bỏ các mục giống hệt nhau hoặc gần giống hệt nhau có thể làm sai lệch quá trình phân tích hoặc đào tạo mô hình.
  • Xử lý các giá trị ngoại lệ: Phát hiện các điểm dữ liệu khác biệt đáng kể so với các quan sát khác. Tùy thuộc vào nguyên nhân, các giá trị ngoại lệ có thể bị xóa, sửa hoặc giữ lại. Có thể sử dụng nhiều phương pháp phát hiện giá trị ngoại lệ khác nhau.
  • Xử lý lỗi cấu trúc: Sửa các sự cố liên quan đến cấu trúc dữ liệu, chẳng hạn như quy ước đặt tên không nhất quán hoặc mục nhập bị đặt sai chỗ.

Ứng dụng trong thế giới thực

Việc dọn dẹp dữ liệu là điều không thể thiếu trong nhiều ứng dụng AI/ML:

  1. Phân tích hình ảnh y tế : Trong các tập dữ liệu chăm sóc sức khỏe như tập dữ liệu Brain Tumor , việc dọn dẹp dữ liệu bao gồm việc loại bỏ các bản quét chất lượng thấp hoặc bị hỏng (ví dụ: hình ảnh bị mờ), chuẩn hóa các định dạng hình ảnh (như DICOM), sửa các chẩn đoán được gắn nhãn sai và đảm bảo quyền riêng tư dữ liệu của bệnh nhân được duy trì theo các quy định như HIPAA. Dữ liệu sạch rất quan trọng để đào tạo các mô hình chẩn đoán đáng tin cậy. Viện Y tế Quốc gia (NIH) nhấn mạnh chất lượng dữ liệu trong nghiên cứu y sinh. Khám phá thêm về AI trong Chăm sóc sức khỏe .
  2. Quản lý hàng tồn kho bán lẻ : Đối với các hệ thống sử dụng thị giác máy tính để theo dõi hàng tồn kho, như những hệ thống có khả năng sử dụng tập dữ liệu SKU-110K , việc dọn dẹp bao gồm sửa các sản phẩm bị nhận dạng sai trong hình ảnh, xóa các mục nhập trùng lặp do lỗi quét, chuẩn hóa tên hoặc mã sản phẩm trên các nguồn dữ liệu khác nhau và xử lý sự không nhất quán trong hồ sơ bán hàng được sử dụng cho hệ thống dự báo nhu cầu hoặc đề xuất . Điều này đảm bảo số lượng hàng tồn kho chính xác và hoạt động chuỗi cung ứng hiệu quả, góp phần đạt được hiệu quả bán lẻ với AI . Các nền tảng như Google Cloud AI for Retail thường dựa vào dữ liệu đầu vào sạch.

Dọn dẹp dữ liệu so với các khái niệm liên quan

Điều quan trọng là phải phân biệt việc dọn dẹp dữ liệu với các bước chuẩn bị dữ liệu liên quan:

  • Tiền xử lý dữ liệu : Đây là thuật ngữ rộng hơn bao gồm việc làm sạch dữ liệu nhưng cũng bao gồm các chuyển đổi khác để chuẩn bị dữ liệu cho các mô hình ML, chẳng hạn như chuẩn hóa (điều chỉnh các tính năng số), mã hóa các biến danh mục và trích xuất tính năng . Trong khi việc làm sạch tập trung vào việc sửa lỗi, thì tiền xử lý tập trung vào việc định dạng dữ liệu cho các thuật toán. Xem hướng dẫn của Ultralytics về việc xử lý trước dữ liệu có chú thích để biết thêm chi tiết.
  • Ghi nhãn dữ liệu : Đây là quá trình thêm các thẻ thông tin hoặc chú thích (nhãn) vào dữ liệu thô, chẳng hạn như vẽ các hộp giới hạn xung quanh các đối tượng trong hình ảnh để học có giám sát . Việc dọn dẹp dữ liệu có thể liên quan đến việc sửa các nhãn không chính xác được xác định trong quá trình kiểm tra chất lượng, nhưng nó khác với hành động ghi nhãn ban đầu. Hướng dẫn Thu thập và chú thích dữ liệu cung cấp thông tin chi tiết về việc ghi nhãn. Ultralytics HUB cung cấp các công cụ để quản lý các tập dữ liệu được gắn nhãn.
  • Tăng cường dữ liệu : Kỹ thuật này làm tăng kích thước và tính đa dạng của tập dữ liệu đào tạo một cách nhân tạo bằng cách tạo các bản sao đã sửa đổi của dữ liệu hiện có (ví dụ: xoay hình ảnh, thay đổi độ sáng). Tăng cường dữ liệu nhằm mục đích cải thiện khả năng khái quát hóa và độ mạnh mẽ của mô hình, trong khi làm sạch dữ liệu tập trung vào việc cải thiện chất lượng của dữ liệu gốc . Tìm hiểu thêm trong Hướng dẫn tối ưu về tăng cường dữ liệu vào năm 2025 .

Dọn dẹp dữ liệu là một hoạt động cơ bản, thường lặp đi lặp lại, giúp tăng đáng kể độ tin cậy và hiệu suất của các hệ thống AI bằng cách đảm bảo dữ liệu cơ bản là hợp lệ. Các công cụ như thư viện Pandas thường được sử dụng để xử lý dữ liệu và làm sạch các tác vụ trong Python - quy trình làm việc dựa trên ML. Đảm bảo chất lượng dữ liệu thông qua quá trình làm sạch nghiêm ngặt là rất quan trọng để phát triển AI đáng tin cậy, đặc biệt là khi làm việc với các tác vụ thị giác máy tính (CV) phức tạp hoặc các tập dữ liệu chuẩn quy mô lớn như COCO hoặc ImageNet .

Đọc tất cả