Thuật ngữ

Làm sạch dữ liệu

Làm sạch dữ liệu chính cho các dự án AI và ML. Tìm hiểu các kỹ thuật để sửa lỗi, nâng cao chất lượng dữ liệu và tăng hiệu suất mô hình một cách hiệu quả!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Làm sạch dữ liệu là một bước quan trọng trong giai đoạn tiền xử lý dữ liệu của bất kỳ dự án học máy (ML) hoặc trí tuệ nhân tạo (AI) nào. Nó bao gồm việc xác định và sửa lỗi, sự không nhất quán và không chính xác trong dữ liệu thô để đảm bảo rằng tập dữ liệu được sử dụng để đào tạo hoặc phân tích có chất lượng cao, đáng tin cậy và phù hợp với mục đích dự định. Quá trình này rất cần thiết vì hiệu suất của các mô hình ML phụ thuộc rất nhiều vào chất lượng của dữ liệu đầu vào. Dữ liệu không chính xác hoặc không nhất quán có thể dẫn đến kết quả gây hiểu lầm, hiệu suất mô hình kém và kết luận không chính xác.

Tầm quan trọng của việc làm sạch dữ liệu trong AI và ML

Trong lĩnh vực AI và ML, dữ liệu là nhiên liệu cung cấp năng lượng cho các thuật toán và mô hình. Dữ liệu chất lượng cao cho phép các mô hình học hiệu quả, đưa ra dự đoán chính xác và khái quát hóa tốt với dữ liệu mới, chưa từng thấy. Việc dọn dẹp dữ liệu đóng vai trò then chốt trong việc đạt được điều này bằng cách đảm bảo rằng dữ liệu đưa vào các mô hình là chính xác, nhất quán và có liên quan. Nếu không dọn dẹp dữ liệu đúng cách, các mô hình có thể gặp phải các vấn đề như quá khớp , khi mô hình hoạt động tốt trên dữ liệu đào tạo nhưng kém trên dữ liệu mới hoặc dưới khớp , khi mô hình không nắm bắt được các mẫu cơ bản trong dữ liệu.

Kỹ thuật làm sạch dữ liệu phổ biến

Có một số kỹ thuật được sử dụng để làm sạch dữ liệu, tùy thuộc vào bản chất của dữ liệu và các vấn đề cụ thể hiện có. Một số kỹ thuật phổ biến nhất bao gồm:

  • Xử lý giá trị bị thiếu: Dữ liệu bị thiếu có thể được giải quyết bằng cách xóa các mục dữ liệu có giá trị bị thiếu hoặc tính toán chúng. Các phương pháp tính toán bao gồm thay thế các giá trị bị thiếu bằng giá trị trung bình, trung vị hoặc mốt của tính năng hoặc sử dụng các kỹ thuật tiên tiến hơn như tính toán hồi quy.
  • Phát hiện và xử lý giá trị ngoại lệ: Các giá trị ngoại lệ hoặc các điểm dữ liệu lệch đáng kể so với phần còn lại của tập dữ liệu có thể làm sai lệch kết quả phân tích. Các kỹ thuật như phương pháp IQR (Khoảng liên tứ phân vị) hoặc điểm Z có thể được sử dụng để xác định các giá trị ngoại lệ, sau đó có thể loại bỏ hoặc chuyển đổi.
  • Loại bỏ trùng lặp: Các mục nhập dữ liệu trùng lặp có thể dẫn đến việc biểu diễn quá mức một số mẫu nhất định trong dữ liệu. Việc xác định và loại bỏ các mục trùng lặp đảm bảo rằng tập dữ liệu phản ánh chính xác phân phối cơ bản.
  • Chuyển đổi dữ liệu: Bao gồm việc chuyển đổi dữ liệu sang định dạng phù hợp để phân tích. Các chuyển đổi phổ biến bao gồm chuẩn hóa, tức là chia tỷ lệ dữ liệu thành một phạm vi cụ thể và chuẩn hóa, tức là chuyển đổi dữ liệu thành có giá trị trung bình là 0 và độ lệch chuẩn là 1. Tìm hiểu thêm về chuẩn hóa trong học máy.
  • Giảm dữ liệu: Kỹ thuật này nhằm mục đích giảm kích thước của tập dữ liệu trong khi vẫn giữ nguyên các đặc điểm thiết yếu của nó. Các kỹ thuật như Phân tích thành phần chính (PCA) có thể được sử dụng để giảm chiều.
  • Phân loại dữ liệu: Bao gồm việc chuyển đổi dữ liệu liên tục thành các khoảng hoặc danh mục rời rạc, có thể hữu ích cho một số loại phân tích hoặc thuật toán nhất định.

Làm sạch dữ liệu so với các bước xử lý dữ liệu trước khác

Trong khi việc dọn dẹp dữ liệu là một thành phần quan trọng của quá trình tiền xử lý dữ liệu , thì nó lại khác biệt với các bước tiền xử lý khác. Việc dọn dẹp dữ liệu tập trung cụ thể vào việc xác định và sửa lỗi và sự không nhất quán trong dữ liệu. Ngược lại, việc chuyển đổi dữ liệu liên quan đến việc sửa đổi định dạng hoặc cấu trúc dữ liệu, và việc giảm dữ liệu nhằm mục đích giảm kích thước của tập dữ liệu trong khi vẫn giữ nguyên thông tin cần thiết của nó. Việc tăng cường dữ liệu liên quan đến việc tạo các điểm dữ liệu mới từ dữ liệu hiện có để tăng kích thước tập dữ liệu. Mỗi bước trong số này đóng một vai trò riêng trong việc chuẩn bị dữ liệu để phân tích và lập mô hình.

Ví dụ về việc làm sạch dữ liệu trong các ứng dụng thực tế

  1. Chăm sóc sức khỏe: Trong phân tích hình ảnh y tế, việc làm sạch dữ liệu có thể bao gồm việc loại bỏ hình ảnh có hiện tượng nhiễu, đảm bảo chất lượng hình ảnh nhất quán và chuẩn hóa định dạng hình ảnh. Ví dụ, khi đào tạo mô hình để phân tích hình ảnh y tế nhằm phát hiện khối u, điều quan trọng là phải loại bỏ hình ảnh có độ phân giải kém hoặc dán nhãn không chính xác.
  2. Xe tự hành: Để đào tạo xe tự hành , việc làm sạch dữ liệu là điều cần thiết để đảm bảo tính chính xác của hệ thống phát hiện và theo dõi đối tượng. Điều này có thể bao gồm việc xóa dữ liệu được thu thập trong quá trình cảm biến trục trặc, sửa các đối tượng được gắn nhãn sai và xử lý dữ liệu không nhất quán từ các cảm biến khác nhau.

Dọn dẹp dữ liệu là một bước không thể thiếu trong vòng đời dự án AI và ML. Bằng cách đảm bảo chất lượng và tính nhất quán của dữ liệu, nó cho phép phát triển các mô hình chính xác hơn, đáng tin cậy hơn và mạnh mẽ hơn. Đổi lại, điều này dẫn đến việc ra quyết định tốt hơn, cải thiện hiệu suất và có nhiều thông tin chi tiết có giá trị hơn từ dữ liệu. Điều quan trọng cần lưu ý là dọn dẹp dữ liệu là một quá trình lặp đi lặp lại và thường cần phải xem xét lại và tinh chỉnh các bước dọn dẹp khi dự án tiến triển và có được những thông tin chi tiết mới.

Đọc tất cả