Thuật ngữ

Tiền xử lý dữ liệu

Xử lý dữ liệu chính cho máy học. Tìm hiểu các kỹ thuật như làm sạch, mở rộng quy mô và mã hóa để tăng độ chính xác và hiệu suất của mô hình.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Tiền xử lý dữ liệu đề cập đến các bước quan trọng được thực hiện để làm sạch, chuyển đổi và sắp xếp dữ liệu thô thành định dạng phù hợp trước khi đưa vào mô hình Học máy (ML) . Dữ liệu thô được thu thập từ thế giới thực thường không đầy đủ, không nhất quán và chứa lỗi hoặc nhiễu. Tiền xử lý nhằm mục đích giải quyết các vấn đề này, cải thiện đáng kể chất lượng dữ liệu và do đó, cải thiện hiệu suất, độ chính xác và độ tin cậy của các mô hình ML được đào tạo trên đó. Đây là giai đoạn cơ bản trong bất kỳ dự án nào dựa trên dữ liệu, bao gồm cả những dự án trong Trí tuệ nhân tạo (AI)Thị giác máy tính (CV) .

Tại sao xử lý dữ liệu trước lại quan trọng?

Các mô hình học máy học các mẫu từ dữ liệu. Nếu dữ liệu bị lỗi, mô hình sẽ học các mẫu không chính xác, dẫn đến các dự đoán và quyết định kém. Dữ liệu chất lượng cao, được chuẩn bị tốt là điều cần thiết để xây dựng các mô hình mạnh mẽ như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng . Xử lý dữ liệu hiệu quả giúp:

  • Cải thiện độ chính xác của mô hình: Dữ liệu sạch sẽ tạo ra các mô hình chính xác hơn.
  • Giảm thời gian đào tạo: Việc loại bỏ dữ liệu không liên quan hoặc dư thừa có thể đẩy nhanh quá trình đào tạo.
  • Tránh lỗi: Xử lý sự không nhất quán giúp ngăn chặn các mô hình học được những mối tương quan không mong muốn.
  • Nâng cao khả năng khái quát hóa: Dữ liệu được xử lý trước đúng cách giúp các mô hình hoạt động tốt hơn trên dữ liệu chưa biết, giảm hiện tượng quá khớp .

Kỹ thuật tiền xử lý dữ liệu phổ biến

Một số kỹ thuật thường được sử dụng trong quá trình xử lý dữ liệu trước:

  • Dọn dẹp dữ liệu : Bao gồm việc xác định và xử lý lỗi, sự không nhất quán, giá trị bị thiếu (tính toán) và giá trị ngoại lai trong tập dữ liệu. Đảm bảo dữ liệu chính xác và nhất quán.
  • Chuyển đổi dữ liệu: Bao gồm các kỹ thuật như:
    • Chuẩn hóa /Tỷ lệ: Điều chỉnh phạm vi hoặc phân phối các đặc điểm số (ví dụ: tỷ lệ giá trị pixel trong hình ảnh từ 0-255 thành 0-1). Điều này đảm bảo các đặc điểm có giá trị lớn hơn không ảnh hưởng không cân xứng đến mô hình.
    • Mã hóa các biến phân loại: Chuyển đổi dữ liệu không phải dạng số (như danh mục hoặc nhãn) thành định dạng số mà mô hình có thể hiểu được, bằng cách sử dụng các phương pháp như mã hóa one-hot.
  • Kỹ thuật tính năng : Tạo các tính năng mới, có khả năng cung cấp nhiều thông tin hơn từ các tính năng hiện có để cải thiện hiệu suất của mô hình.
  • Trích xuất tính năng : Tự động trích xuất các tính năng mới, ít chiều hơn từ dữ liệu gốc, thường được sử dụng trong xử lý hình ảnh.
  • Giảm chiều : Giảm số lượng các tính năng đầu vào trong khi vẫn giữ nguyên thông tin quan trọng, có thể đơn giản hóa các mô hình và giảm chi phí tính toán. Các kỹ thuật như Phân tích thành phần chính (PCA) là phổ biến.
  • Tiền xử lý hình ảnh : Cụ thể đối với thị giác máy tính, bao gồm việc thay đổi kích thước hình ảnh thành kích thước đồng nhất, chuyển đổi không gian màu (ví dụ: RGB sang thang độ xám) và áp dụng bộ lọc để giảm nhiễu. Bạn có thể tìm thêm thông tin chi tiết trong hướng dẫn Ultralytics về tiền xử lý dữ liệu có chú thích .

Ứng dụng trong thế giới thực

  1. Thị giác máy tính cho xe tự hành : Dữ liệu hình ảnh từ camera cần được xử lý trước rộng rãi. Điều này bao gồm thay đổi kích thước hình ảnh, chuẩn hóa cường độ điểm ảnh, hiệu chỉnh độ méo của ống kính và áp dụng các kỹ thuật tăng cường dữ liệu như xoay ngẫu nhiên hoặc điều chỉnh độ sáng để làm cho các mô hình phát hiện đối tượng mạnh mẽ trong các điều kiện khác nhau. Các nền tảng như Ultralytics HUB có thể giúp quản lý các tập dữ liệu này.
  2. Bảo trì dự đoán trong sản xuất : Dữ liệu cảm biến (nhiệt độ, độ rung, áp suất) từ máy móc thường bị nhiễu và có thể chứa các số liệu bị thiếu. Tiền xử lý bao gồm việc làm sạch dữ liệu này bằng cách lọc nhiễu, đưa vào các giá trị bị thiếu bằng các phương pháp thống kê và chuẩn hóa các số liệu cảm biến trước khi đưa chúng vào mô hình ML để dự đoán lỗi thiết bị, như đã thảo luận trong AI trong sản xuất .

Tiền xử lý dữ liệu so với các khái niệm liên quan

  • Dọn dẹp dữ liệu so với Xử lý trước dữ liệu : Dọn dẹp dữ liệu là một tập hợp con của xử lý trước dữ liệu, tập trung cụ thể vào việc xử lý lỗi, giá trị bị thiếu và sự không nhất quán. Xử lý trước dữ liệu rộng hơn, bao gồm việc dọn dẹp, chuyển đổi và thao tác tính năng.
  • Ghi nhãn dữ liệu so với Xử lý trước dữ liệu : Ghi nhãn dữ liệu bao gồm việc thêm các thẻ thông tin hoặc chú thích (như hộp giới hạn để phát hiện đối tượng) vào dữ liệu thô, cung cấp sự thật cơ bản cho việc học có giám sát . Điều này thường xảy ra trước khi xử lý trước dữ liệu, sau đó chuẩn bị dữ liệu được gắn nhãn để đào tạo mô hình. Xem hướng dẫn Thu thập và chú thích dữ liệu để biết thêm ngữ cảnh.
  • Tăng cường dữ liệu so với tiền xử lý dữ liệu : Tăng cường dữ liệu làm tăng kích thước và tính đa dạng của tập dữ liệu đào tạo một cách giả tạo bằng cách tạo các bản sao đã sửa đổi của dữ liệu hiện có (ví dụ: lật hình ảnh, thêm nhiễu). Mặc dù có liên quan chặt chẽ và thường được áp dụng cùng với các bước tiền xử lý, mục tiêu chính của nó là cải thiện khái quát hóa mô hình thay vì chỉ làm sạch hoặc định dạng dữ liệu. Khám phá các mẹo đào tạo mô hình thường liên quan đến việc tăng cường.

Công cụ và Tài nguyên

Nhiều thư viện và công cụ khác nhau hỗ trợ quá trình xử lý dữ liệu trước:

  • Gấu trúc : Một loài phổ biến Python thư viện để xử lý và phân tích dữ liệu, tuyệt vời cho việc dọn dẹp và chuyển đổi dữ liệu dạng bảng.
  • Học theo khoa học viễn tưởng: Cung cấp nhiều công cụ xử lý trước, bao gồm bộ chia tỷ lệ, bộ mã hóa và phương pháp tính toán trong preprocessing mô-đun.
  • OpenCV : Một thư viện quan trọng cho các tác vụ thị giác máy tính, cung cấp các chức năng mở rộng cho quá trình xử lý trước hình ảnh.
  • NumPy : Gói cơ bản cho tính toán số trong Python , thường được sử dụng để thao tác mảng trong quá trình xử lý trước.
  • Tài liệu Ultralytics : Cung cấp hướng dẫn và ví dụ liên quan đến việc xử lý dữ liệu cho YOLO mô hình.

Tóm lại, xử lý dữ liệu trước là một bước không thể thiếu trong quy trình học máy , đảm bảo dữ liệu ở trạng thái tốt nhất có thể để đào tạo mô hình, tạo ra các hệ thống AI đáng tin cậy và chính xác hơn.

Đọc tất cả