Thuật ngữ

Tiền xử lý dữ liệu

Xử lý dữ liệu chính cho máy học. Tìm hiểu các kỹ thuật như làm sạch, mở rộng quy mô và mã hóa để tăng độ chính xác và hiệu suất của mô hình.

Tiền xử lý dữ liệu là một bước quan trọng trong quy trình học máy (ML) , bao gồm việc làm sạch, chuyển đổi và sắp xếp dữ liệu thô để phù hợp cho việc huấn luyện và xây dựng mô hình. Dữ liệu thô từ thế giới thực thường không đầy đủ, không nhất quán và có thể chứa lỗi. Tiền xử lý chuyển đổi dữ liệu hỗn độn này thành một định dạng sạch, có cấu trúc tốt, điều này rất cần thiết để mô hình học hiệu quả. Chất lượng dự đoán của mô hình phụ thuộc rất nhiều vào chất lượng dữ liệu mà nó được huấn luyện, khiến tiền xử lý dữ liệu trở thành một hoạt động nền tảng để đạt được độ chính xác cao và hiệu suất đáng tin cậy trong các hệ thống AI .

Nhiệm vụ chính trong quá trình tiền xử lý dữ liệu

Tiền xử lý dữ liệu là một thuật ngữ rộng bao gồm nhiều kỹ thuật khác nhau để chuẩn bị dữ liệu. Các bước cụ thể phụ thuộc vào tập dữ liệu và tác vụ ML, nhưng các tác vụ phổ biến bao gồm:

  • Làm sạch dữ liệu : Đây là quá trình xác định và sửa chữa hoặc loại bỏ lỗi, sự không nhất quán và các giá trị bị thiếu khỏi một tập dữ liệu. Quá trình này có thể bao gồm việc bổ sung dữ liệu bị thiếu bằng các phương pháp thống kê hoặc loại bỏ các mục trùng lặp. Dữ liệu sạch là nền tảng của bất kỳ mô hình đáng tin cậy nào.
  • Chuyển đổi dữ liệu : Điều này liên quan đến việc thay đổi tỷ lệ hoặc phân phối dữ liệu. Một kỹ thuật phổ biến là chuẩn hóa , giúp điều chỉnh tỷ lệ các đặc điểm số theo một phạm vi chuẩn (ví dụ: từ 0 đến 1) để ngăn các đặc điểm có tỷ lệ lớn hơn lấn át quá trình học. Bạn có thể tìm hiểu thêm về các phương pháp điều chỉnh tỷ lệ khác nhau trong tài liệu tiền xử lý scikit-learn .
  • Kỹ thuật Đặc trưng : Đây là quá trình sáng tạo tạo ra các đặc trưng mới từ các đặc trưng hiện có để cải thiện hiệu suất mô hình. Quá trình này có thể bao gồm việc kết hợp, phân tích các đặc trưng hoặc sử dụng kiến thức chuyên ngành để trích xuất thông tin có ý nghĩa hơn. Một khái niệm liên quan là trích xuất đặc trưng , tự động giảm số chiều của dữ liệu.
  • Mã hóa dữ liệu phân loại: Nhiều thuật toán ML yêu cầu dữ liệu đầu vào dạng số. Tiền xử lý thường bao gồm việc chuyển đổi dữ liệu phân loại (như nhãn văn bản) sang định dạng số thông qua các kỹ thuật như mã hóa one-hot.
  • Thay đổi kích thước và Tăng cường: Trong thị giác máy tính (CV) , tiền xử lý bao gồm việc thay đổi kích thước hình ảnh về một kích thước đồng nhất. Quá trình này cũng có thể được tiếp nối bằng tăng cường dữ liệu , tức là mở rộng tập dữ liệu một cách nhân tạo bằng cách tạo ra các phiên bản hình ảnh đã được sửa đổi.

Ứng dụng AI/ML trong thế giới thực

Tiền xử lý dữ liệu là một yêu cầu phổ biến trong mọi lĩnh vực AI. Ứng dụng của nó rất quan trọng để thành công trong cả các tác vụ đơn giản và phức tạp.

  1. Phân tích hình ảnh y tế: Trước khi mô hình YOLO có thể được huấn luyện để phát hiện khối u trong ảnh chụp MRI từ một tập dữ liệu như tập dữ liệu U Não , hình ảnh phải được xử lý trước. Quá trình này bao gồm việc chuẩn hóa các giá trị cường độ điểm ảnh để tính đến sự khác biệt về thiết bị quét, thay đổi kích thước tất cả hình ảnh về kích thước đầu vào nhất quán theo yêu cầu của xương sống mô hình, và làm sạch tập dữ liệu để loại bỏ các tệp bị hỏng hoặc các ví dụ bị gắn nhãn sai. Điều này đảm bảo mạng nơ-ron tích chập (CNN) học được các đặc điểm bệnh lý thực sự của mô hình thay vì các biến thể trong hình ảnh. Bạn có thể tìm hiểu thêm về điều này trong bài viết của chúng tôi về việc sử dụng YOLO để phát hiện khối u .
  2. Dự báo Bán lẻ Hỗ trợ AI: Đối với một mô hình dự đoán nhu cầu khách hàng trong lĩnh vực bán lẻ , dữ liệu bán hàng thô thường chứa các bản ghi giao dịch bị thiếu, tên sản phẩm không nhất quán và các tính năng ở các thang đo rất khác nhau (ví dụ: "giá mặt hàng" so với "số lượng mặt hàng đã bán"). Tiền xử lý ở đây bao gồm việc nhập các số liệu bán hàng bị thiếu, chuẩn hóa tên sản phẩm và chuẩn hóa các tính năng số để thuật toán mô hình dự đoán có thể cân nhắc hiệu quả tầm quan trọng của từng yếu tố. Tổng quan về tiền xử lý cho doanh nghiệp sẽ nêu bật các bước này.

Tiền xử lý dữ liệu so với các khái niệm liên quan

Việc phân biệt quá trình xử lý dữ liệu trước với các thuật ngữ quản lý dữ liệu liên quan khác sẽ rất hữu ích.

  • Làm sạch dữ liệu : Như đã đề cập, làm sạch dữ liệu là một phần của tiền xử lý dữ liệu. Trong khi tiền xử lý là toàn bộ quá trình chuẩn bị dữ liệu cho mô hình, thì làm sạch tập trung cụ thể vào việc sửa lỗi, xử lý các giá trị bị thiếu và loại bỏ các điểm không nhất quán trong tập dữ liệu thô.
  • Tăng cường dữ liệu : Tăng cường dữ liệu là một kỹ thuật được sử dụng để tăng kích thước dữ liệu huấn luyện một cách nhân tạo. Mặc dù là một phần của quá trình chuẩn bị dữ liệu cho huấn luyện, nhưng nó thường được áp dụng sau khi các bước tiền xử lý ban đầu như làm sạch và thay đổi kích thước đã hoàn tất trên tập dữ liệu gốc. Mục tiêu của tăng cường là cải thiện khả năng khái quát hóa mô hình, trong khi tiền xử lý nhằm mục đích làm cho dữ liệu gốc có thể sử dụng được.
  • Phân tích dữ liệu : Phân tích dữ liệu là một lĩnh vực rộng hơn nhiều, bao gồm việc kiểm tra các tập dữ liệu để rút ra kết luận và hỗ trợ việc ra quyết định. Tiền xử lý dữ liệu là bước đầu tiên cơ bản trong quy trình phân tích dữ liệu, bao gồm phân tích dữ liệu thăm dò (EDA), mô hình hóa và trực quan hóa dữ liệu .

Các nền tảng như Ultralytics HUB có thể giúp quản lý tập dữ liệu và hợp lý hóa vòng đời ML, từ khâu chuẩn bị dữ liệu đến triển khai mô hình . Hướng dẫn về xử lý trước dữ liệu chú thích cung cấp thêm những hiểu biết thực tế.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard