Khám phá tầm quan trọng của dữ liệu đào tạo trong AI. Tìm hiểu cách các tập dữ liệu chất lượng cung cấp năng lượng cho các mô hình học máy chính xác, mạnh mẽ cho các tác vụ trong thế giới thực.
Trong lĩnh vực Trí tuệ nhân tạo (AI) và Học máy (ML) , dữ liệu đào tạo là tập dữ liệu cơ bản được sử dụng để dạy các mô hình cách thực hiện các nhiệm vụ cụ thể, chẳng hạn như phân loại hoặc dự đoán. Nó bao gồm một tập hợp lớn các ví dụ, trong đó mỗi ví dụ thường ghép nối một đầu vào với một đầu ra hoặc nhãn mong muốn tương ứng. Thông qua các quy trình như Học có giám sát, mô hình phân tích dữ liệu này, xác định các mẫu và mối quan hệ cơ bản và điều chỉnh các tham số bên trong của nó ( trọng số mô hình ) để học cách ánh xạ từ đầu vào đến đầu ra. Việc học này cho phép mô hình đưa ra các dự đoán hoặc quyết định chính xác khi được trình bày với dữ liệu mới, chưa từng thấy trước đây.
Hãy coi dữ liệu đào tạo như sách giáo khoa và bài tập thực hành cho một mô hình AI. Đó là một tập hợp thông tin được tuyển chọn cẩn thận được định dạng cụ thể để làm ví dụ trong giai đoạn học. Ví dụ, trong các tác vụ Thị giác máy tính (CV) như Phát hiện đối tượng , dữ liệu đào tạo bao gồm hình ảnh hoặc khung video ( các tính năng đầu vào ) được ghép nối với các chú thích (nhãn) chỉ định vị trí ( hộp giới hạn ) và loại đối tượng trong các hình ảnh đó. Việc tạo các nhãn này là một bước quan trọng được gọi là Ghi nhãn dữ liệu . Mô hình xử lý dữ liệu này theo từng bước, so sánh các dự đoán của nó với các nhãn thực và điều chỉnh các tham số của nó bằng các kỹ thuật như truyền ngược và giảm dần độ dốc để giảm thiểu lỗi hoặc hàm mất mát .
Hiệu suất và độ tin cậy của mô hình AI có liên quan trực tiếp đến chất lượng, số lượng và tính đa dạng của dữ liệu đào tạo. Dữ liệu đại diện, chất lượng cao là điều cần thiết để xây dựng các mô hình đạt Độ chính xác cao và khái quát hóa tốt với các tình huống thực tế ( Tổng quát hóa trong ML ). Ngược lại, dữ liệu đào tạo không đủ, nhiễu hoặc thiên vị có thể dẫn đến các vấn đề đáng kể như hiệu suất kém, Quá khớp (khi mô hình hoạt động tốt trên dữ liệu đào tạo nhưng kém trên dữ liệu mới) hoặc kết quả không công bằng và phân biệt đối xử do Sai lệch tập dữ liệu vốn có. Giải quyết sai lệch là một khía cạnh quan trọng của Đạo đức AI . Do đó, việc thu thập dữ liệu, chú thích và chuẩn bị tỉ mỉ là các giai đoạn quan trọng trong việc phát triển các hệ thống AI thành công.
Dữ liệu đào tạo là nhiên liệu cho vô số ứng dụng AI trên nhiều lĩnh vực khác nhau. Sau đây là hai ví dụ:
Đảm bảo chất lượng cao của dữ liệu đào tạo là tối quan trọng và bao gồm một số bước chính. Data Cleaning (Wikipedia) giải quyết các lỗi, sự không nhất quán và các giá trị bị thiếu. Data Preprocessing chuyển đổi dữ liệu thô thành định dạng phù hợp cho mô hình. Các kỹ thuật như Data Augmentation mở rộng tập dữ liệu một cách giả tạo bằng cách tạo các bản sao đã sửa đổi của dữ liệu hiện có (ví dụ: xoay hoặc cắt hình ảnh), giúp cải thiện độ mạnh của mô hình và giảm tình trạng quá khớp. Hiểu dữ liệu của bạn thông qua quá trình khám phá, được hỗ trợ bởi các công cụ như Ultralytics Datasets Explorer , cũng rất quan trọng trước khi bắt đầu quá trình đào tạo .
Trong một dự án ML điển hình, dữ liệu được chia thành ba tập riêng biệt:
Việc duy trì sự tách biệt chặt chẽ giữa các tập dữ liệu này là điều cần thiết để phát triển các mô hình đáng tin cậy và đánh giá chính xác khả năng của chúng. Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý các tập dữ liệu này một cách hiệu quả trong suốt vòng đời phát triển mô hình . Các mô hình tiên tiến như Ultralytics YOLO thường được đào tạo trước trên các tập dữ liệu chuẩn lớn như COCO hoặc ImageNet , đóng vai trò là dữ liệu đào tạo mở rộng.