Thuật ngữ

Dữ liệu đào tạo

Khám phá tầm quan trọng của dữ liệu đào tạo trong AI. Tìm hiểu cách các tập dữ liệu chất lượng cung cấp năng lượng cho các mô hình học máy chính xác, mạnh mẽ cho các tác vụ trong thế giới thực.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong lĩnh vực Trí tuệ nhân tạo (AI)Học máy (ML) , dữ liệu đào tạo là tập dữ liệu cơ bản được sử dụng để dạy các mô hình cách thực hiện các nhiệm vụ cụ thể, chẳng hạn như phân loại hoặc dự đoán. Nó bao gồm một tập hợp lớn các ví dụ, trong đó mỗi ví dụ thường ghép nối một đầu vào với một đầu ra hoặc nhãn mong muốn tương ứng. Thông qua các quy trình như Học có giám sát, mô hình phân tích dữ liệu này, xác định các mẫu và mối quan hệ cơ bản và điều chỉnh các tham số bên trong của nó ( trọng số mô hình ) để học cách ánh xạ từ đầu vào đến đầu ra. Việc học này cho phép mô hình đưa ra các dự đoán hoặc quyết định chính xác khi được trình bày với dữ liệu mới, chưa từng thấy trước đây.

Dữ liệu đào tạo là gì?

Hãy coi dữ liệu đào tạo như sách giáo khoa và bài tập thực hành cho một mô hình AI. Đó là một tập hợp thông tin được tuyển chọn cẩn thận được định dạng cụ thể để làm ví dụ trong giai đoạn học. Ví dụ, trong các tác vụ Thị giác máy tính (CV) như Phát hiện đối tượng , dữ liệu đào tạo bao gồm hình ảnh hoặc khung video ( các tính năng đầu vào ) được ghép nối với các chú thích (nhãn) chỉ định vị trí ( hộp giới hạn ) và loại đối tượng trong các hình ảnh đó. Việc tạo các nhãn này là một bước quan trọng được gọi là Ghi nhãn dữ liệu . Mô hình xử lý dữ liệu này theo từng bước, so sánh các dự đoán của nó với các nhãn thực và điều chỉnh các tham số của nó bằng các kỹ thuật như truyền ngượcgiảm dần độ dốc để giảm thiểu lỗi hoặc hàm mất mát .

Tầm quan trọng của dữ liệu đào tạo

Hiệu suất và độ tin cậy của mô hình AI có liên quan trực tiếp đến chất lượng, số lượng và tính đa dạng của dữ liệu đào tạo. Dữ liệu đại diện, chất lượng cao là điều cần thiết để xây dựng các mô hình đạt Độ chính xác cao và khái quát hóa tốt với các tình huống thực tế ( Tổng quát hóa trong ML ). Ngược lại, dữ liệu đào tạo không đủ, nhiễu hoặc thiên vị có thể dẫn đến các vấn đề đáng kể như hiệu suất kém, Quá khớp (khi mô hình hoạt động tốt trên dữ liệu đào tạo nhưng kém trên dữ liệu mới) hoặc kết quả không công bằng và phân biệt đối xử do Sai lệch tập dữ liệu vốn có. Giải quyết sai lệch là một khía cạnh quan trọng của Đạo đức AI . Do đó, việc thu thập dữ liệu, chú thích và chuẩn bị tỉ mỉ là các giai đoạn quan trọng trong việc phát triển các hệ thống AI thành công.

Ví dụ về dữ liệu đào tạo trong các ứng dụng thực tế

Dữ liệu đào tạo là nhiên liệu cho vô số ứng dụng AI trên nhiều lĩnh vực khác nhau. Sau đây là hai ví dụ:

  1. Xe tự hành : Xe tự lái phụ thuộc rất nhiều vào dữ liệu đào tạo cho các hệ thống nhận thức. Dữ liệu này bao gồm lượng lớn cảnh quay từ camera, LiDAR và cảm biến radar, được dán nhãn tỉ mỉ với các đối tượng như xe khác, người đi bộ, người đi xe đạp, đèn giao thông và vạch kẻ đường. Các mô hình như mô hình được sử dụng trong công nghệ của Waymo được đào tạo trên các tập dữ liệu như Argoverse để tìm hiểu cách điều hướng môi trường phức tạp một cách an toàn. Khám phá AI trong các giải pháp ô tô để biết thêm chi tiết.
  2. Phân tích tình cảm : Trong Xử lý ngôn ngữ tự nhiên (NLP) , các mô hình phân tích tình cảm xác định tông cảm xúc đằng sau văn bản. Dữ liệu đào tạo bao gồm các mẫu văn bản (ví dụ: đánh giá của khách hàng, bài đăng trên mạng xã hội) được gắn nhãn tình cảm như 'tích cực', 'tiêu cực' hoặc 'trung lập' ( Phân tích tình cảm - Wikipedia ). Điều này cho phép các doanh nghiệp đánh giá ý kiến công chúng hoặc sự hài lòng của khách hàng một cách tự động.

Chất lượng dữ liệu và chuẩn bị

Đảm bảo chất lượng cao của dữ liệu đào tạo là tối quan trọng và bao gồm một số bước chính. Data Cleaning (Wikipedia) giải quyết các lỗi, sự không nhất quán và các giá trị bị thiếu. Data Preprocessing chuyển đổi dữ liệu thô thành định dạng phù hợp cho mô hình. Các kỹ thuật như Data Augmentation mở rộng tập dữ liệu một cách giả tạo bằng cách tạo các bản sao đã sửa đổi của dữ liệu hiện có (ví dụ: xoay hoặc cắt hình ảnh), giúp cải thiện độ mạnh của mô hình và giảm tình trạng quá khớp. Hiểu dữ liệu của bạn thông qua quá trình khám phá, được hỗ trợ bởi các công cụ như Ultralytics Datasets Explorer , cũng rất quan trọng trước khi bắt đầu quá trình đào tạo .

Dữ liệu đào tạo so với dữ liệu xác thực và thử nghiệm

Trong một dự án ML điển hình, dữ liệu được chia thành ba tập riêng biệt:

  • Dữ liệu đào tạo: Phần lớn nhất, được sử dụng trực tiếp để đào tạo mô hình bằng cách điều chỉnh các tham số của nó. Đào tạo hiệu quả thường liên quan đến việc cân nhắc cẩn thận các mẹo đào tạo mô hình .
  • Dữ liệu xác thực : Một tập hợp con riêng biệt được sử dụng định kỳ trong quá trình đào tạo để đánh giá hiệu suất của mô hình trên dữ liệu mà nó chưa học được một cách rõ ràng. Điều này giúp điều chỉnh Siêu tham số (ví dụ: tốc độ học , kích thước lô ) thông qua các quy trình như Tối ưu hóa siêu tham số (Wikipedia) và cung cấp cảnh báo sớm chống lại tình trạng quá khớp. Chế độ xác thực được sử dụng cho đánh giá này.
  • Dữ liệu thử nghiệm : Một tập dữ liệu độc lập, không nhìn thấy trong quá trình đào tạo và xác thực, chỉ được sử dụng sau khi mô hình được đào tạo đầy đủ. Nó cung cấp đánh giá cuối cùng, khách quan về khả năng khái quát hóa của mô hình và hiệu suất mong đợi trong thế giới thực. Kiểm tra mô hình nghiêm ngặt là rất quan trọng trước khi triển khai.

Việc duy trì sự tách biệt chặt chẽ giữa các tập dữ liệu này là điều cần thiết để phát triển các mô hình đáng tin cậy và đánh giá chính xác khả năng của chúng. Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý các tập dữ liệu này một cách hiệu quả trong suốt vòng đời phát triển mô hình . Các mô hình tiên tiến như Ultralytics YOLO thường được đào tạo trước trên các tập dữ liệu chuẩn lớn như COCO hoặc ImageNet , đóng vai trò là dữ liệu đào tạo mở rộng.

Đọc tất cả