Thuật ngữ

Dữ liệu thử nghiệm

Khám phá tầm quan trọng của dữ liệu thử nghiệm trong AI, vai trò của nó trong việc đánh giá hiệu suất mô hình, phát hiện tình trạng quá khớp và đảm bảo độ tin cậy trong thế giới thực.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Dữ liệu thử nghiệm là một thành phần quan trọng trong vòng đời phát triển Học máy (ML) . Nó đề cập đến một tập dữ liệu độc lập, tách biệt với các tập huấn luyện và xác thực, được sử dụng riêng cho việc đánh giá cuối cùng về hiệu suất của mô hình sau khi các giai đoạn huấn luyện và điều chỉnh hoàn tất. Tập dữ liệu này chứa các điểm dữ liệu mà mô hình chưa từng gặp trước đây, cung cấp đánh giá khách quan về khả năng mô hình hoạt động tốt như thế nào trên dữ liệu mới, thực tế. Mục tiêu chính của việc sử dụng dữ liệu thử nghiệm là ước tính khả năng khái quát hóa của mô hình - khả năng thực hiện chính xác của mô hình trên các đầu vào chưa thấy.

Tầm quan trọng của dữ liệu thử nghiệm

Đo lường thực sự về thành công của mô hình ML nằm ở khả năng xử lý dữ liệu mà nó không được đào tạo rõ ràng. Dữ liệu thử nghiệm đóng vai trò là điểm kiểm tra cuối cùng, cung cấp đánh giá khách quan về hiệu suất của mô hình. Nếu không có bộ thử nghiệm chuyên dụng, sẽ có nguy cơ cao xảy ra tình trạng quá khớp , khi mô hình học dữ liệu đào tạo quá tốt, bao gồm cả nhiễu và các mẫu cụ thể, nhưng không thể khái quát hóa thành dữ liệu mới. Sử dụng dữ liệu thử nghiệm giúp đảm bảo rằng các số liệu hiệu suất được báo cáo phản ánh khả năng thực tế dự kiến của mô hình, xây dựng sự tự tin trước khi triển khai mô hình . Bước đánh giá cuối cùng này rất quan trọng để so sánh các mô hình hoặc phương pháp khác nhau một cách đáng tin cậy, chẳng hạn như so sánh YOLOv8 với YOLOv9 . Nó phù hợp với các thông lệ tốt nhất như những thông lệ được nêu trong Quy tắc ML của Google .

Đặc điểm chính

Để có hiệu quả, dữ liệu thử nghiệm phải có một số đặc điểm sau:

  • Tính đại diện: Nó phải phản ánh chính xác các đặc điểm của dữ liệu thực tế mà mô hình sẽ gặp phải sau khi triển khai. Điều này bao gồm các phân phối tương tự của các tính năng, lớp và các biến thể tiềm ẩn. Thu thập dữ liệu tốt và thực hành chú thích là điều cần thiết.
  • Độc lập: Dữ liệu thử nghiệm phải tách biệt hoàn toàn với các tập huấn luyện và xác thực. Không bao giờ được sử dụng để huấn luyện mô hình hoặc điều chỉnh siêu tham số của nó. Bất kỳ sự chồng chéo hoặc rò rỉ nào cũng có thể dẫn đến ước tính hiệu suất quá lạc quan.
  • Kích thước đủ: Bộ kiểm tra cần phải đủ lớn để cung cấp kết quả có ý nghĩa về mặt thống kê và ước tính hiệu suất của mô hình một cách đáng tin cậy.

Dữ liệu thử nghiệm so với dữ liệu đào tạo và xác thực

Điều cần thiết là phải phân biệt dữ liệu thử nghiệm với các phân chia dữ liệu khác được sử dụng trong ML:

  • Dữ liệu đào tạo : Đây là phần lớn nhất của tập dữ liệu, được sử dụng trực tiếp để đào tạo mô hình. Mô hình học các mẫu và mối quan hệ từ dữ liệu này thông qua các thuật toán như Học có giám sát .
  • Dữ liệu xác thực : Bộ dữ liệu riêng biệt này được sử dụng trong giai đoạn đào tạo để điều chỉnh các siêu tham số mô hình (như lựa chọn kiến trúc hoặc cài đặt tối ưu hóa) và đưa ra quyết định về quy trình đào tạo (ví dụ: dừng sớm). Nó cung cấp phản hồi về mức độ tổng quát hóa của mô hình trong quá trình đào tạo, hướng dẫn quá trình đánh giá và tinh chỉnh mô hình mà không sử dụng bộ kiểm tra cuối cùng.
  • Dữ liệu thử nghiệm: Chỉ được sử dụng một lần sau khi hoàn tất quá trình đào tạo và xác thực để cung cấp đánh giá cuối cùng, khách quan về hiệu suất của mô hình trên dữ liệu chưa biết.

Việc phân tách hợp lý các tập dữ liệu này bằng các chiến lược như phân chia dữ liệu cẩn thận là rất quan trọng để phát triển các mô hình đáng tin cậy và đánh giá chính xác khả năng thực tế của chúng.

Ví dụ thực tế

  1. Lái xe tự động: Một mô hình YOLO Ultralytics được đào tạo để phát hiện vật thể trong xe tự lái sẽ được đánh giá trên một bộ thử nghiệm bao gồm nhiều tình huống lái xe khác nhau, chưa từng thấy trước đây (ví dụ: lái xe ban đêm, mưa lớn, giao lộ lạ). Điều này đảm bảo mô hình phát hiện người đi bộ, người đi xe đạp và các phương tiện khác một cách đáng tin cậy ( công nghệ của Waymo phụ thuộc rất nhiều vào các thử nghiệm như vậy) trước khi triển khai trên các phương tiện thực tế.
  2. Chẩn đoán y khoa: Trong phân tích hình ảnh y khoa , một mô hình được đào tạo để phát hiện khối u bằng dữ liệu như Bộ dữ liệu phát hiện khối u não phải được đánh giá trên một bộ quét thử nghiệm từ các bệnh viện, máy móc và quần thể bệnh nhân khác nhau không phải là một phần của quá trình đào tạo hoặc xác thực. Điều này xác nhận độ chính xácđộ mạnh của chẩn đoán mô hình trong các bối cảnh lâm sàng thực tế.

Đánh giá và Quản lý

Hiệu suất trên bộ kiểm tra thường được đo bằng các số liệu liên quan đến nhiệm vụ, chẳng hạn như độ chính xác , Độ chính xác trung bình (mAP) hoặc các số liệu khác được nêu chi tiết trong các hướng dẫn như tài liệu YOLO Performance Metrics . Thông thường, các mô hình được đánh giá dựa trên các tập dữ liệu chuẩn đã thiết lập như COCO để đảm bảo so sánh công bằng và thúc đẩy khả năng tái tạo . Việc quản lý các tập dữ liệu riêng biệt này trong suốt vòng đời của dự án được tạo điều kiện thuận lợi bởi các nền tảng như Ultralytics HUB , giúp sắp xếp các phần chia dữ liệu và theo dõi các thử nghiệm một cách hiệu quả.

Đọc tất cả