Thuật ngữ

Dữ liệu xác thực

Tối ưu hóa các mô hình học máy với dữ liệu xác thực để ngăn ngừa tình trạng quá khớp, điều chỉnh siêu tham số và đảm bảo hiệu suất mạnh mẽ trong thế giới thực.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Dữ liệu xác thực là một thành phần quan trọng trong chu trình phát triển Học máy (ML) . Đây là một tập hợp con riêng biệt của tập dữ liệu gốc, khác với dữ liệu đào tạo được sử dụng để phù hợp với mô hình và dữ liệu thử nghiệm được sử dụng để đánh giá cuối cùng. Mục đích chính của dữ liệu xác thực là cung cấp đánh giá khách quan về mức độ phù hợp của mô hình trên tập dữ liệu đào tạo trong khi điều chỉnh siêu tham số mô hình và đưa ra quyết định về kiến trúc của mô hình. Quá trình này giúp lựa chọn cấu hình mô hình tốt nhất trước khi đánh giá hiệu suất cuối cùng của mô hình trên dữ liệu chưa biết.

Vai trò của dữ liệu xác thực

Trong quá trình đào tạo mô hình , mô hình ML học các mẫu từ dữ liệu đào tạo. Tuy nhiên, việc đánh giá mô hình chỉ dựa trên dữ liệu này có thể gây hiểu lầm, vì mô hình có thể chỉ ghi nhớ các ví dụ đào tạo, một hiện tượng được gọi là quá khớp . Dữ liệu xác thực đóng vai trò là điểm kiểm tra. Bằng cách đánh giá hiệu suất của mô hình trên tập hợp riêng biệt này theo định kỳ trong quá trình đào tạo, các nhà phát triển có thể:

  1. Điều chỉnh siêu tham số: Điều chỉnh các thiết lập như tốc độ học , kích thước lô hoặc độ phức tạp của mô hình dựa trên số liệu hiệu suất ( Độ chính xác , mAP , v.v.) được tính toán trên bộ xác thực. Điều này thường được thực hiện bằng các kỹ thuật được thảo luận trong hướng dẫn điều chỉnh siêu tham số .
  2. Chọn mô hình: So sánh các kiến trúc hoặc phiên bản mô hình khác nhau (ví dụ: so sánh Ultralytics YOLOv8 với YOLOv10 ) dựa trên hiệu suất xác thực của chúng.
  3. Ngăn chặn tình trạng quá khớp: Theo dõi số liệu xác thực để phát hiện khi mô hình bắt đầu hoạt động kém hơn trên tập xác thực ngay cả khi hiệu suất đào tạo được cải thiện, cho thấy tình trạng quá khớp. Các kỹ thuật như dừng sớm phụ thuộc vào hiệu suất xác thực.

Dữ liệu xác thực so với dữ liệu đào tạo và thử nghiệm

Hiểu được sự khác biệt giữa các tập dữ liệu đào tạo, xác thực và thử nghiệm là điều cơ bản để phát triển mô hình mạnh mẽ:

  • Dữ liệu đào tạo : Phần lớn nhất của tập dữ liệu, được thuật toán học tập sử dụng trực tiếp để học các mẫu và điều chỉnh trọng số mô hình. Mô hình "nhìn thấy" dữ liệu này thường xuyên trong các vòng đào tạo ( epoch ).
  • Dữ liệu xác thực: Một phần nhỏ hơn được sử dụng gián tiếp trong quá trình đào tạo. Mô hình không học trực tiếp từ dữ liệu này, nhưng hiệu suất trên tập này hướng dẫn các quyết định về siêu tham số và cấu trúc mô hình. Nó cung cấp phản hồi về mức độ mô hình có thể khái quát hóa tốt như thế nào đối với dữ liệu mới trong giai đoạn phát triển.
  • Dữ liệu thử nghiệm : Một phần dữ liệu hoàn toàn riêng biệt mà mô hình chưa từng thấy trong quá trình đào tạo hoặc xác thực. Nó chỉ được sử dụng một lần sau khi tất cả quá trình đào tạo và điều chỉnh hoàn tất để cung cấp ước tính cuối cùng, không thiên vị về khả năng khái quát hóa của mô hình trên dữ liệu thực tế chưa từng thấy.

Việc phân tách hợp lý, thường được quản lý bằng các công cụ như Ultralytics HUB để quản lý và kiểm soát phiên bản tập dữ liệu, đảm bảo rằng thông tin từ tập kiểm tra không "rò rỉ" vào quá trình đào tạo hoặc lựa chọn mô hình, điều này sẽ dẫn đến ước tính hiệu suất quá lạc quan.

Điều chỉnh siêu tham số và lựa chọn mô hình

Dữ liệu xác thực là không thể thiếu để điều chỉnh siêu tham số . Siêu tham số là các thiết lập cấu hình bên ngoài mô hình, được thiết lập trước khi quá trình học bắt đầu. Ví dụ bao gồm tốc độ học, số lớp trong mạng nơ-ron hoặc loại thuật toán tối ưu hóa được sử dụng. Các nhà phát triển đào tạo nhiều phiên bản mô hình với các kết hợp siêu tham số khác nhau, đánh giá từng kết hợp trên bộ xác thực và chọn kết hợp mang lại hiệu suất tốt nhất. Tìm kiếm có hệ thống này có thể được tự động hóa bằng các phương pháp như Tìm kiếm lưới hoặc Tối ưu hóa Bayes, thường được tạo điều kiện thuận lợi bởi các nền tảng tích hợp với các công cụ MLOps .

Ví dụ thực tế

  1. Phát hiện đối tượng thị giác máy tính : Khi đào tạo mô hình YOLO Ultralytics để phát hiện đối tượng trong hình ảnh (ví dụ, sử dụng tập dữ liệu VisDrone ), một phần hình ảnh được gắn nhãn sẽ được dành riêng làm dữ liệu xác thực. Trong quá trình đào tạo, mAP (Độ chính xác trung bình trung bình) của mô hình được tính toán trên tập xác thực này sau mỗi kỷ nguyên. mAP xác thực này giúp quyết định khi nào dừng đào tạo (dừng sớm) hoặc tập hợp các kỹ thuật tăng cường dữ liệu nào hoạt động tốt nhất, trước khi kiểm tra hiệu suất cuối cùng trên tập kiểm tra. Các chiến lược đánh giá mô hình hiệu quả phụ thuộc rất nhiều vào sự phân chia này.
  2. Phân loại văn bản xử lý ngôn ngữ tự nhiên : Trong quá trình phát triển mô hình để phân loại đánh giá của khách hàng là tích cực hay tiêu cực ( phân tích tình cảm ), một bộ xác thực được sử dụng để chọn kiến trúc tối ưu (ví dụ: LSTM so với Transformer ) hoặc điều chỉnh các siêu tham số như tỷ lệ bỏ học . Mô hình đạt điểm F1 hoặc độ chính xác cao nhất trên bộ xác thực sẽ được chọn để thử nghiệm cuối cùng. Các nguồn như Hugging Face thường cung cấp các tập dữ liệu được chia trước cho mục đích này.

Xác thực chéo

Khi lượng dữ liệu có sẵn bị hạn chế, một kỹ thuật gọi là Cross-Validation (cụ thể là K-Fold Cross-Validation) thường được sử dụng. Ở đây, dữ liệu đào tạo được chia thành các tập hợp con 'K' (fold). Mô hình được đào tạo K lần, mỗi lần sử dụng K-1 fold để đào tạo và fold còn lại làm tập xác thực. Sau đó, hiệu suất được tính trung bình trên tất cả K lần chạy. Điều này cung cấp ước tính mạnh mẽ hơn về hiệu suất mô hình và sử dụng tốt hơn dữ liệu hạn chế, như đã giải thích trong hướng dẫn Ultralytics K-Fold Cross-Validation .

Tóm lại, dữ liệu xác thực là nền tảng để xây dựng các mô hình Trí tuệ nhân tạo (AI) đáng tin cậy và hiệu suất cao. Nó cho phép điều chỉnh siêu tham số hiệu quả, lựa chọn mô hình và ngăn ngừa quá khớp, đảm bảo rằng các mô hình tổng quát hóa vượt xa dữ liệu mà chúng được đào tạo.

Đọc tất cả