Tối ưu hóa các mô hình học máy với dữ liệu xác thực để ngăn ngừa tình trạng quá khớp, điều chỉnh siêu tham số và đảm bảo hiệu suất mạnh mẽ trong thế giới thực.
Dữ liệu xác thực là một thành phần quan trọng trong chu trình phát triển Học máy (ML) . Đây là một tập hợp con riêng biệt của tập dữ liệu gốc, khác với dữ liệu đào tạo được sử dụng để phù hợp với mô hình và dữ liệu thử nghiệm được sử dụng để đánh giá cuối cùng. Mục đích chính của dữ liệu xác thực là cung cấp đánh giá khách quan về mức độ phù hợp của mô hình trên tập dữ liệu đào tạo trong khi điều chỉnh siêu tham số mô hình và đưa ra quyết định về kiến trúc của mô hình. Quá trình này giúp lựa chọn cấu hình mô hình tốt nhất trước khi đánh giá hiệu suất cuối cùng của mô hình trên dữ liệu chưa biết.
Trong quá trình đào tạo mô hình , mô hình ML học các mẫu từ dữ liệu đào tạo. Tuy nhiên, việc đánh giá mô hình chỉ dựa trên dữ liệu này có thể gây hiểu lầm, vì mô hình có thể chỉ ghi nhớ các ví dụ đào tạo, một hiện tượng được gọi là quá khớp . Dữ liệu xác thực đóng vai trò là điểm kiểm tra. Bằng cách đánh giá hiệu suất của mô hình trên tập hợp riêng biệt này theo định kỳ trong quá trình đào tạo, các nhà phát triển có thể:
Hiểu được sự khác biệt giữa các tập dữ liệu đào tạo, xác thực và thử nghiệm là điều cơ bản để phát triển mô hình mạnh mẽ:
Việc phân tách hợp lý, thường được quản lý bằng các công cụ như Ultralytics HUB để quản lý và kiểm soát phiên bản tập dữ liệu, đảm bảo rằng thông tin từ tập kiểm tra không "rò rỉ" vào quá trình đào tạo hoặc lựa chọn mô hình, điều này sẽ dẫn đến ước tính hiệu suất quá lạc quan.
Dữ liệu xác thực là không thể thiếu để điều chỉnh siêu tham số . Siêu tham số là các thiết lập cấu hình bên ngoài mô hình, được thiết lập trước khi quá trình học bắt đầu. Ví dụ bao gồm tốc độ học, số lớp trong mạng nơ-ron hoặc loại thuật toán tối ưu hóa được sử dụng. Các nhà phát triển đào tạo nhiều phiên bản mô hình với các kết hợp siêu tham số khác nhau, đánh giá từng kết hợp trên bộ xác thực và chọn kết hợp mang lại hiệu suất tốt nhất. Tìm kiếm có hệ thống này có thể được tự động hóa bằng các phương pháp như Tìm kiếm lưới hoặc Tối ưu hóa Bayes, thường được tạo điều kiện thuận lợi bởi các nền tảng tích hợp với các công cụ MLOps .
Khi lượng dữ liệu có sẵn bị hạn chế, một kỹ thuật gọi là Cross-Validation (cụ thể là K-Fold Cross-Validation) thường được sử dụng. Ở đây, dữ liệu đào tạo được chia thành các tập hợp con 'K' (fold). Mô hình được đào tạo K lần, mỗi lần sử dụng K-1 fold để đào tạo và fold còn lại làm tập xác thực. Sau đó, hiệu suất được tính trung bình trên tất cả K lần chạy. Điều này cung cấp ước tính mạnh mẽ hơn về hiệu suất mô hình và sử dụng tốt hơn dữ liệu hạn chế, như đã giải thích trong hướng dẫn Ultralytics K-Fold Cross-Validation .
Tóm lại, dữ liệu xác thực là nền tảng để xây dựng các mô hình Trí tuệ nhân tạo (AI) đáng tin cậy và hiệu suất cao. Nó cho phép điều chỉnh siêu tham số hiệu quả, lựa chọn mô hình và ngăn ngừa quá khớp, đảm bảo rằng các mô hình tổng quát hóa vượt xa dữ liệu mà chúng được đào tạo.