Dữ liệu xác thực là một thành phần quan trọng trong vòng đời phát triển mô hình học máy (ML) . Đây là một phần riêng biệt của tập dữ liệu của bạn, khác với dữ liệu đào tạo được sử dụng để phù hợp ban đầu với mô hình và dữ liệu thử nghiệm được sử dụng để đánh giá cuối cùng. Mục đích chính của dữ liệu xác thực là cung cấp đánh giá khách quan về mức độ phù hợp của mô hình trên tập dữ liệu đào tạo trong khi điều chỉnh các siêu tham số của mô hình và đưa ra quyết định về chính kiến trúc mô hình. Quá trình này giúp lựa chọn cấu hình mô hình tốt nhất trước khi đánh giá hiệu suất cuối cùng của mô hình trên dữ liệu chưa biết.
Vai trò trong phát triển mô hình
Trong giai đoạn đào tạo, một mô hình ML học các mẫu từ dữ liệu đào tạo. Tuy nhiên, chỉ đánh giá mô hình trên cùng dữ liệu mà nó học được có thể gây hiểu lầm, thường dẫn đến ước tính hiệu suất quá lạc quan do quá khớp - khi mô hình học dữ liệu đào tạo quá tốt, bao gồm cả nhiễu và các điểm kỳ quặc cụ thể, cản trở khả năng khái quát hóa thành dữ liệu mới. Dữ liệu xác thực đóng vai trò là đại diện cho dữ liệu chưa thấy trong quá trình đào tạo. Bằng cách đánh giá hiệu suất của mô hình trên tập xác thực theo các khoảng thời gian đều đặn (ví dụ: sau mỗi kỷ nguyên ), các nhà phát triển có thể:
- Điều chỉnh siêu tham số: Điều chỉnh các thiết lập như tốc độ học , kích thước lô hoặc độ phức tạp của mô hình (ví dụ: số lớp trong mạng nơ-ron ). Khám phá các kỹ thuật như hướng dẫn Điều chỉnh siêu tham số .
- Chọn mô hình: So sánh các thuật toán hoặc kiến trúc khác nhau để xem thuật toán hoặc kiến trúc nào hoạt động tốt nhất trên tập xác thực.
- Ngăn ngừa quá khớp: Triển khai dừng sớm, trong đó quá trình đào tạo bị dừng lại khi hiệu suất trên tập xác thực bắt đầu giảm, ngay cả khi hiệu suất trên tập đào tạo vẫn đang được cải thiện. Đọc thêm tại Mẹo đào tạo mô hình .
Dữ liệu xác thực so với dữ liệu đào tạo và thử nghiệm
Việc hiểu được sự khác biệt giữa các tập dữ liệu đào tạo, xác thực và thử nghiệm là điều cơ bản:
- Dữ liệu đào tạo : Phần lớn nhất của tập dữ liệu, được thuật toán sử dụng trực tiếp để tìm hiểu các mẫu và điều chỉnh các tham số nội bộ ( trọng số mô hình ).
- Dữ liệu xác thực: Một phần có kích thước trung bình được sử dụng lặp đi lặp lại trong quá trình đào tạo để điều chỉnh siêu tham số và đưa ra quyết định lựa chọn mô hình. Nó cung cấp phản hồi về mức độ tổng quát hóa của mô hình dựa trên trạng thái đào tạo hiện tại.
- Dữ liệu thử nghiệm : Một phần nhỏ hơn, hoàn toàn tách biệt được giữ lại cho đến khi kết thúc quá trình phát triển. Nó cung cấp đánh giá cuối cùng, khách quan về hiệu suất của mô hình đã chọn trên dữ liệu thực sự chưa được biết đến. Quan trọng là, bộ thử nghiệm không được ảnh hưởng đến bất kỳ quyết định đào tạo hoặc điều chỉnh nào để đảm bảo đánh giá đáng tin cậy về hiệu suất thực tế dự kiến của mô hình.
Tầm quan trọng và lợi ích
Sử dụng bộ xác thực chuyên dụng là điều cần thiết để xây dựng các mô hình ML mạnh mẽ và đáng tin cậy. Các lợi ích chính bao gồm:
- Tổng quát hóa được cải thiện: Giúp đảm bảo mô hình hoạt động tốt không chỉ trên dữ liệu được đào tạo mà còn trên dữ liệu mới, chưa từng thấy.
- So sánh mô hình mục tiêu: Cung cấp cơ sở công bằng để so sánh các mô hình hoặc cài đặt siêu tham số khác nhau.
- Phòng ngừa quá mức: Hoạt động như một hệ thống cảnh báo sớm để phát hiện khi mô hình bắt đầu ghi nhớ dữ liệu đào tạo thay vì học các mẫu chung. Hướng dẫn chi tiết về Đánh giá và Tinh chỉnh Mô hình có thể cung cấp thêm ngữ cảnh.
Ví dụ thực tế
- Phát hiện đối tượng với Ultralytics YOLO : Khi đào tạo mô hình Ultralytics YOLO để phát hiện các đối tượng như ô tô và người đi bộ cho ứng dụng lái xe tự động , dữ liệu đào tạo bao gồm hàng nghìn hình ảnh được gắn nhãn. Bộ xác thực, chứa các hình ảnh khác nhau với các đối tượng tương tự, được sử dụng sau mỗi kỷ nguyên đào tạo để tính toán các số liệu như Độ chính xác trung bình (mAP) . mAP xác thực này hướng dẫn các điều chỉnh cho các siêu tham số (ví dụ: tốc độ học, cường độ tăng cường dữ liệu) bằng các công cụ như Ultralytics HUB để tìm cấu hình mang lại hiệu suất tốt nhất trên bộ xác thực trước khi thử nghiệm cuối cùng.
- Phân tích hình ảnh y tế : Giả sử bạn đang phát triển Mạng nơ-ron tích chập (CNN) để phân loại khối u trong ảnh chụp não bằng cách sử dụng một tập dữ liệu như tập dữ liệu Khối u não . Bộ xác thực sẽ được sử dụng để so sánh các kiến trúc CNN khác nhau (ví dụ: ResNet so với VGG) hoặc điều chỉnh các tham số như tỷ lệ bỏ học. Bằng cách tối ưu hóa dựa trên độ chính xác xác thực hoặc điểm F1 , các nhà nghiên cứu có thể chọn mô hình hứa hẹn nhất mà không ảnh hưởng đến tính toàn vẹn của đánh giá tập kiểm tra cuối cùng, rất quan trọng đối với các ứng dụng lâm sàng được các cơ quan như FDA quản lý.
Kỹ thuật liên quan đến dữ liệu xác thực
Đôi khi, đặc biệt là với dữ liệu hạn chế, một phân tách xác thực đơn lẻ có thể không mang tính đại diện. Các kỹ thuật như Cross-Validation giải quyết vấn đề này. Trong K-Fold Cross-Validation , dữ liệu đào tạo được chia thành 'k' tập hợp con (fold). Mô hình được đào tạo 'k' lần, mỗi lần sử dụng một fold khác nhau làm tập xác thực và k-1 fold còn lại để đào tạo. Hiệu suất trung bình trên 'k' fold xác thực cung cấp ước tính mạnh mẽ hơn về khả năng khái quát hóa của mô hình. Bạn có thể tìm thấy các triển khai trong các thư viện như Scikit-learn .
Dữ liệu xác thực là không thể thiếu để hướng dẫn phát triển thị giác máy tính hiệu quả và các mô hình ML khác, đảm bảo chúng được điều chỉnh tốt và có khả năng khái quát hóa để giải quyết những thách thức mới vượt ra ngoài tập dữ liệu đào tạo.