Thuật ngữ

Xác thực chéo

Khám phá sức mạnh của xác thực chéo trong học máy để nâng cao độ chính xác của mô hình, ngăn ngừa hiện tượng quá khớp và đảm bảo hiệu suất mạnh mẽ.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Cross-Validation là một kỹ thuật thống kê quan trọng được sử dụng trong học máy (ML) để đánh giá mức độ tổng quát hóa của một mô hình đối với một tập dữ liệu độc lập. Thay vì chia dữ liệu thành một tập huấn luyện và tập kiểm tra, Cross-Validation liên quan đến việc phân vùng dữ liệu thành nhiều tập con hoặc 'folds'. Mô hình được huấn luyện lặp đi lặp lại trên một số folds và được đánh giá trên folds còn lại. Quá trình này cung cấp ước tính đáng tin cậy hơn về hiệu suất của mô hình trên dữ liệu chưa biết so với việc chia tách huấn luyện/kiểm tra đơn giản, giúp giảm đáng kể nguy cơ quá khớp , khi mô hình học dữ liệu huấn luyện quá tốt, bao gồm cả nhiễu của nó.

Cách thức hoạt động của Cross-Validation

Phương pháp được sử dụng rộng rãi nhất là K-Fold Cross-Validation. Quá trình này bao gồm các bước sau:

  1. Trộn và chia: Toàn bộ tập dữ liệu được trộn ngẫu nhiên và chia thành 'K' phần có kích thước bằng nhau (tập con).
  2. Đào tạo và xác thực lặp đi lặp lại: Mô hình được đào tạo K lần. Trong mỗi lần lặp 'i' (từ 1 đến K):
  3. Tổng hợp hiệu suất: Chỉ số hiệu suất được ghi lại trong mỗi K lần lặp lại được tính trung bình để đưa ra ước tính duy nhất, mạnh mẽ hơn về khả năng tổng quát của mô hình.

Nhiều thư viện ML phổ biến, chẳng hạn như Scikit-learn , cung cấp các triển khai hiệu quả cho nhiều chiến lược Xác thực chéo khác nhau, bao gồm Stratified K-Fold (cần thiết cho các tập dữ liệu mất cân bằng) và Leave-One-Out CV.

Tại sao nên sử dụng Xác thực chéo?

Kiểm chứng chéo là nền tảng của việc đánh giá mô hình đáng tin cậy vì một số lý do chính:

  • Ước tính hiệu suất đáng tin cậy hơn: Bằng cách tính trung bình kết quả trên nhiều bộ xác thực, CV làm giảm phương sai liên quan đến một lần tách đào tạo/kiểm tra duy nhất, đưa ra thước đo ổn định hơn về cách mô hình có thể hoạt động trong thực tế. Điều này thúc đẩy khả năng tái tạo trong nghiên cứu .
  • Sử dụng dữ liệu hiệu quả: Sử dụng tốt hơn các tập dữ liệu hạn chế, vì mọi điểm dữ liệu đều đóng vai trò là dữ liệu đào tạo và xác thực trên các nếp gấp khác nhau. Điều này đặc biệt có lợi khi việc thu thập dữ liệu tốn kém hoặc khó khăn.
  • Phát hiện quá khớp/dưới khớp: Giúp xác định các mô hình quá phức tạp (quá khớp) hoặc quá đơn giản ( dưới khớp ) bằng cách chỉ ra sự khác biệt giữa hiệu suất đào tạo và hiệu suất xác thực trung bình.
  • Điều chỉnh siêu tham số mạnh mẽ: CV cung cấp cơ sở đáng tin cậy hơn để lựa chọn siêu tham số tối ưu. Các bộ siêu tham số khác nhau có thể được đánh giá dựa trên hiệu suất xác thực chéo trung bình của chúng, dẫn đến các mô hình có khả năng khái quát hóa tốt hơn. Ultralytics cung cấp các công cụ để Điều chỉnh Siêu tham số có thể kết hợp các nguyên tắc CV.

Xác thực chéo so với Phân tách đào tạo/xác thực đơn giản

Một phân tách đào tạo/xác thực đơn giản chia dữ liệu một lần: một phần để đào tạo, một phần để xác thực. Mặc dù dễ triển khai, nhược điểm chính của nó là đánh giá hiệu suất phụ thuộc rất nhiều vào các điểm dữ liệu cụ thể nào tình cờ rơi vào tập xác thực. Một tập xác thực "dễ" hoặc "khó" đặc biệt có thể dẫn đến ước tính hiệu suất quá lạc quan hoặc bi quan.

Cross-Validation khắc phục điều này bằng cách sử dụng các tập hợp con khác nhau một cách có hệ thống để xác thực, đảm bảo mọi điểm dữ liệu đều đóng góp vào quá trình đánh giá đúng một lần. Điều này mang lại đánh giá ổn định và đáng tin cậy hơn về độ mạnh của mô hình. Điều quan trọng cần lưu ý là một tập dữ liệu thử nghiệm cuối cùng, không được nhìn thấy trong cả quá trình đào tạo và điều chỉnh dựa trên CV, vẫn nên được dành riêng cho đánh giá cuối cùng của mô hình đã chọn. Ultralytics cung cấp hướng dẫn chi tiết về việc triển khai Xác thực chéo K-Fold với Ultralytics YOLO .

Ứng dụng trong thế giới thực

Xác thực chéo là điều không thể thiếu trong việc xây dựng các hệ thống AI đáng tin cậy trên nhiều lĩnh vực khác nhau:

  1. Phân tích hình ảnh y tế: Khi phát triển Mạng nơ-ron tích chập (CNN) để phân tích hình ảnh y tế , chẳng hạn như phát hiện khối u trong ảnh chụp não bằng các tập dữ liệu như tập dữ liệu Khối u não , CV được sử dụng để đánh giá chặt chẽ độ chính xác chẩn đoán và khả năng khái quát hóa của mô hình trên nhiều dữ liệu bệnh nhân khác nhau trước khi xem xét thử nghiệm lâm sàng hoặc tìm kiếm sự chấp thuận theo quy định (ví dụ: từ FDA ).
  2. Xe tự hành: Đối với các mô hình phát hiện vật thể như Ultralytics YOLO được sử dụng trong xe tự hành , CV giúp đảm bảo hiệu suất đáng tin cậy trong việc phát hiện người đi bộ, người đi xe đạp và các phương tiện khác trong nhiều điều kiện môi trường khác nhau (ánh sáng, thời tiết, loại đường) thường thấy trong các tập dữ liệu phức tạp như Argoverse . Đánh giá mạnh mẽ này, thường được đo bằng các số liệu như Độ chính xác trung bình (mAP) , rất quan trọng trước khi triển khai mô hình trong các hệ thống quan trọng về an toàn như các hệ thống trong AI trong các giải pháp ô tô .

Các ứng dụng khác bao gồm đánh giá các mô hình để phân đoạn hình ảnh , các tác vụ xử lý ngôn ngữ tự nhiên (NLP) như phân tích tình cảm và đánh giá rủi ro trong mô hình tài chính . Các nền tảng như Ultralytics HUB thường tích hợp hoặc tạo điều kiện cho các kỹ thuật đánh giá như vậy để hợp lý hóa vòng đời phát triển.

Đọc tất cả