Trong lĩnh vực học máy (ML) , việc đạt được hiệu suất mô hình tối ưu đòi hỏi phải tìm được sự cân bằng giữa tính đơn giản và tính phức tạp. Sự không phù hợp là một vấn đề phổ biến khi một mô hình quá đơn giản để nắm bắt được các mẫu cơ bản có trong dữ liệu đào tạo. Điều này có nghĩa là mô hình không học hiệu quả, dẫn đến hiệu suất kém không chỉ trên dữ liệu mà nó được đào tạo mà còn trên dữ liệu mới, chưa được biết đến. Một mô hình không phù hợp thiếu khả năng cần thiết để biểu diễn chính xác các mối quan hệ trong dữ liệu.
Nguyên nhân nào gây ra tình trạng không vừa vặn?
Một số yếu tố có thể dẫn đến mô hình không phù hợp:
- Độ phức tạp của mô hình không đủ : Kiến trúc mô hình được chọn có thể quá đơn giản cho nhiệm vụ. Ví dụ, sử dụng mô hình tuyến tính cho dữ liệu phức tạp, phi tuyến tính hoặc mạng nơ-ron có quá ít lớp hoặc nơ-ron. Hiểu được độ phức tạp của mô hình là chìa khóa.
- Tính năng không đầy đủ : Các tính năng đầu vào được cung cấp cho mô hình có thể không chứa đủ thông tin có liên quan để đưa ra dự đoán chính xác. Kỹ thuật tính năng hiệu quả là rất quan trọng để ngăn chặn điều này.
- Đào tạo không đủ : Mô hình có thể chưa được đào tạo đủ thời gian , nghĩa là mô hình chưa có đủ cơ hội để học các mẫu trong dữ liệu đào tạo .
- Quá chính quy hóa : Trong khi các kỹ thuật chính quy hóa được sử dụng để ngăn ngừa tình trạng quá khớp , việc áp dụng chúng quá mức có thể hạn chế mô hình quá mức, cản trở khả năng học các mẫu dữ liệu và gây ra tình trạng không khớp.
Xác định sự không phù hợp
Tình trạng thiếu khớp thường được chẩn đoán bằng cách đánh giá hiệu suất của mô hình trong và sau khi đào tạo:
- Lỗi đào tạo cao : Mô hình hoạt động kém ngay cả trên dữ liệu được đào tạo. Các số liệu hiệu suất như độ chính xác , độ chính xác hoặc khả năng thu hồi thấp, trong khi giá trị hàm mất mát vẫn cao.
- Lỗi xác thực cao : Mô hình cũng hoạt động kém trên dữ liệu xác thực , cho thấy mô hình chưa học được các mẫu chung.
- Đường cong học tập : Việc vẽ biểu đồ lỗi của mô hình trên các tập huấn luyện và xác thực theo thời gian ( đường cong học tập ) có thể tiết lộ sự không khớp nếu cả hai đường cong đều ở mức lỗi cao. Đối với các tác vụ cụ thể như phát hiện đối tượng, hãy tham khảo hướng dẫn về số liệu hiệu suất YOLO .
Xử lý tình trạng thiếu phù hợp
Một số chiến lược có thể giúp khắc phục tình trạng thiếu hụt:
Ví dụ thực tế về việc thiếu khớp
- Dự đoán giá nhà với các tính năng hạn chế : Hãy tưởng tượng việc cố gắng dự đoán giá nhà chỉ bằng số phòng ngủ. Mô hình đơn giản này (ít tính năng) có thể không phù hợp vì nó bỏ qua các yếu tố quan trọng như vị trí, diện tích và tuổi, không nắm bắt được sự phức tạp thực sự của thị trường nhà ở.
- Bộ phân loại hình ảnh cơ bản cho các cảnh phức tạp : Đào tạo một mạng nơ-ron tích chập (CNN) rất đơn giản chỉ với một hoặc hai lớp tích chập cho một tác vụ phân loại hình ảnh phức tạp, chẳng hạn như xác định các loài chim khác nhau trong các môi trường đa dạng. Mô hình có thể không học được các đặc điểm phức tạp phân biệt các loài khác nhau, dẫn đến hiệu suất kém trên cả hình ảnh quen thuộc và mới.
Phù hợp quá mức so với Phù hợp quá mức
Underfitting là nghịch đảo của overfitting . Một mô hình underfit quá đơn giản và không nắm bắt được xu hướng cơ bản của dữ liệu, dẫn đến độ lệch cao. Một mô hình overfit quá phức tạp; nó học dữ liệu đào tạo quá tốt, bao gồm cả nhiễu và giá trị ngoại lai, dẫn đến phương sai cao và hiệu suất kém trên dữ liệu mới. Mục tiêu trong học máy là đạt được sự cân bằng giữa hai thái cực này, đạt được sự khái quát tốt. Sự cân bằng này thường được thảo luận theo thuật ngữ đánh đổi độ lệch- phương sai. Các kỹ thuật như xác thực chéo (xem hướng dẫn Ultralytics K-Fold ) và điều chỉnh siêu tham số cẩn thận (xem hướng dẫn Ultralytics Tuning ) là điều cần thiết để tìm ra sự cân bằng tối ưu này. Các nền tảng như Ultralytics HUB có thể giúp quản lý các thử nghiệm và theo dõi hiệu suất của mô hình để xác định và giảm thiểu cả tình trạng underfitting và overfitting.