Trong lĩnh vực học máy, việc đạt được hiệu suất mô hình tối ưu là một sự cân bằng tinh tế. Một thách thức phổ biến gặp phải trong quá trình đào tạo mô hình là thiếu khớp. Thiếu khớp xảy ra khi mô hình học máy quá đơn giản để nắm bắt các mẫu cơ bản trong dữ liệu đào tạo. Về cơ bản, điều này có nghĩa là mô hình không học dữ liệu hiệu quả, dẫn đến hiệu suất kém trên cả tập đào tạo và dữ liệu chưa thấy. Điều này thường là do mô hình thiếu độ phức tạp cần thiết để biểu diễn các mối quan hệ trong dữ liệu.
Nguyên nhân nào gây ra tình trạng không vừa vặn?
Một số yếu tố có thể góp phần gây ra hiện tượng không khớp trong các mô hình học máy.
- Tính đơn giản của mô hình : Sử dụng một mô hình quá đơn giản so với độ phức tạp của dữ liệu là nguyên nhân chính. Ví dụ, cố gắng điều chỉnh mô hình tuyến tính cho dữ liệu phi tuyến tính cao có thể dẫn đến việc điều chỉnh không phù hợp. Các mô hình phức tạp hơn như Mạng nơ-ron tích chập (CNN) thường cần thiết cho các tập dữ liệu phức tạp.
- Thời gian đào tạo không đủ : Nếu một mô hình không được đào tạo trong một số kỷ nguyên đủ, nó có thể không có đủ cơ hội để học các mẫu dữ liệu cơ bản. Đào tạo đầy đủ cho phép mô hình điều chỉnh trọng số và độ lệch của nó để phù hợp hơn với dữ liệu.
- Thiếu các tính năng liên quan : Nếu các tính năng đầu vào được cung cấp cho mô hình không thể hiện đầy đủ các đặc điểm dữ liệu cơ bản, mô hình có thể gặp khó khăn trong việc học hiệu quả. Kỹ thuật tính năng để tạo ra các tính năng nhiều thông tin hơn có thể giúp giảm thiểu tình trạng này.
- Quá chính quy : Trong khi các kỹ thuật chính quy như chính quy L1 hoặc L2 hữu ích để ngăn ngừa tình trạng quá khớp , thì việc chính quy hóa quá mức có thể hạn chế mô hình quá nhiều, dẫn đến tình trạng không khớp.
Xác định sự không phù hợp
Sự thiếu phù hợp thường được xác định bằng cách quan sát số liệu hiệu suất của mô hình trong quá trình đào tạo và xác thực. Các chỉ số chính bao gồm:
- Lỗi đào tạo cao : Mô hình thể hiện tỷ lệ lỗi cao trên tập dữ liệu đào tạo, cho thấy mô hình không học tốt dữ liệu đào tạo.
- Lỗi xác thực cao : Tương tự như vậy, mô hình cho thấy tỷ lệ lỗi cao trên tập dữ liệu xác thực, cho thấy khả năng khái quát kém đối với dữ liệu chưa biết.
- Số liệu hiệu suất kém : Các số liệu như độ chính xác , độ chính xác , độ thu hồi hoặc mAP thấp hơn đáng kể so với mong muốn trên cả bộ dữ liệu đào tạo và xác thực. Xem lại số liệu hiệu suất YOLO để biết thêm chi tiết.
Xử lý tình trạng thiếu phù hợp
Để chống lại tình trạng thiếu hụt, có thể áp dụng một số chiến lược sau:
- Tăng độ phức tạp của mô hình : Cân nhắc sử dụng kiến trúc mô hình phức tạp hơn. Ví dụ, nếu mô hình tuyến tính không khớp, hãy thử sử dụng mô hình đa thức, cây quyết định hoặc mạng nơ-ron như Ultralytics YOLOv8 cho nhiệm vụ phát hiện đối tượng.
- Đào tạo lâu hơn : Tăng số kỷ nguyên đào tạo để cho phép mô hình có nhiều thời gian hơn để học các mẫu dữ liệu. Các công cụ như Ultralytics HUB tạo điều kiện đào tạo và giám sát mô hình hiệu quả.
- Kỹ thuật tính năng : Thiết kế các tính năng có liên quan và nhiều thông tin hơn từ dữ liệu hiện có. Điều này có thể bao gồm việc tạo các tính năng mới, chuyển đổi các tính năng hiện có hoặc chọn một tập hợp con các tính năng có liên quan hơn.
- Giảm chính quy hóa : Nếu đang sử dụng chính quy hóa, hãy thử giảm cường độ chính quy hóa để cho phép mô hình linh hoạt hơn để phù hợp với dữ liệu đào tạo.
- Thu thập thêm dữ liệu : Trong một số trường hợp, việc thiếu khớp có thể là do dữ liệu đào tạo không đủ. Việc tăng kích thước của tập dữ liệu đào tạo có thể cung cấp cho mô hình nhiều ví dụ hơn để học hỏi. Khám phá các tập dữ liệu Ultralytics để biết các tập dữ liệu tiềm năng có thể sử dụng.
Ví dụ thực tế về việc thiếu khớp
- Hồi quy tuyến tính đơn giản để phân loại hình ảnh : Hãy tưởng tượng sử dụng mô hình hồi quy tuyến tính cơ bản để phân loại hình ảnh phức tạp, chẳng hạn như phân loại các giống chó khác nhau. Mô hình tuyến tính quá đơn giản để nắm bắt các đặc điểm trực quan phức tạp phân biệt các giống chó, dẫn đến việc thiếu chính xác đáng kể và phân loại kém. Một mô hình phù hợp hơn sẽ là CNN được đào tạo trên một tập dữ liệu lớn như ImageNet để học hiệu quả các đặc điểm hình ảnh.
- Mô hình cơ bản để phát hiện đối tượng trong các cảnh dày đặc : Cân nhắc sử dụng mạng nơ-ron rất nông để phát hiện đối tượng trong cảnh đường phố đông đúc. Một mô hình đơn giản như vậy có thể không phát hiện được nhiều đối tượng, đặc biệt là các đối tượng nhỏ hơn hoặc bị che khuất, do không có khả năng học các mối quan hệ không gian phức tạp và thông tin theo ngữ cảnh. Sử dụng kiến trúc tiên tiến hơn và sâu hơn như Ultralytics YOLO11 sẽ là cần thiết để xử lý độ phức tạp và mật độ của các đối tượng trong các cảnh như vậy.
Phù hợp quá mức so với Phù hợp quá mức
Underfitting là ngược lại với overfitting . Trong khi underfitting xảy ra khi một mô hình quá đơn giản và không học được dữ liệu đào tạo một cách đầy đủ, thì overfitting xảy ra khi một mô hình quá phức tạp và học dữ liệu đào tạo quá tốt, bao gồm cả nhiễu và các chi tiết không liên quan. Các mô hình overfit hoạt động cực kỳ tốt trên dữ liệu đào tạo nhưng lại kém trên dữ liệu mới, chưa thấy vì chúng không thể khái quát hóa. Mục tiêu trong học máy là tìm ra một mô hình đạt được sự cân bằng, tránh cả underfitting và overfitting, để đạt được sự khái quát hóa và hiệu suất tốt. Các kỹ thuật như xác thực chéo và điều chỉnh siêu tham số rất quan trọng trong việc tìm ra sự cân bằng này.