Thuật ngữ

Quá phù hợp

Tìm hiểu cách xác định, ngăn ngừa và giải quyết tình trạng quá khớp trong học máy. Khám phá các kỹ thuật để cải thiện khả năng khái quát hóa mô hình và hiệu suất thực tế.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Quá khớp trong học máy (ML) xảy ra khi một mô hình học dữ liệu đào tạo quá tốt, nắm bắt nhiễu và biến động ngẫu nhiên thay vì mô hình cơ bản. Điều này dẫn đến hiệu suất tuyệt vời trên tập dữ liệu đào tạo nhưng lại tổng quát hóa kém đối với dữ liệu mới, chưa được biết đến. Về cơ bản, mô hình trở nên quá phức tạp và được thiết kế riêng cho các ví dụ đào tạo, giống như việc ghi nhớ câu trả lời thay vì hiểu các khái niệm. Đây là một thách thức phổ biến khi đào tạo các mô hình AI , đặc biệt là với các thuật toán phức tạp như mạng nơ-ron được sử dụng trong Ultralytics YOLO cho các nhiệm vụ như phát hiện đối tượngphân đoạn hình ảnh .

Hiểu về Overfitting

Quá khớp phát sinh vì các mô hình ML hướng đến mục tiêu giảm thiểu lỗi trên dữ liệu đào tạo. Nếu một mô hình sở hữu độ phức tạp quá mức (ví dụ, quá nhiều tham số hoặc lớp trong mô hình học sâu ), nó có thể phù hợp với cả nhiễu ngẫu nhiên có trong tập đào tạo. Nhiễu này không đại diện cho các mẫu cơ bản thực sự và không có khả năng xuất hiện trong các tập dữ liệu mới. Hãy tưởng tượng việc may một bộ đồ hoàn hảo theo số đo chính xác của một người vào một ngày cụ thể - nó có thể không vừa vặn nếu cân nặng của họ dao động nhẹ hoặc nếu người khác thử nó. Trong ML, "sự phù hợp hoàn hảo" này trên dữ liệu đào tạo dẫn đến sự thiếu linh hoạt và hiệu suất kém trên dữ liệu thực tế, thường được gọi là khái quát kém.

Vấn đề ngược lại là underfitting , khi mô hình quá đơn giản để nắm bắt được cấu trúc cơ bản của dữ liệu. Mô hình underfit hoạt động kém trên cả dữ liệu đào tạo và dữ liệu mới vì nó chưa học đủ. Mục tiêu là tìm ra sự cân bằng tối ưu, thường được thảo luận trong bối cảnh đánh đổi bias-variance , tạo ra mô hình tổng quát hóa tốt với dữ liệu chưa thấy. Phương sai cao là đặc điểm của overfitting, trong khi bias cao là đặc điểm của underfitting. Hiểu được khái niệm đánh đổi này là rất quan trọng đối với việc phát triển mô hình.

Ví dụ thực tế về Overfitting

  • Phân tích hình ảnh y tế: Hãy xem xét một mô hình được đào tạo để phân tích hình ảnh y tế , chẳng hạn như phát hiện khối u trong quá trình quét MRI. Nếu dữ liệu đào tạo chủ yếu đến từ một mô hình máy quét MRI duy nhất, AI có thể quá phù hợp với các đặc điểm hình ảnh cụ thể (như mẫu nhiễu hoặc độ phân giải) của máy đó. Khi được trình bày với các bản quét từ một máy quét khác hoặc hình ảnh chất lượng thấp hơn, hiệu suất của nó có thể giảm đáng kể vì nó đã học được các hiện vật cụ thể của máy thay vì các đặc điểm chung của khối u. Sự thiên vị của tập dữ liệu có thể làm trầm trọng thêm vấn đề này.
  • Xe tự hành: Một mô hình phát hiện vật thể được sử dụng trong xe tự hành có thể được đào tạo nhiều trên hình ảnh chụp trong thời tiết nắng đẹp. Mô hình này có thể đạt được độ chính xác cao trên dữ liệu thử nghiệm tương tự nhưng không phát hiện được người đi bộ, người đi xe đạp hoặc các phương tiện khác một cách đáng tin cậy trong điều kiện bất lợi như mưa lớn, sương mù hoặc vào ban đêm. Nó được trang bị quá mức cho các tín hiệu thị giác cụ thể của môi trường đào tạo (ví dụ: bóng tối, ánh sáng chói) thay vì học các tính năng chung, mạnh mẽ của các vật thể trong các điều kiện khác nhau. Đảm bảo dữ liệu đào tạo đa dạng, có thể sử dụng các tập dữ liệu như COCO hoặc Argoverse , giúp giảm thiểu điều này.

Xác định quá phù hợp

Quá trình lắp ghép thường được xác định bằng cách so sánh hiệu suất của mô hình trên tập dữ liệu đào tạo với tập dữ liệu xác thực riêng biệt.

  • Chỉ số hiệu suất: Theo dõi các chỉ số như độ chính xác , độ chính xác , độ thu hồiđiểm F1 . Nếu các chỉ số đào tạo tiếp tục cải thiện trong khi các chỉ số xác thực không thay đổi hoặc tệ hơn, thì có khả năng mô hình đang quá khớp. Giá trị hàm mất mát thường giảm đáng kể trên tập đào tạo nhưng tăng hoặc trì trệ trên tập xác thực. Bạn có thể khám phá nhiều chỉ số hiệu suất YOLO khác nhau để đánh giá.
  • Đường cong học tập: Việc vẽ biểu đồ hiệu suất của mô hình (ví dụ, mất mát hoặc độ chính xác) qua các kỷ nguyên cho cả tập huấn luyện và tập xác thực cung cấp cái nhìn sâu sắc trực quan. Khoảng cách ngày càng lớn giữa đường cong huấn luyện (cải thiện) và đường cong xác thực (đình trệ hoặc suy giảm) là dấu hiệu cổ điển của việc quá khớp. Việc trực quan hóa đường cong học tập giúp chẩn đoán điều này.

Ngăn ngừa quá khớp

Một số kỹ thuật có thể giúp giảm thiểu tình trạng quá khớp và cải thiện khả năng tổng quát hóa mô hình:

  • Xác thực chéo : Các kỹ thuật như xác thực chéo K-Fold sử dụng các tập hợp dữ liệu khác nhau để đào tạo và xác thực, cung cấp ước tính mạnh mẽ hơn về hiệu suất của mô hình trên dữ liệu chưa biết.
  • Tăng cường dữ liệu : Tăng kích thước và tính đa dạng của tập dữ liệu đào tạo một cách nhân tạo bằng cách áp dụng các phép biến đổi như xoay, thay đổi tỷ lệ, cắt xén và dịch chuyển màu. Các kỹ thuật tăng cường dữ liệu YOLO Ultralytics được tích hợp sẵn để giúp cải thiện tính mạnh mẽ.
  • Chuẩn hóa : Thêm hình phạt vào hàm mất mát dựa trên độ phức tạp của mô hình (ví dụ: độ lớn của trọng số). Các phương pháp phổ biến bao gồm chuẩn hóa L1 và L2 , ngăn chặn các trọng số lớn. Đọc thêm về các phương pháp chuẩn hóa L1 và L2 .
  • Dừng sớm: Theo dõi hiệu suất của mô hình trên tập dữ liệu xác thực trong quá trình đào tạo và dừng quá trình đào tạo khi hiệu suất xác thực bắt đầu giảm, ngăn mô hình học nhiễu ở các kỷ nguyên sau. Xem giải thích về dừng sớm trong Keras .
  • Dropout : Đặt ngẫu nhiên một phần các kích hoạt neuron thành 0 trong quá trình đào tạo. Điều này buộc mạng phải học các tính năng mạnh mẽ hơn không phụ thuộc vào bất kỳ neuron đơn lẻ nào. Khái niệm Dropout được giải thích chi tiết tại đây .
  • Cắt tỉa mô hình : Loại bỏ các tham số hoặc kết nối ít quan trọng hơn trong mạng nơ-ron được đào tạo để giảm độ phức tạp mà không ảnh hưởng đáng kể đến hiệu suất. Neural Magic cung cấp các công cụ để cắt tỉa .
  • Đơn giản hóa Kiến trúc Mô hình: Sử dụng mô hình ít phức tạp hơn (ví dụ: ít lớp hoặc tham số hơn) có thể ngăn ngừa tình trạng quá khớp, đặc biệt là nếu tập dữ liệu nhỏ. Điều này có thể liên quan đến việc chọn một biến thể mô hình nhỏ hơn, như so sánh YOLOv8n với YOLOv8x .
  • Nhận thêm dữ liệu: Tăng lượng dữ liệu đào tạo chất lượng cao thường là một trong những cách hiệu quả nhất để cải thiện khả năng khái quát hóa và giảm tình trạng quá khớp. Khám phá nhiều tập dữ liệu Ultralytics khác nhau.

Bằng cách hiểu và giải quyết tình trạng overfitting, các nhà phát triển có thể xây dựng các mô hình AI đáng tin cậy và hiệu quả hơn. Các công cụ như Ultralytics HUB có thể hỗ trợ theo dõi thử nghiệm và đánh giá mô hình, hỗ trợ phát hiện và giảm thiểu tình trạng overfitting trong suốt vòng đời phát triển mô hình .

Đọc tất cả