Quá khớp? Ngăn chặn hiện tượng này trong Thị giác máy tính

Các mô hình thị giác máy tính được thiết kế để nhận dạng các mẫu, detect đối tượng và phân tích hình ảnh. Tuy nhiên, hiệu suất của chúng phụ thuộc vào mức độ tổng quát hóa của chúng đối với dữ liệu chưa biết. Tổng quát hóa là khả năng hoạt động tốt của mô hình trên các hình ảnh mới, chứ không chỉ trên các hình ảnh đã được huấn luyện. Một vấn đề phổ biến trong quá trình huấn luyện các mô hình này là quá khớp (overfitting ), trong đó mô hình học quá nhiều từ dữ liệu huấn luyện, bao gồm cả nhiễu không cần thiết, thay vì xác định các mẫu có ý nghĩa.

Khi điều này xảy ra, mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng lại gặp khó khăn với các hình ảnh mới. Ví dụ: một mô hình phát hiện đối tượng chỉ được huấn luyện trên các hình ảnh có độ phân giải cao, đủ sáng có thể không thành công khi được cung cấp các hình ảnh bị mờ hoặc có bóng trong điều kiện thực tế. Overfitting (quá khớp) hạn chế khả năng thích ứng của mô hình, hạn chế việc sử dụng nó trong các ứng dụng thực tế như lái xe tự động, chụp ảnh y tế và hệ thống an ninh.

Trong bài viết này, chúng ta sẽ tìm hiểu hiện tượng overfitting là gì, tại sao nó xảy ra và cách ngăn chặn nó. Chúng ta cũng sẽ xem xét cách các mô hình thị giác máy tính như Ultralytics YOLO11 giúp giảm hiện tượng overfitting và cải thiện khả năng khái quát hóa.

Overfitting là gì?

Quá khớp (Overfitting) xảy ra khi một mô hình ghi nhớ dữ liệu huấn luyện thay vì học các mẫu áp dụng rộng rãi cho các đầu vào mới. Mô hình trở nên quá tập trung vào dữ liệu huấn luyện, vì vậy nó gặp khó khăn với những hình ảnh hoặc tình huống mới mà nó chưa từng thấy trước đây.

Trong thị giác máy tính, hiện tượng quá khớp có thể ảnh hưởng đến các tác vụ khác nhau. Một mô hình phân loại chỉ được huấn luyện trên các hình ảnh sáng, rõ ràng có thể gặp khó khăn trong điều kiện ánh sáng yếu. Một mô hình phát hiện đối tượng học từ những hình ảnh hoàn hảo có thể thất bại trong những cảnh đông đúc hoặc lộn xộn. Tương tự, một mô hình phân vùng thể hiện có thể hoạt động tốt trong các cài đặt được kiểm soát nhưng gặp khó khăn với bóng hoặc các đối tượng chồng chéo.

Điều này trở thành một vấn đề trong các ứng dụng AI thực tế, nơi các mô hình phải có khả năng khái quát hóa vượt ra ngoài các điều kiện đào tạo được kiểm soát. Ví dụ, xe tự lái phải có khả năng detect người đi bộ trong các điều kiện ánh sáng, thời tiết và môi trường khác nhau. Một mô hình quá phù hợp với bộ dữ liệu huấn luyện sẽ không hoạt động đáng tin cậy trong những tình huống khó lường như vậy.

Quá trình overfitting xảy ra khi nào và tại sao?

Quá khớp (Overfitting) thường xảy ra do tập dữ liệu không cân bằng, độ phức tạp quá mức của mô hình và huấn luyện quá mức. Dưới đây là những nguyên nhân chính:

Dữ liệu đào tạo hạn chế : Các tập dữ liệu nhỏ khiến các mô hình ghi nhớ các mẫu thay vì khái quát hóa chúng. Một mô hình chỉ được đào tạo trên 50 hình ảnh chim có thể gặp khó khăn trong việc detect các loài chim nằm ngoài tập dữ liệu đó.
Các mô hình phức tạp với quá nhiều tham số: Các mạng sâu có quá nhiều lớp và nơ-ron có xu hướng ghi nhớ các chi tiết nhỏ thay vì tập trung vào các đặc điểm thiết yếu.
Thiếu tăng cường dữ liệu: Nếu không có các phép biến đổi như cắt, lật hoặc xoay, mô hình có thể chỉ học từ các hình ảnh huấn luyện chính xác của nó.
Huấn luyện kéo dài: Nếu một mô hình trải qua dữ liệu huấn luyện quá nhiều lần, được gọi là epochs, nó sẽ ghi nhớ các chi tiết thay vì học các mẫu tổng quát, làm cho nó kém thích ứng hơn.
Nhãn không nhất quán hoặc nhiễu: Dữ liệu được gắn nhãn không chính xác khiến mô hình học các mẫu sai. Điều này thường xảy ra trong các bộ dữ liệu được gắn nhãn thủ công.

Một cách tiếp cận cân bằng tốt đối với độ phức tạp của mô hình, chất lượng tập dữ liệu và kỹ thuật huấn luyện đảm bảo khả năng khái quát hóa tốt hơn.

Quá khớp (Overfitting) so với thiếu khớp (underfitting)

Quá khớp (Overfitting) và thiếu khớp (underfitting) là hai vấn đề hoàn toàn trái ngược nhau trong học sâu.

__wf_reserved_inherit — Hình 1. So sánh hiện tượng underfitting, optimal learning và overfitting trong các mô hình computer vision.

‍

Quá khớp (Overfitting) xảy ra khi một mô hình quá phức tạp, khiến nó tập trung quá mức vào dữ liệu huấn luyện. Thay vì học các mẫu chung, nó ghi nhớ các chi tiết nhỏ, thậm chí cả những chi tiết không liên quan như nhiễu nền. Điều này khiến mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng lại gặp khó khăn với hình ảnh mới, có nghĩa là nó chưa thực sự học được cách nhận dạng các mẫu áp dụng trong các tình huống khác nhau.

Underfitting xảy ra khi một mô hình quá đơn giản, do đó bỏ lỡ các mẫu quan trọng trong dữ liệu. Điều này có thể xảy ra khi mô hình có quá ít lớp, không đủ thời gian huấn luyện hoặc dữ liệu bị hạn chế. Kết quả là, nó không nhận ra các mẫu quan trọng và đưa ra các dự đoán không chính xác. Điều này dẫn đến hiệu suất kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra vì mô hình chưa học đủ để hiểu đúng nhiệm vụ.

Một mô hình được huấn luyện tốt sẽ tìm thấy sự cân bằng giữa độ phức tạp và khả năng khái quát hóa. Nó phải đủ phức tạp để học các mẫu liên quan nhưng không quá phức tạp đến mức nó ghi nhớ dữ liệu thay vì nhận ra các mối quan hệ cơ bản.

Cách xác định tình trạng quá khớp (overfitting)

Dưới đây là một số dấu hiệu cho thấy mô hình đang bị overfitting (quá khớp):

Nếu độ chính xác huấn luyện cao hơn đáng kể so với độ chính xác xác thực, thì mô hình có khả năng bị overfitting.
‍
Một khoảng cách ngày càng lớn giữa loss huấn luyện và loss xác thực là một dấu hiệu mạnh mẽ khác.
‍
Mô hình quá tự tin vào các câu trả lời sai, cho thấy nó đã ghi nhớ các chi tiết thay vì hiểu các mẫu.

Để đảm bảo mô hình khái quát hóa tốt, nó cần được kiểm tra trên các bộ dữ liệu đa dạng phản ánh các điều kiện thực tế.

Cách ngăn chặn tình trạng quá khớp trong thị giác máy tính

Quá khớp (Overfitting) không phải là không thể tránh khỏi và có thể được ngăn chặn. Với các kỹ thuật phù hợp, các mô hình thị giác máy tính có thể học các mẫu chung thay vì ghi nhớ dữ liệu huấn luyện, giúp chúng đáng tin cậy hơn trong các ứng dụng thực tế.

Dưới đây là năm chiến lược chính để ngăn ngừa tình trạng overfitting (quá khớp) trong computer vision.

Tăng tính đa dạng của dữ liệu bằng cách tăng cường và sử dụng dữ liệu tổng hợp

Cách tốt nhất để giúp một mô hình hoạt động tốt trên dữ liệu mới là mở rộng bộ dữ liệu bằng cách sử dụng tăng cường dữ liệu và dữ liệu tổng hợp. Dữ liệu tổng hợp được tạo ra bằng máy tính thay vì thu thập từ hình ảnh thế giới thực. Nó giúp lấp đầy những khoảng trống khi không có đủ dữ liệu thực.

‍

Tăng cường dữ liệu thay đổi một chút các hình ảnh hiện có bằng cách lật, xoay, cắt hoặc điều chỉnh độ sáng, do đó mô hình không chỉ ghi nhớ các chi tiết mà còn học cách nhận dạng các đối tượng trong các tình huống khác nhau.

Dữ liệu tổng hợp hữu ích khi khó có được hình ảnh thực tế. Ví dụ, các mô hình xe tự lái có thể được đào tạo trên các cảnh đường do máy tính tạo ra để học cách detect các vật thể trong điều kiện thời tiết và ánh sáng khác nhau. Điều này giúp mô hình linh hoạt và đáng tin cậy hơn mà không cần hàng nghìn hình ảnh thực tế.

Tối ưu hóa độ phức tạp và kiến trúc của mô hình

Một mạng nơ-ron sâu, là một loại mô hình học máy có nhiều lớp xử lý dữ liệu thay vì một lớp duy nhất, không phải lúc nào cũng tốt hơn. Khi một mô hình có quá nhiều lớp hoặc tham số, nó sẽ ghi nhớ dữ liệu huấn luyện thay vì nhận ra các mẫu rộng hơn. Giảm sự phức tạp không cần thiết có thể giúp ngăn ngừa tình trạng quá khớp.

Để đạt được điều này, một cách tiếp cận là tỉa bớt, loại bỏ các neuron và kết nối dư thừa, làm cho mô hình tinh gọn và hiệu quả hơn.

Một cách khác là đơn giản hóa kiến trúc bằng cách giảm số lớp hoặc nơ-ron. Các mô hình được đào tạo trước như YOLO11 được thiết kế để khái quát hóa tốt trên các tác vụ có ít tham số hơn, khiến chúng có khả năng chống lại việc quá khớp hơn so với việc đào tạo một mô hình sâu từ đầu.

Việc tìm kiếm sự cân bằng phù hợp giữa độ sâu và hiệu quả của mô hình giúp mô hình học được các mẫu hữu ích mà không chỉ ghi nhớ dữ liệu huấn luyện.

Áp dụng các kỹ thuật chính quy hóa (regularization)

Các kỹ thuật chính quy hóa ngăn các mô hình trở nên quá phụ thuộc vào các tính năng cụ thể trong dữ liệu huấn luyện. Dưới đây là một vài kỹ thuật thường được sử dụng:

Dropout tắt ngẫu nhiên các phần của mô hình trong quá trình huấn luyện để mô hình học cách nhận biết các mẫu khác nhau thay vì dựa quá nhiều vào một vài đặc trưng.
Weight decay (L2 regularization) không khuyến khích các giá trị trọng số cực đoan, giữ cho độ phức tạp của mô hình được kiểm soát.
Chuẩn hóa theo lô (Batch normalization) giúp ổn định quá trình huấn luyện bằng cách đảm bảo mô hình ít nhạy cảm hơn với các biến thể trong tập dữ liệu.

Các kỹ thuật này giúp duy trì tính linh hoạt và khả năng thích ứng của mô hình, giảm nguy cơ overfitting đồng thời vẫn giữ được độ chính xác.

Giám sát quá trình huấn luyện bằng cách xác thực và dừng sớm

Để ngăn ngừa tình trạng quá khớp, điều quan trọng là track cách mô hình học và đảm bảo nó có thể khái quát hóa tốt với dữ liệu mới. Dưới đây là một vài kỹ thuật giúp ích cho việc này:

Dừng sớm: Tự động kết thúc quá trình huấn luyện khi mô hình ngừng cải thiện, do đó nó không tiếp tục học các chi tiết không cần thiết.
Kiểm định chéo (Cross-validation): Chia dữ liệu thành nhiều phần và huấn luyện mô hình trên từng phần. Điều này giúp mô hình học các mẫu thay vì ghi nhớ các hình ảnh cụ thể.

Các kỹ thuật này giúp mô hình duy trì sự cân bằng để nó học đủ để chính xác mà không trở nên quá tập trung vào dữ liệu huấn luyện.

Sử dụng các mô hình được huấn luyện trước và cải thiện việc dán nhãn bộ dữ liệu

Thay vì đào tạo từ đầu, hãy sử dụng các mô hình được đào tạo trước như YOLO11 có thể giảm hiện tượng quá khớp. YOLO11 được đào tạo trên các tập dữ liệu quy mô lớn, cho phép nó khái quát hóa tốt trong nhiều điều kiện khác nhau.

‍

Tinh chỉnh một mô hình đã được huấn luyện trước giúp nó giữ lại những gì nó đã biết trong khi học các tác vụ mới, vì vậy nó không chỉ ghi nhớ dữ liệu huấn luyện.

Ngoài ra, đảm bảo ghi nhãn bộ dữ liệu chất lượng cao là điều cần thiết. Dữ liệu bị gắn nhãn sai hoặc không cân bằng có thể khiến các mô hình học các mẫu không chính xác. Làm sạch bộ dữ liệu, sửa hình ảnh bị gắn nhãn sai và cân bằng các lớp giúp cải thiện độ chính xác và giảm nguy cơ overfitting. Một phương pháp hiệu quả khác là huấn luyện đối nghịch, trong đó mô hình được tiếp xúc với các ví dụ hơi khác hoặc khó khăn hơn được thiết kế để kiểm tra giới hạn của nó.

Những điều cần nhớ

Quá khớp (overfitting) là một vấn đề phổ biến trong thị giác máy tính. Một mô hình có thể hoạt động tốt trên dữ liệu huấn luyện nhưng lại gặp khó khăn với hình ảnh thực tế. Để tránh điều này, cần sử dụng các kỹ thuật như tăng cường dữ liệu, chuẩn hóa và sử dụng các mô hình được huấn luyện trước như YOLO11 giúp cải thiện độ chính xác và khả năng thích ứng.

Bằng cách áp dụng các phương pháp này, các mô hình AI có thể duy trì độ tin cậy và hoạt động tốt trong các môi trường khác nhau. Khi học sâu được cải thiện, việc đảm bảo các mô hình khái quát hóa đúng cách sẽ là chìa khóa cho sự thành công của AI trong thế giới thực.

Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Bạn đã sẵn sàng bắt đầu các dự án thị giác máy tính của riêng mình chưa? Hãy xem các tùy chọn cấp phép của chúng tôi. Khám phá Vision AI trong xe tự lái và AI trong chăm sóc sức khỏe bằng cách truy cập các trang giải pháp của chúng tôi!

Overfitting trong computer vision là gì và làm thế nào để ngăn chặn nó?

Overfitting là gì?

Quá trình overfitting xảy ra khi nào và tại sao?

Quá khớp (Overfitting) so với thiếu khớp (underfitting)

Cách xác định tình trạng quá khớp (overfitting)

Cách ngăn chặn tình trạng quá khớp trong thị giác máy tính

Tăng tính đa dạng của dữ liệu bằng cách tăng cường và sử dụng dữ liệu tổng hợp

Tối ưu hóa độ phức tạp và kiến trúc của mô hình

Áp dụng các kỹ thuật chính quy hóa (regularization)

Giám sát quá trình huấn luyện bằng cách xác thực và dừng sớm

Sử dụng các mô hình được huấn luyện trước và cải thiện việc dán nhãn bộ dữ liệu

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai
của AI!

Overfitting trong computer vision là gì và làm thế nào để ngăn chặn nó?

Overfitting là gì?

Quá trình overfitting xảy ra khi nào và tại sao?

Quá khớp (Overfitting) so với thiếu khớp (underfitting)

Cách xác định tình trạng quá khớp (overfitting)

Cách ngăn chặn tình trạng quá khớp trong thị giác máy tính

Tăng tính đa dạng của dữ liệu bằng cách tăng cường và sử dụng dữ liệu tổng hợp

Tối ưu hóa độ phức tạp và kiến trúc của mô hình

Áp dụng các kỹ thuật chính quy hóa (regularization)

Giám sát quá trình huấn luyện bằng cách xác thực và dừng sớm

Sử dụng các mô hình được huấn luyện trước và cải thiện việc dán nhãn bộ dữ liệu

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!