Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Quá khớp trong thị giác máy tính là gì và làm thế nào để ngăn ngừa hiện tượng này?

Tìm hiểu hiện tượng quá khớp trong thị giác máy tính và cách ngăn chặn hiện tượng này bằng cách tăng cường dữ liệu, chuẩn hóa và các mô hình được đào tạo trước.

Các mô hình thị giác máy tính được thiết kế để nhận dạng các mẫu, phát hiện đối tượng và phân tích hình ảnh. Tuy nhiên, hiệu suất của chúng phụ thuộc vào mức độ khái quát hóa của chúng đối với dữ liệu chưa thấy. Khái quát hóa là khả năng hoạt động tốt của mô hình trên các hình ảnh mới, không chỉ trên các hình ảnh mà nó được đào tạo. Một vấn đề phổ biến trong quá trình đào tạo các mô hình này là quá khớp , trong đó mô hình học quá nhiều từ dữ liệu đào tạo của nó, bao gồm cả nhiễu không cần thiết, thay vì xác định các mẫu có ý nghĩa.

Khi điều này xảy ra, mô hình hoạt động tốt trên dữ liệu đào tạo nhưng gặp khó khăn với hình ảnh mới. Ví dụ, mô hình phát hiện đối tượng chỉ được đào tạo trên hình ảnh có độ phân giải cao, đủ sáng có thể không thành công khi hiển thị hình ảnh mờ hoặc tối trong điều kiện thực tế. Quá trình lắp ghép hạn chế khả năng thích ứng của mô hình, hạn chế việc sử dụng mô hình trong các ứng dụng thực tế như lái xe tự động, hình ảnh y tế và hệ thống an ninh.

Trong bài viết này, chúng ta sẽ tìm hiểu overfitting là gì, tại sao nó xảy ra và cách ngăn chặn nó. Chúng ta cũng sẽ xem xét cách các mô hình thị giác máy tính như Ultralytics YOLO11 giúp giảm overfitting và cải thiện khả năng khái quát hóa.

Quá khớp là gì?

Quá khớp xảy ra khi một mô hình ghi nhớ dữ liệu đào tạo thay vì học các mẫu áp dụng rộng rãi cho các đầu vào mới. Mô hình tập trung quá nhiều vào dữ liệu đào tạo, do đó gặp khó khăn với các hình ảnh hoặc tình huống mới mà nó chưa từng thấy trước đây.

Trong thị giác máy tính, việc quá khớp có thể ảnh hưởng đến các tác vụ khác nhau. Một mô hình phân loại chỉ được đào tạo trên các hình ảnh sáng, rõ nét có thể gặp khó khăn trong điều kiện ánh sáng yếu. Một mô hình phát hiện đối tượng học từ các hình ảnh hoàn hảo có thể không thành công trong các cảnh đông đúc hoặc lộn xộn. Tương tự như vậy, một mô hình phân đoạn thể hiện có thể hoạt động tốt trong các cài đặt được kiểm soát nhưng gặp sự cố với bóng đổ hoặc các đối tượng chồng chéo.

Điều này trở thành vấn đề trong các ứng dụng AI thực tế, nơi các mô hình phải có khả năng khái quát hóa vượt ra ngoài các điều kiện đào tạo được kiểm soát. Ví dụ, xe tự lái phải có khả năng phát hiện người đi bộ trong các điều kiện ánh sáng, thời tiết và môi trường khác nhau. Một mô hình quá phù hợp với bộ đào tạo của nó sẽ không hoạt động đáng tin cậy trong các tình huống không thể đoán trước như vậy.

Khi nào và tại sao hiện tượng quá khớp xảy ra?

Quá trình lắp ghép thường xảy ra do bộ dữ liệu mất cân bằng, mô hình phức tạp quá mức và đào tạo quá mức. Sau đây là những nguyên nhân chính:

  • Dữ liệu đào tạo hạn chế : Các tập dữ liệu nhỏ khiến các mô hình ghi nhớ các mẫu thay vì khái quát hóa chúng. Một mô hình chỉ được đào tạo trên 50 hình ảnh chim có thể gặp khó khăn trong việc phát hiện các loài chim bên ngoài tập dữ liệu đó.

  • Các mô hình phức tạp với quá nhiều tham số : Các mạng sâu với nhiều lớp và nơ-ron có xu hướng ghi nhớ các chi tiết nhỏ thay vì tập trung vào các tính năng cần thiết.

  • Thiếu khả năng tăng cường dữ liệu : Nếu không có các chuyển đổi như cắt xén, lật hoặc xoay, mô hình chỉ có thể học từ chính hình ảnh đào tạo của nó.

  • Đào tạo kéo dài : Nếu một mô hình phải trải qua dữ liệu đào tạo quá nhiều lần, được gọi là kỷ nguyên , thì nó sẽ ghi nhớ các chi tiết thay vì học các mẫu chung, khiến khả năng thích ứng của mô hình kém hơn.

  • Nhãn không nhất quán hoặc nhiễu : Dữ liệu được gắn nhãn không chính xác khiến mô hình học các mẫu sai. Điều này thường gặp trong các tập dữ liệu được gắn nhãn thủ công.

Một cách tiếp cận cân bằng giữa độ phức tạp của mô hình, chất lượng tập dữ liệu và kỹ thuật đào tạo sẽ đảm bảo khả năng khái quát hóa tốt hơn.

Quá phù hợp so với quá phù hợp

Quá khớp và quá khớp là hai vấn đề hoàn toàn đối lập trong học sâu.

Hình 1. So sánh giữa việc thiếu khớp, học tối ưu và quá khớp trong các mô hình thị giác máy tính.

Quá khớp xảy ra khi một mô hình quá phức tạp, khiến nó tập trung quá mức vào dữ liệu đào tạo. Thay vì học các mẫu chung, nó ghi nhớ các chi tiết nhỏ, thậm chí là những chi tiết không liên quan như tiếng ồn nền. Điều này khiến mô hình hoạt động tốt trên dữ liệu đào tạo nhưng lại gặp khó khăn với hình ảnh mới, nghĩa là nó chưa thực sự học được cách nhận dạng các mẫu áp dụng trong các tình huống khác nhau.

Underfitting xảy ra khi một mô hình quá cơ bản, do đó nó bỏ lỡ các mẫu quan trọng trong dữ liệu. Điều này có thể xảy ra khi mô hình có quá ít lớp, không đủ thời gian đào tạo hoặc dữ liệu bị hạn chế. Do đó, nó không nhận ra các mẫu quan trọng và đưa ra các dự đoán không chính xác. Điều này dẫn đến hiệu suất kém trên cả dữ liệu đào tạo và dữ liệu thử nghiệm vì mô hình chưa học đủ để hiểu đúng nhiệm vụ. 

Một mô hình được đào tạo tốt sẽ tìm được sự cân bằng giữa tính phức tạp và khái quát. Nó phải đủ phức tạp để học các mẫu có liên quan nhưng không quá phức tạp đến mức ghi nhớ dữ liệu thay vì nhận ra các mối quan hệ cơ bản.

Làm thế nào để xác định quá khớp

Sau đây là một số dấu hiệu cho thấy mô hình đang quá khớp:

  • Nếu độ chính xác của quá trình đào tạo cao hơn đáng kể so với độ chính xác xác thực thì có khả năng mô hình đang quá khớp.
  • Một chỉ báo mạnh khác là khoảng cách ngày càng lớn giữa mất mát do đào tạo và mất mát do xác nhận.
  • Mô hình quá tự tin vào câu trả lời sai, cho thấy nó chỉ ghi nhớ các chi tiết thay vì hiểu các mô hình.

Để đảm bảo một mô hình có khả năng tổng quát tốt, nó cần được thử nghiệm trên nhiều tập dữ liệu khác nhau phản ánh các điều kiện thực tế.

Làm thế nào để ngăn chặn tình trạng quá khớp trong thị giác máy tính

Quá khớp không phải là điều không thể tránh khỏi và có thể ngăn ngừa được. Với các kỹ thuật phù hợp, các mô hình thị giác máy tính có thể học các mẫu chung thay vì ghi nhớ dữ liệu đào tạo, khiến chúng đáng tin cậy hơn trong các ứng dụng thực tế. 

Sau đây là năm chiến lược chính để ngăn ngừa hiện tượng quá khớp trong thị giác máy tính.

Tăng cường tính đa dạng của dữ liệu bằng cách tăng cường và tổng hợp dữ liệu

Cách tốt nhất để giúp mô hình hoạt động tốt trên dữ liệu mới là mở rộng tập dữ liệu bằng cách sử dụng dữ liệu tăng cường và dữ liệu tổng hợp . Dữ liệu tổng hợp được tạo bằng máy tính thay vì thu thập từ hình ảnh thực tế. Nó giúp lấp đầy khoảng trống khi không có đủ dữ liệu thực tế.

Hình 2. Combining real-world and synthetic data reduces overfitting and improves object detection accuracy.

Việc tăng cường dữ liệu sẽ thay đổi đôi chút các hình ảnh hiện có bằng cách lật, xoay, cắt hoặc điều chỉnh độ sáng, do đó mô hình không chỉ ghi nhớ các chi tiết mà còn học cách nhận dạng các đối tượng trong các tình huống khác nhau.

Dữ liệu tổng hợp hữu ích khi khó có được hình ảnh thực tế. Ví dụ, các mô hình xe tự lái có thể đào tạo trên các cảnh đường do máy tính tạo ra để học cách phát hiện các vật thể trong các điều kiện thời tiết và ánh sáng khác nhau. Điều này làm cho mô hình linh hoạt và đáng tin cậy hơn mà không cần hàng nghìn hình ảnh thực tế.

Tối ưu hóa độ phức tạp và kiến trúc của mô hình

Mạng nơ-ron sâu, là một loại mô hình học máy có nhiều lớp xử lý dữ liệu thay vì một lớp duy nhất, không phải lúc nào cũng tốt hơn. Khi một mô hình có quá nhiều lớp hoặc tham số, nó sẽ ghi nhớ dữ liệu đào tạo thay vì nhận dạng các mẫu rộng hơn. Giảm độ phức tạp không cần thiết có thể giúp ngăn ngừa tình trạng quá khớp.

Để đạt được điều này, một cách tiếp cận là cắt tỉa , loại bỏ các nơ-ron và kết nối dư thừa, giúp mô hình tinh gọn và hiệu quả hơn. 

Một cách khác là đơn giản hóa kiến trúc bằng cách giảm số lớp hoặc nơ-ron. Các mô hình được đào tạo trước như YOLO11 được thiết kế để khái quát hóa tốt trên các tác vụ có ít tham số hơn, giúp chúng chống lại hiện tượng quá khớp hơn so với việc đào tạo một mô hình sâu từ đầu.

Việc tìm ra sự cân bằng phù hợp giữa độ sâu và hiệu quả của mô hình giúp nó học được các mẫu hữu ích mà không chỉ ghi nhớ dữ liệu đào tạo.

Áp dụng các kỹ thuật chính quy hóa

Các kỹ thuật chính quy hóa ngăn chặn các mô hình trở nên quá phụ thuộc vào các tính năng cụ thể trong dữ liệu đào tạo. Sau đây là một số kỹ thuật thường được sử dụng:

  • Dropout tắt các phần ngẫu nhiên của mô hình trong quá trình đào tạo để mô hình học cách nhận dạng các mẫu khác nhau thay vì phụ thuộc quá nhiều vào một vài tính năng.

  • Giảm trọng số (chính quy hóa L2) ngăn chặn các giá trị trọng số cực đoan, giúp kiểm soát độ phức tạp của mô hình.

  • Chuẩn hóa theo lô giúp ổn định quá trình đào tạo bằng cách đảm bảo mô hình ít nhạy cảm hơn với các biến thể trong tập dữ liệu.

Các kỹ thuật này giúp duy trì tính linh hoạt và khả năng thích ứng của mô hình, giảm nguy cơ quá khớp trong khi vẫn đảm bảo độ chính xác.

Giám sát đào tạo bằng cách xác nhận và dừng sớm

Để ngăn ngừa tình trạng quá khớp, điều quan trọng là phải theo dõi cách mô hình học và đảm bảo nó khái quát hóa tốt với dữ liệu mới. Sau đây là một số kỹ thuật giúp ích cho việc này:

  • Dừng sớm : Tự động kết thúc quá trình đào tạo khi mô hình ngừng cải thiện, do đó mô hình không tiếp tục học các chi tiết không cần thiết.

  • Xác thực chéo : Chia dữ liệu thành nhiều phần và đào tạo mô hình trên từng phần. Điều này giúp mô hình học các mẫu thay vì ghi nhớ các hình ảnh cụ thể.

Các kỹ thuật này giúp mô hình duy trì sự cân bằng để có thể học đủ để trở nên chính xác mà không quá tập trung vào dữ liệu đào tạo.

Sử dụng các mô hình được đào tạo trước và cải thiện việc dán nhãn tập dữ liệu

Thay vì đào tạo từ đầu, hãy sử dụng các mô hình được đào tạo trước như YOLO11 có thể giảm hiện tượng quá khớp. YOLO11 được đào tạo trên các tập dữ liệu quy mô lớn, cho phép nó khái quát hóa tốt trong nhiều điều kiện khác nhau.

Hình 3. Các mô hình thị giác máy tính được đào tạo trước giúp tăng cường độ chính xác và ngăn ngừa hiện tượng quá khớp.

Việc tinh chỉnh một mô hình được đào tạo trước giúp nó duy trì những gì nó đã biết trong khi học các nhiệm vụ mới, do đó nó không chỉ ghi nhớ dữ liệu đào tạo.

Ngoài ra, việc đảm bảo dán nhãn tập dữ liệu chất lượng cao là điều cần thiết. Dữ liệu dán nhãn sai hoặc mất cân bằng có thể khiến các mô hình học sai các mẫu. Làm sạch tập dữ liệu, sửa các hình ảnh dán nhãn sai và cân bằng các lớp sẽ cải thiện độ chính xác và giảm nguy cơ quá khớp. Một cách tiếp cận hiệu quả khác là đào tạo đối nghịch , trong đó mô hình được tiếp xúc với các ví dụ thay đổi một chút hoặc khó hơn được thiết kế để kiểm tra giới hạn của nó.

Những điểm chính

Quá khớp là một vấn đề phổ biến trong thị giác máy tính. Một mô hình có thể hoạt động tốt trên dữ liệu đào tạo nhưng lại gặp khó khăn với hình ảnh thực tế. Để tránh điều này, các kỹ thuật như tăng cường dữ liệu, chính quy hóa và sử dụng các mô hình được đào tạo trước như YOLO11 giúp cải thiện độ chính xác và khả năng thích ứng.

Bằng cách áp dụng các phương pháp này, các mô hình AI có thể duy trì độ tin cậy và hoạt động tốt trong các môi trường khác nhau. Khi học sâu được cải thiện, việc đảm bảo các mô hình tổng quát hóa đúng cách sẽ là chìa khóa cho thành công của AI trong thế giới thực.

Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Sẵn sàng bắt đầu các dự án thị giác máy tính của riêng bạn? Hãy xem các tùy chọn cấp phép của chúng tôi. Khám phá Vision AI trong xe tự láiAI trong chăm sóc sức khỏe bằng cách truy cập các trang giải pháp của chúng tôi!

Logo FacebookBiểu trưng TwitterBiểu tượng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning