Thuật ngữ

Không vừa vặn

Khám phá underfitting là gì, nguyên nhân, dấu hiệu và giải pháp. Tìm hiểu cách cải thiện hiệu suất mô hình và tránh các vấn đề underfitting.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Underfitting xảy ra khi một mô hình học máy quá đơn giản để nắm bắt cấu trúc cơ bản của dữ liệu. Điều này thường xảy ra khi mô hình có quá ít tham số hoặc tính năng so với độ phức tạp của dữ liệu mà nó đang cố gắng học. Kết quả là, mô hình không học được đầy đủ từ dữ liệu đào tạo và hoạt động kém không chỉ trên tập đào tạo mà còn trên dữ liệu chưa biết, chẳng hạn như tập xác thực hoặc tập kiểm tra .

Đặc điểm chính của Underfitting

Các mô hình Underfit thường được đặc trưng bởi độ lệch cao và phương sai thấp. Độ lệch đề cập đến lỗi được đưa vào khi xấp xỉ một vấn đề thực tế, có thể phức tạp, bằng một mô hình đơn giản hóa. Một mô hình Underfit đưa ra các giả định quá đơn giản về dữ liệu, dẫn đến các lỗi hệ thống. Mặt khác, phương sai đề cập đến độ nhạy của mô hình đối với các biến động trong dữ liệu đào tạo. Các mô hình Underfit thể hiện phương sai thấp vì chúng quá đơn giản để bị ảnh hưởng nhiều bởi các thay đổi trong dữ liệu đào tạo. Tuy nhiên, sự đơn giản này cũng có nghĩa là chúng không thể nắm bắt được các mẫu và sắc thái quan trọng trong dữ liệu.

Nguyên nhân của việc không vừa vặn

Một số yếu tố có thể góp phần gây ra tình trạng không vừa vặn:

  • Độ phức tạp của mô hình: Sử dụng mô hình quá đơn giản so với độ phức tạp của dữ liệu. Ví dụ, cố gắng điều chỉnh mô hình tuyến tính cho dữ liệu có mối quan hệ phi tuyến tính cao.
  • Đào tạo không đủ: Không đào tạo mô hình trong đủ số kỷ nguyên hoặc sử dụng tốc độ học quá cao, khiến mô hình hội tụ sớm trước khi có thể học được các mẫu cơ bản.
  • Kỹ thuật tính năng kém: Không bao gồm các tính năng có liên quan hoặc sử dụng các tính năng không thể hiện đầy đủ cấu trúc cơ bản của dữ liệu. Kỹ thuật tính năng hiệu quả rất quan trọng để xây dựng các mô hình có thể khái quát hóa tốt.
  • Quá chính quy hóa: Áp dụng quá nhiều chính quy hóa , làm giảm độ phức tạp của mô hình và có thể ngăn mô hình học các mẫu quan trọng.

Phát hiện sự không phù hợp

Việc xác định sự thiếu phù hợp là điều cần thiết để cải thiện hiệu suất của mô hình. Các dấu hiệu thiếu phù hợp bao gồm:

  • Lỗi đào tạo cao: Mô hình hoạt động kém trên dữ liệu đào tạo, cho thấy mô hình chưa học được các mẫu cơ bản.
  • Lỗi xác thực/kiểm tra cao: Hiệu suất kém trên các bộ xác thực hoặc kiểm tra, tương tự như lỗi đào tạo, cho thấy mô hình quá đơn giản.
  • Đường cong học tập: Việc vẽ biểu đồ hiệu suất của mô hình trên các tập huấn luyện và xác thực theo thời gian có thể cho thấy sự không khớp. Nếu cả hai đường cong đều đạt đến mức lỗi cao, thì có khả năng mô hình không khớp.

Xử lý tình trạng thiếu phù hợp

Để chống lại tình trạng thiếu hụt, hãy cân nhắc các chiến lược sau:

  • Tăng độ phức tạp của mô hình: Sử dụng mô hình phức tạp hơn với nhiều tham số hoặc lớp hơn. Ví dụ, chuyển từ mô hình tuyến tính sang mô hình đa thức hoặc từ mạng nơ-ron nông sang mạng nơ-ron sâu .
  • Đào tạo lâu hơn: Tăng số kỷ nguyên đào tạo hoặc điều chỉnh tốc độ học để cho phép mô hình có nhiều thời gian hơn để học từ dữ liệu.
  • Cải thiện Kỹ thuật tính năng: Thêm các tính năng có liên quan hơn hoặc chuyển đổi các tính năng hiện có để thể hiện tốt hơn cấu trúc dữ liệu. Các kỹ thuật như tạo các thuật ngữ tương tác hoặc các tính năng đa thức có thể hữu ích.
  • Giảm mức độ chính quy hóa: Giảm lượng mức độ chính quy hóa được áp dụng cho mô hình, cho phép mô hình phù hợp hơn với dữ liệu đào tạo.

Phù hợp quá mức so với Phù hợp quá mức

Điều quan trọng là phải phân biệt underfitting với overfitting . Trong khi underfitting xảy ra khi một mô hình quá đơn giản, thì overfitting xảy ra khi một mô hình quá phức tạp và bắt đầu ghi nhớ dữ liệu đào tạo, bao gồm nhiễu và giá trị ngoại lai. Các mô hình overfit hoạt động cực kỳ tốt trên dữ liệu đào tạo nhưng kém trên dữ liệu không nhìn thấy. Việc cân bằng độ phức tạp của mô hình và đào tạo là rất quan trọng để tránh cả underfitting và overfitting.

Ví dụ thực tế

Ví dụ 1: Dự đoán giá nhà

Hãy tưởng tượng bạn đang xây dựng một mô hình để dự đoán giá nhà dựa trên kích thước của chúng. Nếu bạn sử dụng một mô hình hồi quy tuyến tính đơn giản và giả định rằng giá nhà tăng tuyến tính theo kích thước, bạn có thể không phù hợp với dữ liệu. Trên thực tế, mối quan hệ giữa kích thước nhà và giá có thể phức tạp hơn, liên quan đến các yếu tố như lợi nhuận giảm dần đối với kích thước lớn hơn hoặc giá cao cấp cho một số phạm vi kích thước nhất định. Một mô hình tuyến tính sẽ không nắm bắt được những sắc thái này, dẫn đến hiệu suất dự đoán kém trên cả dữ liệu đào tạo và dữ liệu mới.

Ví dụ 2: Phân loại hình ảnh

Hãy xem xét một nhiệm vụ phân loại hình ảnh trong đó bạn đang cố gắng phân loại hình ảnh động vật thành các loại khác nhau. Nếu bạn sử dụng một mô hình rất đơn giản, chẳng hạn như hồi quy logistic, bạn có thể không phù hợp với dữ liệu. Phân loại hình ảnh thường đòi hỏi phải nắm bắt các mẫu và đặc điểm phức tạp trong hình ảnh, điều mà một mô hình đơn giản không thể làm được. Do đó, mô hình sẽ hoạt động kém trên cả tập huấn luyện và hình ảnh mới, chưa từng thấy. Sử dụng một mô hình phức tạp hơn, như mạng nơ-ron tích chập (CNN) , có thể cải thiện đáng kể hiệu suất.

Bằng cách hiểu được nguyên nhân và dấu hiệu của việc không phù hợp, các học viên có thể thực hiện các bước thích hợp để cải thiện mô hình của họ. Các công cụ như Ultralytics YOLOv8 cung cấp các khả năng nâng cao để xây dựng và điều chỉnh các mô hình phức tạp , giúp tránh tình trạng thiếu phù hợp và cải thiện hiệu suất trên nhiều tác vụ thị giác máy tính khác nhau. Để biết thêm thông tin chi tiết về đào tạo và tối ưu hóa mô hình, hãy truy cập Blog Ultralytics .

Đọc tất cả