Thuật ngữ

Không vừa vặn

Tìm hiểu cách xác định, ngăn ngừa và giải quyết tình trạng thiếu phù hợp trong các mô hình học máy bằng các mẹo, chiến lược của chuyên gia và ví dụ thực tế.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong lĩnh vực học máy (ML) , việc đạt được hiệu suất mô hình tối ưu đòi hỏi phải tìm được sự cân bằng giữa tính đơn giản và tính phức tạp. Sự không phù hợp là một vấn đề phổ biến khi một mô hình quá đơn giản để nắm bắt được các mẫu cơ bản có trong dữ liệu đào tạo . Điều này có nghĩa là mô hình không học hiệu quả, dẫn đến hiệu suất kém không chỉ trên dữ liệu mà nó được đào tạo mà còn trên dữ liệu mới, chưa thấy ( dữ liệu thử nghiệm hoặc đầu vào trong thế giới thực). Một mô hình không phù hợp thiếu khả năng hoặc thời gian đào tạo cần thiết để biểu diễn các mối quan hệ trong dữ liệu một cách chính xác, dẫn đến độ lệch cao và không có khả năng khái quát hóa tốt.

Nguyên nhân nào gây ra tình trạng không vừa vặn?

Một số yếu tố có thể góp phần tạo nên mô hình không phù hợp:

  • Độ phức tạp của mô hình không đủ: Mô hình được chọn có thể quá đơn giản so với độ phức tạp của dữ liệu. Ví dụ, sử dụng mô hình hồi quy tuyến tính cơ bản cho dữ liệu có các mẫu phi tuyến tính hoặc sử dụng mạng nơ-ron (NN) có quá ít lớp hoặc nơ-ron.
  • Kỹ thuật tính năng không đầy đủ: Các tính năng đầu vào được cung cấp cho mô hình có thể không chứa đủ thông tin có liên quan hoặc có thể không biểu diễn hiệu quả các mẫu cơ bản.
  • Dữ liệu đào tạo không đủ: Mô hình có thể chưa thấy đủ ví dụ để học các mẫu cơ bản. Điều này đặc biệt đúng đối với các mô hình học sâu phức tạp. Có dữ liệu đa dạng và đại diện là rất quan trọng, có thể được khám phá thông qua các nền tảng như bộ dữ liệu Ultralytics .
  • Đào tạo quá ngắn: Quá trình đào tạo mô hình có thể bị dừng lại trước thời hạn, trước khi nó có đủ số kỷ nguyên để học các mẫu trong dữ liệu.
  • Chính quy hóa quá mức: Các kỹ thuật được sử dụng để ngăn ngừa tình trạng quá khớp , chẳng hạn như chính quy hóa L1 hoặc L2 hoặc tỷ lệ bỏ học cao, đôi khi có thể hạn chế mô hình quá mức, ngăn mô hình học các mẫu cần thiết nếu áp dụng quá nhiều.

Xác định sự không phù hợp

Tình trạng thiếu khớp thường được chẩn đoán bằng cách đánh giá hiệu suất của mô hình trong và sau khi đào tạo:

  • Lỗi đào tạo cao: Mô hình hoạt động kém ngay cả trên dữ liệu mà nó được đào tạo. Các số liệu chính như độ chính xác , độ chính xác , độ thu hồi hoặc điểm F1 đều thấp và giá trị hàm mất mát vẫn cao.
  • Lỗi xác thực/kiểm tra cao: Mô hình cũng hoạt động kém trên dữ liệu xác thực hoặc dữ liệu kiểm tra chưa biết. Khoảng cách hiệu suất giữa lỗi đào tạo và lỗi xác thực thường nhỏ, nhưng cả hai lỗi đều cao không thể chấp nhận được.
  • Đường cong học tập : Việc vẽ biểu đồ mất mát/số liệu đào tạo và xác thực so với các kỷ nguyên đào tạo có thể cho thấy sự không phù hợp. Nếu cả hai đường cong đều đạt đến mức lỗi cao, thì có khả năng mô hình đang không phù hợp. Bạn có thể theo dõi những điều này bằng các công cụ như TensorBoard hoặc Weights & Biases . Việc hiểu các số liệu hiệu suất YOLO cụ thể cũng rất quan trọng.

Xử lý tình trạng thiếu phù hợp

Một số chiến lược có thể giúp khắc phục tình trạng thiếu hụt:

Phù hợp quá mức so với Phù hợp quá mức

Quá trình lắp ghép và lắp ghép không đủ là hai mặt của một đồng xu, biểu thị những thất bại trong quá trình tổng quát hóa mô hình.

  • Không khớp: Mô hình quá đơn giản ( độ lệch cao). Mô hình không nắm bắt được xu hướng cơ bản trong dữ liệu, dẫn đến hiệu suất kém trên cả tập huấn luyện và tập kiểm tra.
  • Quá khớp: Mô hình quá phức tạp (độ biến thiên cao). Nó học dữ liệu đào tạo quá tốt, bao gồm nhiễu và biến động ngẫu nhiên, dẫn đến hiệu suất tuyệt vời trên tập đào tạo nhưng hiệu suất kém trên dữ liệu chưa biết.

Mục tiêu trong ML là tìm ra điểm lý tưởng giữa tình trạng thiếu phù hợp và quá phù hợp, thường được thảo luận trong bối cảnh đánh đổi độ lệch-phương sai , trong đó mô hình học được các mẫu cơ bản thực sự mà không cần ghi nhớ nhiễu.

Ví dụ thực tế về việc thiếu khớp

  1. Simple Image Classifier: Đào tạo một Convolutional Neural Network (CNN) rất cơ bản (ví dụ, chỉ với một hoặc hai lớp tích chập) trên một tác vụ phân loại hình ảnh phức tạp như phân loại hàng nghìn danh mục đối tượng trong ImageNet . Mô hình có thể sẽ không phù hợp vì khả năng hạn chế của nó ngăn cản nó học các tính năng phức tạp cần thiết để phân biệt hiệu quả giữa nhiều lớp. Độ chính xác của cả quá trình đào tạo và xác thực sẽ vẫn thấp.
  2. Bảo trì dự đoán cơ bản: Sử dụng mô hình tuyến tính đơn giản để dự đoán lỗi máy chỉ dựa trên nhiệt độ vận hành. Nếu lỗi thực sự bị ảnh hưởng bởi sự tương tác phức tạp của các yếu tố như độ rung, tuổi thọ, áp suất và nhiệt độ không tuyến tính, mô hình tuyến tính sẽ không phù hợp. Nó không thể nắm bắt được độ phức tạp thực sự, dẫn đến hiệu suất mô hình dự đoán kém và không thể dự đoán lỗi chính xác. Việc sử dụng các mô hình phức tạp hơn hoặc các tính năng tốt hơn sẽ là cần thiết. Các khuôn khổ như PyTorch hoặc TensorFlow cung cấp các công cụ để xây dựng các mô hình tinh vi hơn.
Đọc tất cả