Thuật ngữ

Chính quy hóa

Ngăn ngừa quá khớp và cải thiện khả năng khái quát hóa mô hình bằng các kỹ thuật chính quy hóa như L1, L2, dropout và dừng sớm. Tìm hiểu thêm!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Chuẩn hóa là một tập hợp các kỹ thuật được sử dụng trong Học máy (ML) để ngăn ngừa một vấn đề phổ biến được gọi là quá khớp . Quá khớp xảy ra khi một mô hình học dữ liệu đào tạo quá tốt, bao gồm cả nhiễu và biến động ngẫu nhiên, ảnh hưởng tiêu cực đến hiệu suất của mô hình trên dữ liệu mới, chưa từng thấy. Các phương pháp chuẩn hóa đưa ra hình phạt cho độ phức tạp của mô hình, khuyến khích mô hình học các mẫu đơn giản hơn có thể khái quát hóa tốt hơn với dữ liệu mới. Điều này rất quan trọng để xây dựng các mô hình AI mạnh mẽ, bao gồm các mô hình được sử dụng trong thị giác máy tính (CV)xử lý ngôn ngữ tự nhiên (NLP) .

Tầm quan trọng trong Học máy

Chuẩn hóa là nền tảng cho việc đào tạo các mô hình ML đáng tin cậy, đặc biệt là các mô hình phức tạp như mô hình học sâu (DL)mạng nơ-ron (NN) . Nếu không có chuẩn hóa, các mô hình này có thể dễ dàng ghi nhớ dữ liệu đào tạo thay vì học các mẫu cơ bản. Điều này dẫn đến độ chính xác cao trên tập đào tạo nhưng hiệu suất kém trên dữ liệu xác thực hoặc đầu vào trong thế giới thực. Bằng cách thêm một thuật ngữ phạt vào hàm mất mát , chuẩn hóa giúp kiểm soát độ lớn của trọng số mô hình , đơn giản hóa hiệu quả mô hình và cải thiện khả năng khái quát hóa của nó. Sự cân bằng giữa việc khớp dữ liệu và duy trì tính đơn giản này thường được thảo luận trong bối cảnh đánh đổi độ lệch-phương sai . Đối với các mô hình như Ultralytics YOLO , chuẩn hóa góp phần đạt được độ chính xác cao trong các tác vụ đòi hỏi khắt khe như phát hiện đối tượng theo thời gian thực.

Các kỹ thuật chính quy hóa phổ biến

Một số kỹ thuật chính quy hóa được sử dụng rộng rãi:

  • L1 Regularization (Lasso): Thêm một hình phạt bằng giá trị tuyệt đối của độ lớn hệ số. Điều này có thể khiến một số trọng số trở thành chính xác bằng không, thực hiện lựa chọn tính năng hiệu quả. Tìm hiểu thêm về Lasso Regression .
  • L2 Regularization (Ridge): Thêm một hình phạt bằng bình phương độ lớn của các hệ số. Nó làm giảm trọng số về 0 nhưng hiếm khi làm cho chúng chính xác bằng 0. Tìm hiểu thêm về Ridge Regression .
  • Dropout Layer : Chủ yếu được sử dụng trong mạng nơ-ron, dropout ngẫu nhiên đặt một phần đầu ra của nơ-ron thành 0 trong quá trình đào tạo. Điều này ngăn không cho các nơ-ron đồng thích nghi quá nhiều và buộc mạng phải học các tính năng mạnh mẽ hơn. Xem bài báo Dropout gốc để biết chi tiết.
  • Dừng sớm: Theo dõi hiệu suất của mô hình trên một tập hợp xác thực trong quá trình đào tạo và dừng quá trình đào tạo khi hiệu suất ngừng cải thiện, ngăn mô hình quá khớp khi quá trình đào tạo diễn ra. Đây là một thực hành phổ biến được thảo luận trong các mẹo đào tạo mô hình .
  • Tăng cường dữ liệu : Tăng tính đa dạng của dữ liệu đào tạo bằng cách áp dụng các phép biến đổi ngẫu nhiên (như xoay, chia tỷ lệ, cắt xén) vào dữ liệu hiện có. Điều này giúp mô hình trở nên bất biến hơn với các biến thể như vậy. Khám phá các kỹ thuật tăng cường dữ liệu .

Sự khác biệt từ các khái niệm liên quan

Chính quy hóa khác biệt với các khái niệm ML quan trọng khác:

  • Thuật toán tối ưu hóa : Các thuật toán như Gradient Descent hoặc Adam Optimizer được sử dụng để giảm thiểu hàm mất mát và cập nhật các tham số mô hình trong quá trình đào tạo. Chính quy hóa sửa đổi hàm mất mát này bằng cách thêm một thuật ngữ phạt, hướng dẫn quá trình tối ưu hóa theo các mô hình đơn giản hơn, nhưng nó không phải là thuật toán tối ưu hóa.
  • Điều chỉnh siêu tham số : Điều này liên quan đến việc tìm siêu tham số tối ưu (ví dụ: tốc độ học, số lớp) cho một mô hình, thường sử dụng các kỹ thuật như tìm kiếm lưới hoặc các phương pháp tự động có sẵn trong các nền tảng như Ultralytics HUB . Độ mạnh của chính quy hóa (ví dụ: hệ số phạt trong L1/L2) tự nó là một siêu tham số cần điều chỉnh, nhưng chính quy hóa là kỹ thuật được áp dụng, trong khi điều chỉnh siêu tham số là quá trình thiết lập độ mạnh của nó cùng với các tham số khác.

Ứng dụng trong thế giới thực

Các kỹ thuật chính quy hóa rất cần thiết cho sự thành công thực tế của nhiều ứng dụng AI:

Ví dụ 1: Phân loại hình ảnh

Trong phân loại hình ảnh , mạng nơ-ron sâu như CNN có thể có hàng triệu tham số. Nếu không có chính quy hóa (như Dropout hoặc L2), các mô hình này có thể dễ dàng quá khớp với các tập dữ liệu như ImageNet . Chính quy hóa giúp đảm bảo rằng mô hình học các đặc điểm trực quan chung (cạnh, kết cấu, hình dạng) thay vì ghi nhớ các hình ảnh đào tạo cụ thể, dẫn đến độ chính xác phân loại tốt hơn trên các hình ảnh mới gặp phải trong các ứng dụng từ phân tích hình ảnh y tế đến lái xe tự động. Xem cách giải quyết quá khớp trong các dự án thị giác máy tính .

Ví dụ 2: Xử lý ngôn ngữ tự nhiên

Trong các tác vụ NLP như phân tích tình cảm hoặc dịch máy, các mô hình như Transformers cũng có thể bị quá khớp, đặc biệt là với dữ liệu đào tạo hạn chế. Các kỹ thuật chính quy hóa, bao gồm dropout và weight decay (L2), được áp dụng để ngăn mô hình dựa quá nhiều vào các từ hoặc cụm từ cụ thể chỉ có trong ngữ liệu đào tạo. Điều này cải thiện khả năng hiểu và tạo ngôn ngữ của con người hiệu quả hơn của mô hình trong các tình huống thực tế như chatbot hoặc các công cụ tóm tắt nội dung .

Đọc tất cả