Chuẩn hóa là một kỹ thuật quan trọng trong học máy được sử dụng để ngăn chặn quá khớp và cải thiện khả năng khái quát hóa của các mô hình đối với dữ liệu chưa biết. Nó hoạt động bằng cách thêm các ràng buộc bổ sung vào quy trình đào tạo mô hình, ngăn cản các mô hình quá phức tạp ghi nhớ dữ liệu đào tạo thay vì học các mẫu cơ bản. Điều này dẫn đến các mô hình hoạt động tốt hơn trên dữ liệu mới, chưa biết, đây là mục tiêu cuối cùng của học máy.
Chính quy hóa là gì?
Về bản chất, chính quy hóa nhằm mục đích đơn giản hóa mô hình bằng cách phạt độ phức tạp trong quá trình đào tạo. Các mô hình phức tạp với nhiều tham số dễ bị nhiễu trong dữ liệu đào tạo, dẫn đến hiệu suất kém trên dữ liệu mới. Các phương pháp chính quy hóa đưa ra một thuật ngữ phạt vào hàm mất mát mà mô hình cố gắng giảm thiểu. Hình phạt này ngăn cản mô hình gán trọng số quá lớn cho các tính năng, do đó thúc đẩy các mô hình đơn giản hơn và có thể khái quát hóa hơn. Bằng cách kiểm soát độ phức tạp của mô hình, chính quy hóa giúp tạo ra sự cân bằng giữa việc phù hợp tốt với dữ liệu đào tạo và khái quát hóa cho dữ liệu mới, giải quyết sự đánh đổi giữa độ lệch và phương sai .
Các loại chính quy hóa
Một số kỹ thuật chính quy hóa thường được sử dụng trong học máy, mỗi kỹ thuật có cách tiếp cận riêng để xử phạt độ phức tạp của mô hình. Một số kỹ thuật phổ biến nhất bao gồm:
- Chính quy hóa L1 (Lasso): Thêm một hình phạt tỷ lệ thuận với giá trị tuyệt đối của trọng số. Điều này khuyến khích sự thưa thớt trong mô hình, thực sự đưa một số trọng số tính năng về 0 và thực hiện lựa chọn tính năng. Chính quy hóa L1 có thể đặc biệt hữu ích khi xử lý dữ liệu có nhiều chiều, trong đó nhiều tính năng có thể không liên quan.
- Chính quy hóa L2 (Ridge): Thêm một hình phạt tỷ lệ với bình phương độ lớn của trọng số. Điều này làm giảm tất cả các trọng số về 0, nhưng không giống như L1, nó hiếm khi đặt chúng chính xác về 0. Chính quy hóa L2 làm giảm tác động của các tính năng ít quan trọng hơn mà không loại bỏ hoàn toàn chúng, dẫn đến các mô hình ổn định và mạnh mẽ hơn.
- Dropout: Một kỹ thuật dành riêng cho mạng nơ-ron, các lớp dropout ngẫu nhiên đặt một phần nơ-ron thành 0 trong mỗi lần lặp lại đào tạo. Điều này ngăn không cho nơ-ron đồng thích ứng quá nhiều với dữ liệu đào tạo và buộc mạng phải học các tính năng mạnh mẽ và độc lập hơn. Dropout có hiệu quả trong việc giảm tình trạng quá khớp và cải thiện khả năng khái quát hóa của các mô hình học sâu.
- Dừng sớm: Theo dõi hiệu suất của mô hình trên tập dữ liệu xác thực trong quá trình đào tạo và dừng đào tạo khi hiệu suất xác thực bắt đầu giảm. Điều này ngăn mô hình tiếp tục học dữ liệu đào tạo quá tốt và mất khả năng khái quát hóa. Dừng sớm là một hình thức chính quy hóa đơn giản nhưng hiệu quả.
Ứng dụng trong thế giới thực
Chính quy hóa được áp dụng rộng rãi trên nhiều lĩnh vực khác nhau trong AI và học máy để cải thiện hiệu suất và độ tin cậy của mô hình. Sau đây là một vài ví dụ:
- Phân loại hình ảnh: Trong các nhiệm vụ phân loại hình ảnh sử dụng Ultralytics YOLO mô hình, chính quy hóa L2 thường được sử dụng trong hàm mất mát để ngăn chặn quá khớp, đặc biệt là khi đào tạo trên các tập dữ liệu nhỏ hơn. Các kỹ thuật như điều chỉnh siêu tham số có thể được sử dụng để tìm cường độ chính quy hóa tối ưu, cân bằng độ chính xác và khái quát hóa.
- Xử lý ngôn ngữ tự nhiên (NLP): Khi sử dụng các mô hình để phân tích tình cảm hoặc tạo văn bản , việc điều chỉnh dropout có thể rất quan trọng trong việc ngăn các mạng nơ-ron phức tạp ghi nhớ văn bản đào tạo và thay vào đó học các mẫu ngôn ngữ chung hơn. Điều này dẫn đến các mô hình hiểu và tạo văn bản mới, chưa từng thấy tốt hơn.
Bằng cách áp dụng các kỹ thuật chính quy hóa, những người thực hành học máy có thể xây dựng các mô hình AI mạnh mẽ, đáng tin cậy và tổng quát hơn, hoạt động hiệu quả trong các ứng dụng thực tế. Việc khám phá sâu hơn các kỹ thuật như tăng cường dữ liệu cùng với chính quy hóa có thể nâng cao hơn nữa hiệu suất và độ mạnh mẽ của mô hình.