Tăng hiệu suất học sâu với chuẩn hóa hàng loạt! Tìm hiểu cách kỹ thuật này tăng cường tốc độ đào tạo, tính ổn định và độ chính xác trong các mô hình AI.
Chuẩn hóa theo lô là một kỹ thuật được sử dụng trong quá trình đào tạo mạng nơ-ron sâu (DNN) để ổn định quá trình học và giảm đáng kể số kỷ nguyên đào tạo cần thiết. Được giới thiệu bởi Sergey Ioffe và Christian Szegedy trong bài báo năm 2015 của họ, " Chuẩn hóa theo lô: Tăng tốc đào tạo mạng sâu bằng cách giảm dịch chuyển biến số nội bộ ", nó giải quyết vấn đề trong đó phân phối đầu vào cho các lớp sâu trong mạng thay đổi trong quá trình đào tạo, làm chậm quá trình hội tụ. Bằng cách chuẩn hóa đầu vào cho từng lớp, Chuẩn hóa theo lô giúp duy trì phân phối ổn định hơn, dẫn đến đào tạo nhanh hơn và đáng tin cậy hơn.
Trong quá trình đào tạo, Chuẩn hóa theo lô chuẩn hóa các đầu vào thành một lớp cho mỗi lô nhỏ. Điều này có nghĩa là điều chỉnh dữ liệu để có giá trị trung bình bằng không và độ lệch chuẩn bằng một. Cụ thể, đối với mỗi tính năng trong lô nhỏ, nó tính toán giá trị trung bình và phương sai và sử dụng chúng để chuẩn hóa tính năng. Tuy nhiên, chỉ chuẩn hóa đơn giản có thể hạn chế sức mạnh biểu diễn của lớp. Để chống lại điều này, Chuẩn hóa theo lô giới thiệu hai tham số có thể học được cho mỗi tính năng: tham số tỷ lệ (gamma) và tham số dịch chuyển (beta). Các tham số này cho phép mạng học được tỷ lệ và giá trị trung bình tối ưu của các đầu vào được chuẩn hóa, trên thực tế cho phép mạng quyết định xem có nên chuẩn hóa hay không và mức độ chuẩn hóa như thế nào. Trong quá trình suy luận , Chuẩn hóa theo lô sử dụng số liệu thống kê tổng hợp (như trung bình động của giá trị trung bình và phương sai) được thu thập trong quá trình đào tạo, đảm bảo đầu ra xác định.
Áp dụng Chuẩn hóa theo lô mang lại một số lợi thế quan trọng cho việc đào tạo các mô hình học sâu:
Chuẩn hóa theo lô được sử dụng rộng rãi, đặc biệt là trong các tác vụ thị giác máy tính liên quan đến Mạng nơ-ron tích chập (CNN) .
Mặc dù rất hiệu quả, hiệu suất của Batch Normalization có thể phụ thuộc vào kích thước lô ; kích thước lô rất nhỏ có thể dẫn đến ước tính không chính xác về số liệu thống kê lô. Hành vi của nó cũng khác nhau giữa các giai đoạn đào tạo và suy luận, đòi hỏi phải xử lý cẩn thận các số liệu thống kê đang chạy. Các giải pháp thay thế như Layer Normalization , Instance Normalization và Group Normalization giải quyết một số hạn chế này và được sử dụng trong các bối cảnh khác nhau, đặc biệt là trong Recurrent Neural Networks (RNN) hoặc khi kích thước lô nhỏ. Có thể tìm thấy các triển khai trong các khuôn khổ phổ biến như PyTorch và TensorFlow .
Nhìn chung, Chuẩn hóa theo lô vẫn là một kỹ thuật cơ bản và được áp dụng rộng rãi, có tác động đáng kể đến động lực đào tạo và hiệu suất của các mô hình học sâu hiện đại.