Khám phá cách chức năng kích hoạt GELU tăng cường các mô hình máy biến áp như GPT-4, thúc đẩy dòng chảy theo độ dốc, độ ổn định và hiệu quả.
GELU (Gaussian Error Linear Unit) là một loại hàm kích hoạt thường được sử dụng trong các mạng nơ-ron hiện đại, đặc biệt là trong các kiến trúc Transformer . Được Dan Hendrycks và Kevin Gimpel đề xuất trong bài báo " Gaussian Error Linear Units (GELUs) ", nó nhằm mục đích kết hợp các thuộc tính từ dropout, zoneout và ReLU (Rectified Linear Unit) để cải thiện hiệu suất mô hình. Không giống như ReLU, cắt đứt mạnh các giá trị âm, GELU cung cấp một đường cong mượt mà hơn, tính trọng số đầu vào dựa trên độ lớn của chúng thay vì chỉ dấu của chúng.
Hàm GELU điều chỉnh đầu vào dựa trên giá trị của nó, quyết định có nên "kích hoạt" một nơ-ron hay không. Hàm này nhân đầu vào với giá trị của hàm phân phối tích lũy Gaussian chuẩn (CDF) được áp dụng cho đầu vào đó. Theo trực giác, điều này có nghĩa là các đầu vào càng xa số không (cả dương và âm) thì càng có nhiều khả năng được bảo toàn, trong khi các đầu vào càng gần số không thì càng có nhiều khả năng bị xóa về số không. Phương pháp xác suất này giới thiệu một dạng chính quy hóa ngẫu nhiên tương tự như dropout nhưng được xác định bởi chính giá trị đầu vào, dẫn đến một hàm phi tuyến tính có thể nắm bắt các mẫu phức tạp hơn trong dữ liệu.
GELU có nhiều ưu điểm hơn so với các hàm kích hoạt đơn giản hơn, góp phần đưa GELU vào áp dụng trong các mô hình hiện đại:
GELU đã trở thành sự lựa chọn phổ biến trong nhiều mô hình học sâu tiên tiến do hiệu suất thực nghiệm mạnh mẽ của nó:
Khả năng cung cấp tính phi tuyến tính mượt mà và kết hợp cường độ đầu vào vào các quyết định kích hoạt của hàm này giúp nó hiệu quả trong việc đào tạo các mạng sâu. Mặc dù tốn nhiều tính toán hơn một chút so với ReLU, nhưng lợi ích về hiệu suất của nó thường biện minh cho việc sử dụng nó trong các mô hình quy mô lớn có sẵn thông qua các khuôn khổ như PyTorch và TensorFlow .