Khám phá cách chức năng kích hoạt GELU tăng cường các mô hình máy biến áp như GPT-4, thúc đẩy dòng chảy theo độ dốc, độ ổn định và hiệu quả.
Đơn vị tuyến tính lỗi Gauss, hay GELU, là một hàm kích hoạt hiệu suất cao được sử dụng rộng rãi trong các mạng nơ-ron hiện đại (NN) , đặc biệt là trong các mô hình biến áp. Được đề xuất trong bài báo " Đơn vị tuyến tính lỗi Gauss (GELU) " của Dan Hendrycks và Kevin Gimpel, GELU giới thiệu một phương pháp tiếp cận xác suất để kích hoạt nơ-ron, thoát khỏi bản chất xác định của các hàm như ReLU . Nó cân nhắc các đầu vào dựa trên độ lớn của chúng thay vì chỉ phân loại chúng theo dấu, kết hợp hiệu quả các thuộc tính từ dropout, zoneout và ReLU.
GELU xác định đầu ra của một neuron bằng cách nhân giá trị đầu vào với giá trị của hàm phân phối tích lũy Gaussian chuẩn (CDF) được áp dụng cho đầu vào đó. Điều này có nghĩa là sự kích hoạt là ngẫu nhiên, tùy thuộc vào chính giá trị đầu vào. Không giống như ReLU, cắt đứt mạnh các giá trị âm, GELU cung cấp một đường cong mượt mà hơn. Các đầu vào có độ lớn lớn hơn có nhiều khả năng được bảo toàn, trong khi các đầu vào gần bằng không có nhiều khả năng bị xóa bằng không. Trọng số xác suất mượt mà này cho phép biểu diễn phong phú hơn và có khả năng luồng gradient tốt hơn trong quá trình truyền ngược , điều này rất quan trọng đối với việc đào tạo các mạng sâu.
GELU có những đặc điểm riêng biệt so với các hàm kích hoạt thông thường khác:
GELU đã trở thành sự lựa chọn phổ biến trong nhiều mô hình học sâu tiên tiến do hiệu suất thực nghiệm mạnh mẽ của nó:
Khả năng cung cấp tính phi tuyến tính mượt mà và kết hợp cường độ đầu vào vào các quyết định kích hoạt của hàm này giúp nó hiệu quả trong việc đào tạo các mạng sâu. Mặc dù tốn nhiều tính toán hơn một chút so với ReLU, nhưng lợi ích về hiệu suất của nó thường biện minh cho việc sử dụng nó trong các mô hình quy mô lớn có sẵn thông qua các khuôn khổ như PyTorch và TensorFlow . Bạn có thể khám phá nhiều mô hình khác nhau và đào tạo chúng bằng các công cụ như Ultralytics HUB .