Khám phá cách chức năng kích hoạt GELU tăng cường các mô hình máy biến áp như GPT-4, thúc đẩy dòng chảy theo độ dốc, độ ổn định và hiệu quả.
GELU (Đơn vị Tuyến tính Sai số Gauss) là một hàm kích hoạt hiệu suất cao đã trở thành tiêu chuẩn trong các kiến trúc mạng nơ-ron tiên tiến, đặc biệt là các mô hình Transformer . Nó được biết đến với đường cong trơn tru, không đơn điệu, giúp các mô hình học các mẫu phức tạp hiệu quả hơn so với các hàm cũ. Được giới thiệu trong bài báo " Đơn vị Tuyến tính Sai số Gauss (GELUs) ", GELU kết hợp các thuộc tính từ các hàm khác như dropout và ReLU để cải thiện độ ổn định khi huấn luyện và hiệu suất mô hình.
Không giống như ReLU, vốn cắt bỏ mạnh mẽ tất cả các giá trị âm, GELU đặt trọng số cho các đầu vào dựa trên độ lớn của chúng. Nó xác định theo xác suất liệu có nên kích hoạt một nơ-ron hay không bằng cách nhân đầu vào với hàm phân phối tích lũy (CDF) của phân phối chuẩn Gauss. Điều này có nghĩa là các đầu vào càng âm thì khả năng bị "bỏ" (đặt về 0) càng cao, nhưng quá trình chuyển đổi diễn ra mượt mà chứ không đột ngột. Tính chất điều chỉnh ngẫu nhiên này giúp ngăn ngừa các vấn đề như bài toán gradient biến mất và cho phép biểu diễn dữ liệu phong phú hơn, điều rất quan trọng đối với các mô hình học sâu hiện đại.
GELU có nhiều ưu điểm hơn so với các chức năng kích hoạt phổ biến khác, giúp nó được áp dụng rộng rãi.
GELU là thành phần quan trọng trong nhiều mô hình AI mạnh mẽ nhất được phát triển cho đến nay.
GELU có sẵn trong tất cả các khuôn khổ học sâu chính, giúp dễ dàng kết hợp vào các mô hình tùy chỉnh.
torch.nn.GELU
, với thông tin chi tiết trong tài liệu chính thức của PyTorch GELU.tf.keras.activations.gelu
, được ghi lại trong Tài liệu API TensorFlow.Các nhà phát triển có thể xây dựng, đào tạo và triển khai các mô hình bằng GELU với các nền tảng như Ultralytics HUB , giúp hợp lý hóa toàn bộ vòng đời MLOps từ việc tăng cường dữ liệu đến triển khai mô hình cuối cùng .