Thuật ngữ

GELU (Đơn vị tuyến tính lỗi Gauss)

Khám phá cách chức năng kích hoạt GELU tăng cường các mô hình máy biến áp như GPT-4, thúc đẩy dòng chảy theo độ dốc, độ ổn định và hiệu quả.

GELU (Đơn vị Tuyến tính Sai số Gauss) là một hàm kích hoạt hiệu suất cao đã trở thành tiêu chuẩn trong các kiến trúc mạng nơ-ron tiên tiến, đặc biệt là các mô hình Transformer . Nó được biết đến với đường cong trơn tru, không đơn điệu, giúp các mô hình học các mẫu phức tạp hiệu quả hơn so với các hàm cũ. Được giới thiệu trong bài báo " Đơn vị Tuyến tính Sai số Gauss (GELUs) ", GELU kết hợp các thuộc tính từ các hàm khác như dropout và ReLU để cải thiện độ ổn định khi huấn luyện và hiệu suất mô hình.

GELU hoạt động như thế nào

Không giống như ReLU, vốn cắt bỏ mạnh mẽ tất cả các giá trị âm, GELU đặt trọng số cho các đầu vào dựa trên độ lớn của chúng. Nó xác định theo xác suất liệu có nên kích hoạt một nơ-ron hay không bằng cách nhân đầu vào với hàm phân phối tích lũy (CDF) của phân phối chuẩn Gauss. Điều này có nghĩa là các đầu vào càng âm thì khả năng bị "bỏ" (đặt về 0) càng cao, nhưng quá trình chuyển đổi diễn ra mượt mà chứ không đột ngột. Tính chất điều chỉnh ngẫu nhiên này giúp ngăn ngừa các vấn đề như bài toán gradient biến mất và cho phép biểu diễn dữ liệu phong phú hơn, điều rất quan trọng đối với các mô hình học sâu hiện đại.

GELU so với các hàm kích hoạt khác

GELU có nhiều ưu điểm hơn so với các chức năng kích hoạt phổ biến khác, giúp nó được áp dụng rộng rãi.

GELU so với ReLU : Sự khác biệt chính nằm ở độ mượt của GELU. Mặc dù ReLU đơn giản về mặt tính toán, nhưng góc nhọn tại 0 của nó đôi khi có thể dẫn đến vấn đề "ReLU chết", khi các tế bào thần kinh bị bất hoạt vĩnh viễn. Đường cong mượt của GELU tránh được vấn đề này, tạo điều kiện cho quá trình giảm dần độ dốc ổn định hơn và thường mang lại độ chính xác cuối cùng tốt hơn.
GELU so với Leaky ReLU : Leaky ReLU cố gắng khắc phục vấn đề ReLU đang dần chết đi bằng cách cho phép một độ dốc âm nhỏ cho các đầu vào âm. Tuy nhiên, bản chất cong, phi tuyến tính của GELU mang lại phạm vi kích hoạt động hơn, đã được chứng minh là vượt trội hơn Leaky ReLU trong nhiều tác vụ học sâu .
GELU so với SiLU (Swish) : Đơn vị Tuyến tính Sigmoid (SiLU) , còn được gọi là Swish, rất giống với GELU. Cả hai đều là các hàm trơn, không đơn điệu và đã cho thấy hiệu suất tuyệt vời. Việc lựa chọn giữa chúng thường phụ thuộc vào thử nghiệm thực nghiệm cho một kiến trúc và tập dữ liệu cụ thể, mặc dù một số nghiên cứu cho thấy SiLU có thể hiệu quả hơn một chút trong một số mô hình thị giác máy tính. Các mô hình như Ultralytics YOLO thường sử dụng SiLU vì sự cân bằng giữa hiệu suất và hiệu quả.

Ứng dụng trong AI và học sâu

GELU là thành phần quan trọng trong nhiều mô hình AI mạnh mẽ nhất được phát triển cho đến nay.

Xử lý Ngôn ngữ Tự nhiên (NLP) : GELU là hàm kích hoạt tiêu chuẩn trong các mạng truyền thẳng của kiến trúc Transformer . Điều này bao gồm các mô hình nền tảng như BERT và chuỗi GPT , vốn là nền tảng cho hầu hết các Mô hình Ngôn ngữ Lớn (LLM) hiện đại. Khả năng xử lý các mẫu ngôn ngữ phức tạp của GELU khiến nó trở nên lý tưởng cho các tác vụ như dịch máy và tóm tắt văn bản . Bạn có thể tìm hiểu thêm về các mô hình này trong các tài nguyên từ các tổ chức như Hugging Face .
Thị giác Máy tính (CV) : Tiếp nối thành công trong NLP, GELU đã được áp dụng trong các mô hình Vision Transformer (ViT) . Các mô hình này áp dụng kiến trúc Transformer vào các mảng hình ảnh cho các tác vụ như phân loại hình ảnh và phát hiện đối tượng . Hiệu suất của ViT đã chứng minh tính hiệu quả của GELU trong việc xử lý thông tin hình ảnh, thách thức sự thống trị của các Mạng Nơ-ron Tích chập (CNN) truyền thống.

Triển khai và sử dụng

GELU có sẵn trong tất cả các khuôn khổ học sâu chính, giúp dễ dàng kết hợp vào các mô hình tùy chỉnh.

PyTorch : Được thực hiện như torch.nn.GELU, với thông tin chi tiết trong tài liệu chính thức của PyTorch GELU.
TensorFlow : Có sẵn như tf.keras.activations.gelu, được ghi lại trong Tài liệu API TensorFlow.

Các nhà phát triển có thể xây dựng, đào tạo và triển khai các mô hình bằng GELU với các nền tảng như Ultralytics HUB , giúp hợp lý hóa toàn bộ vòng đời MLOps từ việc tăng cường dữ liệu đến triển khai mô hình cuối cùng .

GELU (Đơn vị tuyến tính lỗi Gauss)

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Đào tạo mô hình YOLO một cách đơn giản với Ultralytics HUB

GELU hoạt động như thế nào

GELU so với các hàm kích hoạt khác

Ứng dụng trong AI và học sâu

Triển khai và sử dụng

Đọc thêm trong danh mục này

Hiểu về sản xuất bồi đắp: Công nghệ và trường hợp sử dụng

Giám sát hoạt động mặt đất của sân bay với Ultralytics YOLO11

Sự phát triển và tương lai của robot trong sản xuất

Tham gia cộng đồng Ultralytics