Thuật ngữ

GELU (Đơn vị tuyến tính lỗi Gauss)

Khám phá cách chức năng kích hoạt GELU tăng cường các mô hình máy biến áp như GPT-4, thúc đẩy dòng chảy theo độ dốc, độ ổn định và hiệu quả.

GELU (Đơn vị Tuyến tính Sai số Gauss) là một hàm kích hoạt hiệu suất cao đã trở thành tiêu chuẩn trong các kiến trúc mạng nơ-ron tiên tiến, đặc biệt là các mô hình Transformer . Nó được biết đến với đường cong trơn tru, không đơn điệu, giúp các mô hình học các mẫu phức tạp hiệu quả hơn so với các hàm cũ. Được giới thiệu trong bài báo " Đơn vị Tuyến tính Sai số Gauss (GELUs) ", GELU kết hợp các thuộc tính từ các hàm khác như dropoutReLU để cải thiện độ ổn định khi huấn luyện và hiệu suất mô hình.

GELU hoạt động như thế nào

Không giống như ReLU, vốn cắt bỏ mạnh mẽ tất cả các giá trị âm, GELU đặt trọng số cho các đầu vào dựa trên độ lớn của chúng. Nó xác định theo xác suất liệu có nên kích hoạt một nơ-ron hay không bằng cách nhân đầu vào với hàm phân phối tích lũy (CDF) của phân phối chuẩn Gauss. Điều này có nghĩa là các đầu vào càng âm thì khả năng bị "bỏ" (đặt về 0) càng cao, nhưng quá trình chuyển đổi diễn ra mượt mà chứ không đột ngột. Tính chất điều chỉnh ngẫu nhiên này giúp ngăn ngừa các vấn đề như bài toán gradient biến mất và cho phép biểu diễn dữ liệu phong phú hơn, điều rất quan trọng đối với các mô hình học sâu hiện đại.

GELU so với các hàm kích hoạt khác

GELU có nhiều ưu điểm hơn so với các chức năng kích hoạt phổ biến khác, giúp nó được áp dụng rộng rãi.

  • GELU so với ReLU : Sự khác biệt chính nằm ở độ mượt của GELU. Mặc dù ReLU đơn giản về mặt tính toán, nhưng góc nhọn tại 0 của nó đôi khi có thể dẫn đến vấn đề "ReLU chết", khi các tế bào thần kinh bị bất hoạt vĩnh viễn. Đường cong mượt của GELU tránh được vấn đề này, tạo điều kiện cho quá trình giảm dần độ dốc ổn định hơn và thường mang lại độ chính xác cuối cùng tốt hơn.
  • GELU so với Leaky ReLU : Leaky ReLU cố gắng khắc phục vấn đề ReLU đang dần chết đi bằng cách cho phép một độ dốc âm nhỏ cho các đầu vào âm. Tuy nhiên, bản chất cong, phi tuyến tính của GELU mang lại phạm vi kích hoạt động hơn, đã được chứng minh là vượt trội hơn Leaky ReLU trong nhiều tác vụ học sâu .
  • GELU so với SiLU (Swish) : Đơn vị Tuyến tính Sigmoid (SiLU) , còn được gọi là Swish, rất giống với GELU. Cả hai đều là các hàm trơn, không đơn điệu và đã cho thấy hiệu suất tuyệt vời. Việc lựa chọn giữa chúng thường phụ thuộc vào thử nghiệm thực nghiệm cho một kiến trúc và tập dữ liệu cụ thể, mặc dù một số nghiên cứu cho thấy SiLU có thể hiệu quả hơn một chút trong một số mô hình thị giác máy tính. Các mô hình như Ultralytics YOLO thường sử dụng SiLU vì sự cân bằng giữa hiệu suất và hiệu quả.

Ứng dụng trong AI và học sâu

GELU là thành phần quan trọng trong nhiều mô hình AI mạnh mẽ nhất được phát triển cho đến nay.

Triển khai và sử dụng

GELU có sẵn trong tất cả các khuôn khổ học sâu chính, giúp dễ dàng kết hợp vào các mô hình tùy chỉnh.

Các nhà phát triển có thể xây dựng, đào tạo và triển khai các mô hình bằng GELU với các nền tảng như Ultralytics HUB , giúp hợp lý hóa toàn bộ vòng đời MLOps từ việc tăng cường dữ liệu đến triển khai mô hình cuối cùng .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard