Thuật ngữ

GELU (Đơn vị tuyến tính lỗi Gauss)

Khám phá cách chức năng kích hoạt GELU tăng cường các mô hình máy biến áp như GPT-4, thúc đẩy dòng chảy theo độ dốc, độ ổn định và hiệu quả.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong lĩnh vực trí tuệ nhân tạo và học máy, đặc biệt là trong mạng nơ-ron, các hàm kích hoạt đóng vai trò quan trọng trong việc cho phép các mô hình học các mẫu phức tạp. Đơn vị tuyến tính lỗi Gaussian, hay GELU, là một trong những hàm kích hoạt như vậy đã trở nên nổi bật vì hiệu suất của nó trong nhiều tác vụ học sâu khác nhau. Nó được thiết kế để đưa tính phi tuyến tính vào mạng nơ-ron, cho phép chúng mô hình hóa các mối quan hệ phức tạp trong dữ liệu.

GELU là gì?

GELU, viết tắt của Gaussian Error Linear Unit , là một hàm kích hoạt cho mạng nơ-ron. Các hàm kích hoạt quyết định xem một nơ-ron có nên được kích hoạt hay không bằng cách tính tổng có trọng số và tiếp tục thêm độ lệch vào đó. Mục đích của các hàm kích hoạt là đưa tính phi tuyến tính vào đầu ra của một nơ-ron. GELU được biết đến cụ thể là một phép xấp xỉ trơn tru của hàm kích hoạt ReLU (Rectified Linear Unit), nhưng có một điểm khác biệt chính: nó dựa trên hàm phân phối tích lũy của phân phối Gauss. Điều này làm cho GELU trở nên xác suất và trong nhiều trường hợp, hiệu quả hơn ReLU, đặc biệt là trong các kiến trúc mạng nơ-ron hiện đại.

GELU hoạt động như thế nào

Ý tưởng cốt lõi đằng sau GELU là ngẫu nhiên điều chỉnh các nơ-ron bằng cách loại bỏ ngẫu nhiên các đầu vào dựa trên giá trị của chúng. Nói một cách đơn giản hơn, đối với một đầu vào nhất định, GELU cân nhắc đầu vào đó dựa trên việc đầu vào đó lớn hơn hay nhỏ hơn 0, nhưng không giống như ReLU là một công tắc cứng, GELU sử dụng phương pháp xác suất mượt mà hơn. Bản chất xác suất này bắt nguồn từ hàm phân phối tích lũy (CDF) của phân phối chuẩn Gauss. Về cơ bản, hàm này hỏi: "Với đầu vào 'x', xác suất đầu vào đó lớn hơn giá trị được rút ra từ phân phối chuẩn Gauss là bao nhiêu?". Xác suất này sau đó sẽ chia tỷ lệ đầu vào, tạo ra sự kích hoạt mượt mà, phi tuyến tính. Sự chuyển đổi mượt mà này quanh 0 là một đặc điểm chính phân biệt GELU với ReLU và các biến thể của nó như Leaky ReLU, có độ cong đột ngột tại 0.

Ưu điểm của GELU

GELU mang lại một số lợi ích góp phần nâng cao hiệu quả trong mạng lưới nơ-ron:

  • Độ mượt: Không giống như ReLU, GELU mượt mà trên toàn bộ miền của nó, bao gồm cả khoảng không. Độ mượt này hỗ trợ tối ưu hóa dựa trên gradient, giúp đào tạo mạng lưới sâu dễ dàng hơn và có khả năng dẫn đến khái quát hóa tốt hơn.
  • Không bão hòa đối với đầu vào dương: Tương tự như ReLU, GELU không bão hòa đối với đầu vào dương, giúp giảm thiểu vấn đề biến mất độ dốc, cho phép đào tạo các mạng sâu hơn.
  • Thành công thực nghiệm: GELU đã chứng minh hiệu suất thực nghiệm mạnh mẽ trong nhiều mô hình tiên tiến, đặc biệt là trong các kiến trúc dựa trên Transformer thường được sử dụng trong xử lý ngôn ngữ tự nhiên và ngày càng tăng trong thị giác máy tính. Phương pháp tiếp cận xác suất để kích hoạt của nó đã được chứng minh là nâng cao độ chính xác của mô hình trong nhiều tác vụ.
  • Giảm thiểu vấn đề "ReLU đang chết": Trong khi ReLU có thể gặp phải vấn đề "ReLU đang chết" khi các tế bào thần kinh không hoạt động và ngừng học, bản chất mượt mà của GELU và đầu ra khác không đối với các đầu vào tiêu cực giúp giảm thiểu vấn đề này.

Ứng dụng của GELU

GELU đã tìm thấy những ứng dụng quan trọng trong nhiều lĩnh vực của AI:

  • Xử lý ngôn ngữ tự nhiên (NLP): GELU được sử dụng đáng kể trong các mô hình NLP tiên tiến, bao gồm BERT (Bidirectional Encoder Representations from Transformers) và các phiên bản kế nhiệm. Khả năng cải thiện hiệu suất của các mô hình Transformer đã biến nó thành một yếu tố chính trong nghiên cứu và ứng dụng NLP tiên tiến. Ví dụ, các mô hình như GPT-3GPT-4 , được sử dụng trong các tác vụ tạo văn bản nâng cao và dịch máy , thường sử dụng GELU làm hàm kích hoạt của chúng.
  • Thị giác máy tính: Trong khi theo truyền thống ReLU và các biến thể của nó phổ biến hơn trong thị giác máy tính , GELU ngày càng được áp dụng trong các mô hình thị giác, đặc biệt là các mô hình kết hợp kiến trúc Transformer như Vision Transformer (ViT). Đối với các tác vụ như phân loại hình ảnhphát hiện đối tượng , GELU có thể tăng cường khả năng học các đặc điểm thị giác phức tạp của mô hình. Ví dụ, các mô hình được sử dụng trong phân tích hình ảnh y tế đang bắt đầu tận dụng GELU để có khả năng cải thiện độ chính xác chẩn đoán.
  • Nhận dạng giọng nói: Tương tự như NLP, khả năng kích hoạt mượt mà của GELU đã chứng minh được lợi ích trong các mô hình nhận dạng giọng nói , cải thiện việc xử lý dữ liệu tuần tự và nâng cao độ chính xác khi chuyển đổi giọng nói thành văn bản.

GELU so với ReLU

Mặc dù cả GELU và ReLU đều là các hàm kích hoạt phi tuyến tính được thiết kế để cải thiện hiệu suất của mạng nơ-ron, nhưng chúng có cách tiếp cận khác nhau:

  • ReLU (Đơn vị tuyến tính chỉnh lưu): ReLU là một hàm đơn giản hơn, xuất trực tiếp đầu vào nếu là số dương và bằng 0 nếu không. Nó hiệu quả về mặt tính toán nhưng có thể gặp vấn đề "dying ReLU" và không mượt ở số 0. Bạn có thể tìm hiểu thêm về ReLU và các hàm kích hoạt liên quan như Leaky ReLU trong phần chú giải thuật ngữ của chúng tôi.
  • GELU (Đơn vị tuyến tính lỗi Gaussian): GELU là một hàm mượt mà hơn, phức tạp hơn sử dụng phương pháp xác suất dựa trên phân phối Gaussian. Nó có xu hướng hoạt động tốt hơn trong các mô hình phức tạp hơn, đặc biệt là Transformers, bằng cách cung cấp kích hoạt sắc thái hơn và giảm thiểu các vấn đề như "ReLU chết" do đầu ra khác không đối với đầu vào âm.

Về bản chất, ReLU thường được ưa chuộng vì tính đơn giản và hiệu quả tính toán, trong khi GELU được chọn vì tiềm năng cung cấp độ chính xác tốt hơn và đào tạo mượt mà hơn, đặc biệt là trong các kiến trúc sâu, phức tạp, nơi hiệu suất là tối quan trọng. Sự lựa chọn giữa chúng thường phụ thuộc vào ứng dụng cụ thể và kiến trúc của mạng nơ-ron đang được sử dụng. Các kỹ thuật như điều chỉnh siêu tham số có thể giúp xác định hàm kích hoạt tối ưu cho một mô hình và nhiệm vụ nhất định.

Tài nguyên bổ sung

Để hiểu sâu hơn về GELU và các khái niệm liên quan, hãy cân nhắc khám phá các nguồn tài nguyên sau:

  • Bài báo GELU: Đọc bài báo nghiên cứu gốc về GELU, "Đơn vị tuyến tính lỗi Gauss (GELU)" trên arXiv để hiểu sâu hơn về mặt kỹ thuật.
  • Chức năng kích hoạt trong mạng nơ-ron: Khám phá tổng quan toàn diện về chức năng kích hoạt bao gồm GELU trên Wikipedia .
  • Hiểu về hàm kích hoạt: Bài đăng blog chi tiết giải thích nhiều hàm kích hoạt khác nhau, bao gồm GELU, trên towarddatascience.com.
  • Thuật ngữ Ultralytics : Để biết thêm định nghĩa về các thuật ngữ AI và máy học, hãy truy cập Thuật ngữ Ultralytics .
  • Ultralytics YOLOv8 : Khám phá các mô hình tiên tiến sử dụng các hàm kích hoạt nâng cao trong tài liệu Ultralytics YOLOv8 .
Đọc tất cả