Thuật ngữ

ReLU bị rò rỉ

Khám phá sức mạnh của kích hoạt Leaky ReLU cho AI và ML. Giải quyết vấn đề ReLU đang chết dần và tăng hiệu suất mô hình trong CV, NLP, GAN, v.v.!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong lĩnh vực Trí tuệ nhân tạo (AI) , đặc biệt là trong Học sâu (DL) , các hàm kích hoạt là thành phần thiết yếu của mạng nơ-ron . Chúng đưa vào tính phi tuyến tính, cho phép các mô hình học các mẫu phức tạp từ dữ liệu. Leaky ReLU (Đơn vị tuyến tính chỉnh lưu rò rỉ) là một hàm kích hoạt được thiết kế như một sự cải tiến cho ReLU (Đơn vị tuyến tính chỉnh lưu) được sử dụng rộng rãi. Mục đích chính của nó là giải quyết vấn đề "ReLU đang chết", do đó cải thiện tính ổn định và hiệu suất đào tạo của các mô hình học sâu, đặc biệt là trong các ứng dụng thị giác máy tính .

Hiểu về Leaky ReLU

Hàm ReLU chuẩn sẽ đưa ra đầu vào trực tiếp nếu đầu vào là dương và bằng không nếu không. Mặc dù hiệu quả về mặt tính toán, nhưng đầu ra bằng không này đối với đầu vào âm có thể dẫn đến vấn đề "ReLU chết". Nếu một nơ-ron liên tục nhận được đầu vào âm khiến đầu ra của nó bằng không, thì gradient chảy qua nơ-ron đó trong quá trình truyền ngược cũng trở thành bằng không. Do đó, trọng số của nơ-ron ngừng cập nhật và nó thực sự "chết", ngừng đóng góp vào quá trình học. Vấn đề này có thể cản trở việc đào tạo mô hình, đặc biệt là trong các mạng rất sâu, nơi nó có thể làm trầm trọng thêm vấn đề gradient biến mất .

Leaky ReLU giải quyết vấn đề này bằng cách đưa ra một độ dốc nhỏ, không bằng không cho các đầu vào âm. Thay vì đưa ra số không, nó đưa ra một giá trị nhỏ tỷ lệ thuận với đầu vào (ví dụ: 0,01 lần đầu vào). "Rò rỉ" nhỏ này đảm bảo rằng các tế bào thần kinh luôn có độ dốc khác không, ngay cả khi đầu ra của chúng là âm. Điều này cho phép các trọng số tiếp tục cập nhật và ngăn các tế bào thần kinh trở nên không hoạt động vĩnh viễn. Độ dốc nhỏ, thường được ký hiệu là alpha, thường là một hằng số nhỏ cố định, nhưng các biến thể như Parametric ReLU (PReLU) cho phép học độ dốc này trong quá trình đào tạo ( tìm hiểu thêm về PReLU ). Bằng cách ngăn ngừa các tế bào thần kinh chết, Leaky ReLU có thể dẫn đến quá trình đào tạo mạnh mẽ hơn và có khả năng hội tụ nhanh hơn.

Sự liên quan và ứng dụng trong AI và ML

Leaky ReLU là một công cụ có giá trị trong các tình huống mà việc duy trì các tế bào thần kinh hoạt động trong suốt quá trình đào tạo là rất quan trọng. Hiệu quả tính toán của nó, tương tự như ReLU tiêu chuẩn, làm cho nó phù hợp với các mô hình quy mô lớn. Các ứng dụng chính bao gồm:

  • Computer Vision (CV) : Nhiều Mạng nơ-ron tích chập (CNN) được sử dụng cho các tác vụ như phân loại hình ảnh , phát hiện đối tượngphân đoạn hình ảnh được hưởng lợi từ Leaky ReLU. Việc ngăn ngừa các nơ-ron chết giúp duy trì khả năng học tính năng trên các lớp sâu, góp phần nâng cao độ chính xác của mô hình. Trong khi các kiến trúc mới hơn như Ultralytics YOLOv8 thường sử dụng các kích hoạt như SiLU , Leaky ReLU vẫn là lựa chọn phổ biến và hiệu quả trong nhiều mô hình thị giác và đã được sử dụng trong các phiên bản Ultralytics YOLO trước đó.
  • Mạng đối nghịch tạo sinh (GAN) : ReLU rò rỉ thường được sử dụng trong mạng phân biệt của GAN. Độ dốc khác không cho các đầu vào âm cung cấp tín hiệu học tập nhất quán hơn so với ReLU chuẩn, đôi khi có thể bão hòa và cản trở quá trình đào tạo, đặc biệt là đối với trình tạo. Sự ổn định này rất quan trọng để đào tạo các mô hình tạo sinh hiệu quả. Khám phá thêm về cấu trúc GAN .
  • Xử lý ngôn ngữ tự nhiên (NLP) : Mặc dù ít phổ biến hơn trong CV, Leaky ReLU cũng có thể được sử dụng trong các mô hình học sâu cho các tác vụ NLP.
  • Hệ thống thời gian thực: Hiệu quả tính toán của nó làm cho nó phù hợp với các ứng dụng yêu cầu suy luận thời gian thực , bao gồm cả những ứng dụng được triển khai trên các thiết bị biên .

ReLU bị rò rỉ so với các hàm kích hoạt khác

So với ReLU chuẩn, lợi thế chính của Leaky ReLU là tránh được vấn đề tế bào thần kinh chết. Các hàm kích hoạt khác như ELU (Đơn vị tuyến tính mũ) hoặc SiLU (Đơn vị tuyến tính Sigmoid) cũng giải quyết vấn đề này, đôi khi mang lại những lợi ích như độ dốc mượt mà hơn. Tuy nhiên, các giải pháp thay thế này có thể tốn kém hơn về mặt tính toán so với Leaky ReLU ( xem so sánh hàm kích hoạt ). Lựa chọn tối ưu thường phụ thuộc vào kiến trúc mạng nơ-ron cụ thể, tập dữ liệu và kết quả thực nghiệm thu được thông qua các quy trình như điều chỉnh siêu tham số . Các khuôn khổ như PyTorch cung cấp các triển khai dễ dàng cho nhiều hàm kích hoạt khác nhau, tạo điều kiện thuận lợi cho việc thử nghiệm.

Đọc tất cả