Khám phá cách hàm kích hoạt SiLU (Swish) thúc đẩy hiệu suất học sâu trong các tác vụ AI như phát hiện đối tượng và NLP.
SiLU (Đơn vị tuyến tính Sigmoid), còn được gọi là hàm Swish, là một hàm kích hoạt được sử dụng trong các mô hình học sâu (DL) , đặc biệt là trong mạng nơ-ron (NN) . Nó được đề xuất bởi các nhà nghiên cứu tại Google và đã trở nên phổ biến do hiệu quả của nó trong việc cải thiện hiệu suất mô hình so với các hàm kích hoạt truyền thống như ReLU và Sigmoid . SiLU được đánh giá cao vì tính trơn tru và các đặc tính không đơn điệu, có thể giúp tối ưu hóa dòng chảy gradient và mô hình. Để hiểu rõ hơn, hãy xem tổng quan về hàm kích hoạt chung .
SiLU được định nghĩa là tích của đầu vào và Hình chữ S chức năng được áp dụng cho đầu vào. Về cơ bản, SiLU(x) = x * sigmoid(x)
. Công thức này cho phép SiLU hoạt động như một cơ chế tự đóng, trong đó thành phần sigmoid xác định mức độ mà đầu vào tuyến tính x
được truyền qua. Khi đầu ra sigmoid gần bằng 1, đầu vào đi qua gần như không thay đổi (tương tự như ReLU đối với các giá trị dương) và khi gần bằng 0, đầu ra bị triệt tiêu về 0. Không giống như ReLU, SiLU trơn tru và không đơn điệu (nó có thể giảm ngay cả khi đầu vào tăng), các đặc tính bắt nguồn từ Chi tiết hàm Sigmoid thành phần. Khái niệm đã được trình bày chi tiết trong giấy Swish gốc.
SiLU có một số lợi thế góp phần nâng cao hiệu quả của các mô hình học sâu:
SiLU khác biệt với các hàm kích hoạt thông thường khác:
max(0, x)
) và tuyến tính đối với các giá trị dương nhưng gặp phải vấn đề "ReLU đang chết" khi các tế bào thần kinh có thể trở nên không hoạt động đối với các đầu vào âm. Xem Giải thích ReLU. SiLU hoạt động trơn tru và tránh được vấn đề này nhờ đầu ra khác không đối với các giá trị âm.SiLU rất linh hoạt và đã được ứng dụng thành công trong nhiều lĩnh vực sử dụng mô hình học sâu:
SiLU có sẵn trong các khuôn khổ học sâu chính:
torch.nn.SiLU
, với chính thức PyTorch tài liệu cho SiLU có sẵn.tf.keras.activations.swish
hoặc tf.keras.activations.silu
, được ghi chép trong TensorFlow tài liệu cho SiLU.Các nền tảng như Ultralytics HUB hỗ trợ các mô hình đào tạo và khám phá nhiều tùy chọn triển khai khác nhau cho các mô hình sử dụng các thành phần tiên tiến như SiLU. Nghiên cứu liên tục và các nguồn lực từ các tổ chức như DeepLearning.AI giúp các học viên tận dụng các chức năng như vậy một cách hiệu quả.