Khám phá cách hàm kích hoạt SiLU (Swish) thúc đẩy hiệu suất học sâu trong các tác vụ AI như phát hiện đối tượng và NLP.
Đơn vị tuyến tính Sigmoid (SiLU), còn được gọi là hàm Swish, là một hàm kích hoạt được sử dụng trong mạng nơ-ron (NN) . Các hàm kích hoạt là các thành phần quan trọng đưa tính phi tuyến tính vào mạng, cho phép mạng học các mẫu phức tạp từ dữ liệu. SiLU được phát triển bởi các nhà nghiên cứu tại Google Brain và đã trở nên phổ biến do tính hiệu quả của nó trong nhiều tác vụ học sâu khác nhau, thường vượt trội hơn các hàm cũ hơn như ReLU trong các mô hình sâu hơn.
Tầm quan trọng của SiLU xuất phát từ các đặc tính độc đáo của nó có thể dẫn đến cải thiện hiệu suất mô hình và động lực đào tạo. Không giống như hàm ReLU được sử dụng rộng rãi, SiLU mượt mà và không đơn điệu. Điều này có nghĩa là đầu ra của nó không tăng nghiêm ngặt theo đầu vào, cho phép nó mô hình hóa các hàm phức tạp hơn. Độ mượt mà giúp tối ưu hóa dựa trên độ dốc , ngăn ngừa những thay đổi đột ngột trong quá trình đào tạo . Nghiên cứu, bao gồm cả bài báo Swish gốc , cho thấy rằng việc thay thế ReLU bằng SiLU có thể cải thiện độ chính xác phân loại trên các tập dữ liệu đầy thách thức như ImageNet , đặc biệt là trong các mạng rất sâu. Cơ chế tự đóng của nó giúp điều chỉnh luồng thông tin, có khả năng giảm thiểu các vấn đề như vấn đề độ dốc biến mất .
SiLU cung cấp một cấu hình khác so với các chức năng kích hoạt phổ biến khác:
SiLU rất linh hoạt và đã được ứng dụng thành công trong nhiều lĩnh vực sử dụng mô hình học sâu:
SiLU có sẵn trong các khuôn khổ học sâu lớn như PyTorch (BẰNG torch.nn.SiLU
, được ghi chép lại đây) Và TensorFlow (BẰNG tf.keras.activations.swish
, được ghi chép lại đây). Các nền tảng như Ultralytics HUB ủng hộ đào tạo và triển khai của các mô hình sử dụng các thành phần tiên tiến như vậy.