Thuật ngữ

ReLU (Đơn vị tuyến tính chỉnh lưu)

Khám phá sức mạnh của ReLU, một hàm kích hoạt quan trọng trong học sâu, cho phép các mạng nơ-ron hiệu quả học các mẫu phức tạp cho AI và ML.

ReLU, hay Rectified Linear Unit, là một hàm kích hoạt nền tảng trong lĩnh vực học sâu (DL) và mạng nơ-ron. Việc áp dụng rộng rãi của nó bắt nguồn từ tính đơn giản và hiệu quả tính toán đáng chú ý, hỗ trợ đáng kể cho mạng nơ-ron (NN) trong việc học các mẫu phức tạp từ lượng dữ liệu khổng lồ. Bằng cách đưa vào tính phi tuyến tính, ReLU cho phép các mạng mô hình hóa các mối quan hệ phức tạp, khiến nó trở nên không thể thiếu trong các ứng dụng Trí tuệ nhân tạo (AI) và Học máy (ML) hiện đại, bao gồm cả các ứng dụng được phát triển bằng các khuôn khổ như PyTorch và TensorFlow .

ReLU hoạt động như thế nào

Hoạt động cốt lõi của hàm ReLU rất đơn giản: nó đưa ra giá trị đầu vào trực tiếp nếu đầu vào là dương và đưa ra giá trị 0 nếu đầu vào là âm hoặc bằng 0. Cơ chế ngưỡng đơn giản này đưa tính phi tuyến tính cần thiết vào mạng nơ-ron. Nếu không có các hàm phi tuyến tính như ReLU, một mạng sâu sẽ hoạt động giống như một lớp tuyến tính đơn lẻ, hạn chế nghiêm trọng khả năng học các hàm phức tạp cần thiết cho các tác vụ như nhận dạng hình ảnh hoặc xử lý ngôn ngữ tự nhiên (NLP) . Trong một lớp mạng, mỗi nơ-ron áp dụng hàm ReLU cho tổng đầu vào có trọng số của nó. Nếu tổng là dương, nơ-ron "kích hoạt" và truyền giá trị về phía trước. Nếu tổng là âm, nơ-ron đưa ra giá trị 0, về cơ bản trở nên không hoạt động đối với đầu vào cụ thể đó. Điều này dẫn đến các kích hoạt thưa thớt, nghĩa là chỉ một tập hợp con các nơ-ron hoạt động tại bất kỳ thời điểm nào, điều này có thể nâng cao hiệu quả tính toán và giúp mạng học các biểu diễn tính năng mạnh mẽ hơn.

Ưu điểm của ReLU

ReLU cung cấp một số lợi thế quan trọng giúp củng cố sự phổ biến của công nghệ này trong học sâu:

Hiệu quả tính toán: ReLU chỉ bao gồm một phép so sánh đơn giản và có khả năng đặt giá trị thành 0, giúp tính toán nhanh hơn nhiều so với các hàm kích hoạt phức tạp hơn như sigmoid hoặc tanh . Điều này giúp tăng tốc cả giai đoạn đào tạo và suy luận .
Giảm thiểu độ dốc biến mất: Không giống như các hàm sigmoid và tanh, có độ dốc có thể trở nên cực kỳ nhỏ đối với các đầu vào dương hoặc âm lớn, ReLU có độ dốc không đổi là 1 đối với các đầu vào dương. Điều này giúp giảm thiểu vấn đề độ dốc biến mất , cho phép độ dốc chảy hiệu quả hơn trong quá trình truyền ngược và cho phép đào tạo các mạng sâu hơn.
Thúc đẩy sự thưa thớt: Bằng cách đưa ra số không cho các đầu vào âm, ReLU tự nhiên tạo ra sự thưa thớt trong các hoạt động trong mạng. Sự thưa thớt này có thể dẫn đến các mô hình cô đọng và mạnh mẽ hơn, có khả năng phản ánh các cơ chế được quan sát thấy trong các mạng nơ-ron sinh học và liên quan đến các khái niệm như mã hóa thưa thớt .

Nhược điểm và thách thức

Mặc dù có nhiều điểm mạnh, ReLU vẫn có những hạn chế:

Vấn đề ReLU đang chết: Đôi khi, các nơ-ron có thể bị kẹt trong trạng thái mà chúng liên tục đưa ra giá trị bằng không cho tất cả các đầu vào gặp phải trong quá trình đào tạo. Điều này xảy ra nếu một bản cập nhật gradient lớn khiến trọng số dịch chuyển sao cho đầu vào của nơ-ron luôn âm. Khi điều này xảy ra, gradient chảy qua nơ-ron đó trở thành 0, ngăn chặn các bản cập nhật trọng số tiếp theo thông qua gradient descent . Nơ-ron thực sự "chết" và ngừng đóng góp vào quá trình học của mạng.
Đầu ra không có tâm bằng 0: Đầu ra của ReLU luôn không âm (bằng 0 hoặc dương). Việc thiếu tâm bằng 0 này đôi khi có thể làm chậm quá trình hội tụ của quá trình tối ưu hóa giảm dần độ dốc so với các hàm kích hoạt có tâm bằng 0.

ReLU so với các hàm kích hoạt khác

ReLU thường được so sánh với các biến thể của nó và các hàm kích hoạt khác. Leaky ReLU giải quyết vấn đề ReLU đang chết dần bằng cách cho phép một gradient nhỏ, khác không khi đầu vào là số âm. Exponential Linear Unit (ELU) là một giải pháp thay thế khác nhằm tạo ra các đầu ra gần bằng không hơn trung bình và cung cấp các gradient mượt mà hơn, nhưng với chi phí tính toán cao hơn. SiLU (Sigmoid Linear Unit) , còn được gọi là Swish, là một lựa chọn phổ biến khác được sử dụng trong các mô hình như Ultralytics YOLOv8 và YOLOv10 , thường cung cấp sự cân bằng tốt giữa hiệu suất và hiệu quả ( xem so sánh hàm kích hoạt ). Lựa chọn tối ưu thường phụ thuộc vào kiến trúc mạng nơ-ron cụ thể, tập dữ liệu (như ImageNet ) và kết quả thực nghiệm, thường được xác định thông qua điều chỉnh siêu tham số .

Ứng dụng trong AI và ML

ReLU là một hàm kích hoạt mạnh mẽ, đặc biệt chiếm ưu thế trong Mạng nơ-ron tích chập (CNN) được sử dụng cho các tác vụ thị giác máy tính (CV) . Khả năng xử lý phi tuyến tính hiệu quả của nó khiến nó trở nên lý tưởng để xử lý dữ liệu hình ảnh.

Phân tích hình ảnh y tế: CNN được sử dụng trong AI trong chăm sóc sức khỏe thường sử dụng ReLU trong các lớp ẩn của chúng. Ví dụ, chúng xử lý thông tin hình ảnh phức tạp từ X-quang hoặc MRI để phát hiện các bất thường như khối u hoặc gãy xương, hỗ trợ các bác sĩ X-quang trong chẩn đoán ( ví dụ nghiên cứu từ PubMed Central ). Hiệu quả của ReLU rất quan trọng để phân tích nhanh các lần quét y tế lớn.
Xe tự hành: Hệ thống xe tự hành , chẳng hạn như các hệ thống do các công ty như Waymo phát triển, phụ thuộc rất nhiều vào CNN với ReLU. Các mạng này thực hiện phát hiện vật thể theo thời gian thực để xác định người đi bộ, các phương tiện khác, tín hiệu giao thông và vạch kẻ đường, cho phép điều hướng an toàn. Tốc độ của ReLU rất quan trọng đối với độ trễ suy luận thấp cần thiết trong các ứng dụng tự lái.

Mặc dù phổ biến trong CNN, ReLU cũng được sử dụng trong các loại mạng nơ-ron khác, mặc dù đôi khi được thay thế bằng các biến thể hoặc các hàm khác trong các kiến trúc như Transformers được sử dụng để phân loại văn bản và các tác vụ NLP khác. Các mô hình tiên tiến như Ultralytics YOLO thường sử dụng các biến thể ReLU hoặc các hàm kích hoạt hiệu quả khác như SiLU. Bạn có thể đào tạo và triển khai các mô hình như vậy bằng các nền tảng như Ultralytics HUB , tận dụng các hướng dẫn về mẹo đào tạo mô hình để có kết quả tối ưu.

ReLU (Đơn vị tuyến tính chỉnh lưu)

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

ReLU hoạt động như thế nào

Ưu điểm của ReLU

Nhược điểm và thách thức

ReLU so với các hàm kích hoạt khác

Ứng dụng trong AI và ML

Đọc thêm blog

Tham gia Ultralytics cộng đồng