Tìm hiểu cách vấn đề suy giảm độ dốc ảnh hưởng đến học sâu và khám phá các giải pháp hiệu quả như ReLU và kết nối dư được sử dụng trong học sâu. Ultralytics YOLO26.
Vấn đề suy giảm độ dốc (Vanishing Gradient) là một thách thức đáng kể gặp phải trong quá trình huấn luyện mạng nơ-ron nhân tạo sâu. Nó xảy ra khi độ dốc – các giá trị quyết định mức độ thay đổi của các tham số mạng – trở nên cực kỳ nhỏ khi chúng lan truyền ngược từ lớp đầu ra đến các lớp đầu vào. Vì các độ dốc này rất cần thiết để cập nhật trọng số của mô hình , sự biến mất của chúng có nghĩa là các lớp đầu của mạng ngừng học. Hiện tượng này ngăn cản mô hình nắm bắt các mẫu phức tạp trong dữ liệu, hạn chế độ sâu và hiệu suất của các kiến trúc học sâu .
Để hiểu tại sao điều này xảy ra, việc xem xét quá trình lan truyền ngược (backpropagation) sẽ rất hữu ích. Trong quá trình huấn luyện, mạng tính toán sai số giữa dự đoán của nó và mục tiêu thực tế bằng cách sử dụng hàm mất mát . Sai số này sau đó được gửi ngược trở lại qua các lớp để điều chỉnh trọng số. Sự điều chỉnh này dựa trên quy tắc chuỗi trong phép tính vi phân và tích phân, bao gồm việc nhân các đạo hàm của hàm kích hoạt theo từng lớp.
Nếu một mạng nơ-ron sử dụng các hàm kích hoạt như hàm sigmoid hoặc hàm hyperbolic tangent (tanh), thì đạo hàm thường nhỏ hơn 1. Khi nhiều số nhỏ này được nhân với nhau trong một mạng nơ-ron sâu với hàng chục hoặc hàng trăm lớp, kết quả sẽ tiến gần đến 0. Bạn có thể hình dung điều này giống như trò chơi "điện thoại" trong đó một thông điệp được thì thầm dọc theo một hàng dài người; đến khi nó đến đầu hàng, thông điệp đã trở nên không thể nghe thấy, và người đầu tiên không biết phải nói gì.
Lĩnh vực trí tuệ nhân tạo đã phát triển một số chiến lược mạnh mẽ để giảm thiểu hiện tượng suy giảm độ dốc, cho phép tạo ra các mô hình mạnh mẽ như Ultralytics YOLO26 .
Mặc dù chúng đều xuất phát từ cùng một cơ chế cơ bản (phép nhân lặp đi lặp lại), nhưng hiện tượng độ dốc biến mất khác biệt với hiện tượng độ dốc bùng nổ .
NaN (Không phải là một con số). Vấn đề này thường được khắc phục bởi
cắt độ dốc.
Khắc phục hiện tượng suy giảm độ dốc là điều kiện tiên quyết cho sự thành công của các ứng dụng trí tuệ nhân tạo hiện đại.
Các framework và mô hình hiện đại đã đơn giản hóa nhiều sự phức tạp này. Khi bạn huấn luyện một mô hình như YOLO26 , kiến trúc của nó tự động bao gồm các thành phần như hàm kích hoạt SiLU và chuẩn hóa theo lô (Batch Normalization) để ngăn chặn hiện tượng mất gradient.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")
# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)