Khám phá vấn đề biến mất độ dốc trong học sâu, tác động của nó lên mạng nơ-ron và các giải pháp hiệu quả như ReLU, ResNets, v.v.
Vanishing Gradient là một thách thức phổ biến gặp phải trong quá trình đào tạo mạng nơ-ron sâu (NN) , đặc biệt là những mạng có nhiều lớp như Mạng nơ-ron hồi quy (RNN) và mạng truyền thẳng sâu. Nó xảy ra trong quá trình truyền ngược , trong đó các gradient của hàm mất mát liên quan đến trọng số của mạng trở nên cực kỳ nhỏ khi chúng được truyền ngược từ lớp đầu ra đến các lớp trước đó. Khi các gradient này trở nên cực kỳ nhỏ, các bản cập nhật cho trọng số mô hình trong các lớp ban đầu trở nên không đáng kể, về cơ bản ngăn các lớp này học. Điều này cản trở khả năng học các mẫu phức tạp và nắm bắt các phụ thuộc tầm xa trong dữ liệu của mạng, điều này rất quan trọng đối với nhiều tác vụ học sâu (DL) .
Vấn đề cốt lõi với gradient biến mất là chúng làm đình trệ quá trình học. Các mô hình học máy (ML) học bằng cách điều chỉnh các tham số bên trong của chúng dựa trên tín hiệu lỗi (gradient) được tính toán bằng các thuật toán tối ưu hóa như Gradient Descent hoặc các biến thể của nó như Adam . Nếu gradient gần bằng 0, các bản cập nhật tham số là tối thiểu hoặc không tồn tại. Trong các mạng sâu, vấn đề này trở nên phức tạp hơn vì tín hiệu gradient được nhân nhiều lần với các số nhỏ khi nó truyền ngược trở lại qua các lớp. Do đó, các lớp gần đầu vào nhất học chậm hơn nhiều so với các lớp gần đầu ra hoặc chúng có thể không học được gì cả. Điều này ngăn mạng hội tụ thành một giải pháp tối ưu và hạn chế hiệu suất và độ chính xác tổng thể của nó. Hiểu được hiện tượng này là rất quan trọng để đào tạo mô hình hiệu quả.
Sự biến mất của độ dốc thường xảy ra do:
Điều quan trọng là phải phân biệt gradient biến mất với vấn đề liên quan đến Gradient bùng nổ . Gradient bùng nổ xảy ra khi gradient trở nên quá lớn, dẫn đến quá trình đào tạo không ổn định và các bản cập nhật trọng số dao động lớn. Điều này thường xảy ra khi gradient được nhân nhiều lần với các số lớn hơn 1. Trong khi gradient biến mất ngăn cản việc học, gradient bùng nổ khiến việc học phân kỳ. Các kỹ thuật như cắt gradient thường được sử dụng để chống lại gradient bùng nổ.
Một số chiến lược đã được phát triển để giải quyết vấn đề mất dần độ dốc:
Việc giải quyết tình trạng gradient biến mất đóng vai trò then chốt trong những tiến bộ của AI:
Việc hiểu và giảm thiểu sự biến mất của gradient vẫn là một khía cạnh quan trọng trong việc thiết kế và đào tạo các mô hình học sâu hiệu quả, cho phép tạo ra các ứng dụng AI mạnh mẽ mà chúng ta thấy ngày nay, thường được quản lý và triển khai bằng các nền tảng như Ultralytics HUB .