Khám phá cách ResNet cách mạng hóa việc học sâu bằng cách giải quyết vấn đề gradient biến mất, cho phép mạng siêu sâu phân tích hình ảnh, NLP, v.v.
Residual Networks, thường được gọi là ResNet, đại diện cho một kiến trúc mạng nơ-ron tích chập (CNN) đột phá do Kaiming He và các đồng nghiệp tại Microsoft Research phát triển. Được giới thiệu trong bài báo năm 2015 của họ, " Học sâu dư thừa để nhận dạng hình ảnh ", ResNet đã giải quyết một thách thức lớn trong học sâu (DL) : vấn đề suy thoái. Vấn đề này xảy ra khi thêm nhiều lớp hơn vào một mạng rất sâu dẫn đến lỗi đào tạo cao hơn, trái ngược với kỳ vọng rằng các mô hình sâu hơn sẽ hoạt động tốt hơn. Sự đổi mới của ResNet cho phép đào tạo thành công các mạng sâu hơn đáng kể so với khả năng trước đây, thúc đẩy đáng kể tình trạng tiên tiến trong nhiều tác vụ thị giác máy tính (CV) .
Ý tưởng cốt lõi đằng sau ResNet là sự ra đời của "kết nối bỏ qua" hoặc "kết nối tắt". Trong các mạng sâu truyền thống, mỗi lớp được đưa vào lớp tiếp theo theo trình tự. ResNet sửa đổi điều này bằng cách cho phép đầu vào của một khối các lớp được thêm vào đầu ra của khối đó. Điều này tạo ra một "khối còn lại" trong đó các lớp học một ánh xạ còn lại (sự khác biệt giữa đầu vào và đầu ra mong muốn) thay vì cố gắng học toàn bộ ánh xạ cơ bản trực tiếp. Nếu hàm tối ưu gần với ánh xạ danh tính hơn (trong đó đầu ra phải giống với đầu vào), thì mạng sẽ dễ học cách tạo ra số không còn lại (bằng cách đưa trọng số của các lớp xếp chồng về số không) hơn là học bản thân ánh xạ danh tính thông qua các lớp phi tuyến tính.
Các kết nối bỏ qua này tạo điều kiện cho luồng gradient trong quá trình truyền ngược , giảm thiểu vấn đề gradient biến mất thường xảy ra ở các mạng rất sâu. Điều này cho phép xây dựng và đào tạo hiệu quả các mạng có hàng trăm hoặc thậm chí hàng nghìn lớp, đạt được cải tiến độ chính xác đáng kể trên các tập dữ liệu chuẩn đầy thách thức như ImageNet .
Kiến trúc ResNet nhanh chóng trở thành xương sống tiêu chuẩn cho nhiều tác vụ thị giác máy tính ngoài phân loại hình ảnh , bao gồm:
Khả năng trích xuất các tính năng mạnh mẽ từ hình ảnh khiến nó trở thành một kiến trúc có tính linh hoạt cao và được áp dụng rộng rãi.
Kiến trúc ResNet có sẵn trong các khuôn khổ học sâu chính như PyTorch ( trang web chính thức của PyTorch ) và TensorFlow ( trang web chính thức TensorFlow ). Các mô hình được đào tạo trước, thường được đào tạo trên ImageNet , có thể truy cập thông qua các thư viện như torchvision , cho phép học chuyển giao hiệu quả. Các nền tảng như Ultralytics HUB cho phép người dùng tận dụng nhiều kiến trúc khác nhau, bao gồm cả kiến trúc dựa trên ResNet, để đào tạo các mô hình tùy chỉnh và triển khai chúng ( tài liệu Ultralytics HUB ). Bạn có thể tìm thêm các tài nguyên giáo dục về CNN tại Stanford CS231n hoặc thông qua các khóa học như các khóa học do DeepLearning.AI cung cấp.