Thuật ngữ

Mạng dư thừa (ResNet)

Khám phá cách ResNet cách mạng hóa việc học sâu bằng cách giải quyết vấn đề gradient biến mất, cho phép mạng siêu sâu phân tích hình ảnh, NLP, v.v.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Residual Networks, thường được gọi là ResNet, đại diện cho một kiến trúc mạng nơ-ron tích chập (CNN) đột phá do Kaiming He và các đồng nghiệp tại Microsoft Research phát triển. Được giới thiệu trong bài báo năm 2015 của họ, " Học sâu dư thừa để nhận dạng hình ảnh ", ResNet đã giải quyết một thách thức lớn trong học sâu (DL) : vấn đề suy thoái. Vấn đề này xảy ra khi thêm nhiều lớp hơn vào một mạng rất sâu dẫn đến lỗi đào tạo cao hơn, trái ngược với kỳ vọng rằng các mô hình sâu hơn sẽ hoạt động tốt hơn. Sự đổi mới của ResNet cho phép đào tạo thành công các mạng sâu hơn đáng kể so với khả năng trước đây, thúc đẩy đáng kể tình trạng tiên tiến trong nhiều tác vụ thị giác máy tính (CV) .

ResNet hoạt động như thế nào: Bỏ qua kết nối

Ý tưởng cốt lõi đằng sau ResNet là sự ra đời của "kết nối bỏ qua" hoặc "kết nối tắt". Trong các mạng sâu truyền thống, mỗi lớp được đưa vào lớp tiếp theo theo trình tự. ResNet sửa đổi điều này bằng cách cho phép đầu vào của một khối các lớp được thêm vào đầu ra của khối đó. Điều này tạo ra một "khối còn lại" trong đó các lớp học một ánh xạ còn lại (sự khác biệt giữa đầu vào và đầu ra mong muốn) thay vì cố gắng học toàn bộ ánh xạ cơ bản trực tiếp. Nếu hàm tối ưu gần với ánh xạ danh tính hơn (trong đó đầu ra phải giống với đầu vào), thì mạng sẽ dễ học cách tạo ra số không còn lại (bằng cách đưa trọng số của các lớp xếp chồng về số không) hơn là học bản thân ánh xạ danh tính thông qua các lớp phi tuyến tính.

Các kết nối bỏ qua này tạo điều kiện cho luồng gradient trong quá trình truyền ngược , giảm thiểu vấn đề gradient biến mất thường xảy ra ở các mạng rất sâu. Điều này cho phép xây dựng và đào tạo hiệu quả các mạng có hàng trăm hoặc thậm chí hàng nghìn lớp, đạt được cải tiến độ chính xác đáng kể trên các tập dữ liệu chuẩn đầy thách thức như ImageNet .

Các khái niệm chính

  • Khối dư: Đơn vị xây dựng cơ bản của ResNet, bao gồm một vài lớp tích chập và một kết nối bỏ qua giúp thêm đầu vào của khối vào đầu ra của nó.
  • Bỏ qua kết nối (Phím tắt): Kết nối trực tiếp bỏ qua một hoặc nhiều lớp, cho phép học luồng gradient và lập bản đồ danh tính dễ dàng hơn.
  • Ánh xạ danh tính: Khi một lớp hoặc khối chỉ cần truyền đầu vào của nó qua mà không thay đổi. Kết nối bỏ qua giúp các khối còn lại dễ dàng ước tính ánh xạ danh tính hơn nếu cần.
  • Vấn đề suy thoái: Hiện tượng mà các mạng sâu hơn hoạt động kém hơn (lỗi đào tạo và kiểm tra cao hơn) so với các mạng nông hơn, được giải quyết bằng phương pháp học dư thừa của ResNet.

Sự liên quan trong tầm nhìn máy tính

Kiến trúc ResNet nhanh chóng trở thành xương sống tiêu chuẩn cho nhiều tác vụ thị giác máy tính ngoài phân loại hình ảnh , bao gồm:

  • Phát hiện đối tượng: Nhiều mô hình phát hiện, như Faster R-CNN và một số biến thể được sử dụng trong các hệ thống so với các mô hình YOLO Ultralytics (ví dụ: RT-DETR ), sử dụng xương sống ResNet để trích xuất tính năng ( Thuật ngữ phát hiện đối tượng ).
  • Phân đoạn hình ảnh: Các kiến trúc như Mask R-CNN thường sử dụng ResNet để trích xuất các đặc điểm không gian phong phú cần thiết cho phân loại cấp độ pixel ( Thuật ngữ phân đoạn hình ảnh ).

Khả năng trích xuất các tính năng mạnh mẽ từ hình ảnh khiến nó trở thành một kiến trúc có tính linh hoạt cao và được áp dụng rộng rãi.

Ứng dụng trong thế giới thực

  1. Phân tích hình ảnh y tế: ResNet được sử dụng rộng rãi trong việc phân tích các bản quét y tế (X-quang, CT, MRI) để phát hiện các bất thường như khối u hoặc bệnh võng mạc tiểu đường. Độ sâu mà ResNet cho phép cho phép mô hình học các mẫu phức tạp chỉ ra các bệnh, hỗ trợ các bác sĩ X quang trong chẩn đoán. Bạn có thể khám phá các ứng dụng liên quan trong AI trong X quang và tìm hiểu thêm về lĩnh vực này trong phân tích hình ảnh y tế . Các sáng kiến như chương trình Bridge2AI của NIH thường tận dụng các mô hình tiên tiến như vậy.
  2. Lái xe tự động: Hệ thống nhận thức trong xe tự lái thường dựa vào kiến trúc dựa trên ResNet để phát hiện đối tượng và nhận dạng người đi bộ, phương tiện, đèn giao thông và biển báo đường bộ theo thời gian thực. Độ mạnh mẽ và độ chính xác của các mô hình ResNet sâu rất quan trọng đối với sự an toàn trong các tình huống lái xe phức tạp ( AI trong các giải pháp ô tô ). Các công ty như Waymo nêu chi tiết tầm quan trọng của các hệ thống nhận thức mạnh mẽ.

So sánh với các kiến trúc khác

  • VGGNet: Trong khi VGGNet chứng minh được lợi ích của độ sâu bằng cách sử dụng phép tích chập 3x3 đơn giản, nó lại gặp khó khăn trong việc hội tụ đối với các mạng rất sâu do độ dốc biến mất. ResNet đã trực tiếp giải quyết hạn chế này ( blog Vision AI History , bài báo của VGG ).
  • DenseNet: DenseNet kết nối từng lớp với mọi lớp khác theo kiểu truyền thẳng, thúc đẩy việc tái sử dụng tính năng. Điều này khác với kết nối bỏ qua bổ sung của ResNet. Cả hai đều nhằm mục đích cải thiện luồng thông tin nhưng sử dụng các cơ chế khác nhau ( bài báo DenseNet ).
  • Vision Transformers (ViT): Các kiến trúc gần đây hơn như ViT sử dụng cơ chế chú ý, khác với phương pháp tiếp cận tích chập của ResNet và đã cho thấy hiệu suất cạnh tranh hoặc vượt trội trên nhiều điểm chuẩn, mặc dù ResNet vẫn có ảnh hưởng và được sử dụng rộng rãi.

Công cụ và triển khai

Kiến trúc ResNet có sẵn trong các khuôn khổ học sâu chính như PyTorch ( trang web chính thức của PyTorch ) và TensorFlow ( trang web chính thức TensorFlow ). Các mô hình được đào tạo trước, thường được đào tạo trên ImageNet , có thể truy cập thông qua các thư viện như torchvision , cho phép học chuyển giao hiệu quả. Các nền tảng như Ultralytics HUB cho phép người dùng tận dụng nhiều kiến trúc khác nhau, bao gồm cả kiến trúc dựa trên ResNet, để đào tạo các mô hình tùy chỉnh và triển khai chúng ( tài liệu Ultralytics HUB ). Bạn có thể tìm thêm các tài nguyên giáo dục về CNN tại Stanford CS231n hoặc thông qua các khóa học như các khóa học do DeepLearning.AI cung cấp.

Đọc tất cả