Глоссарий

Остаточные сети (ResNet)

Узнай, как ResNets совершают революцию в глубоком обучении, решая проблему исчезающих градиентов и создавая сверхглубокие сети для анализа изображений, NLP и многого другого.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Остаточные сети, широко известные как ResNet, представляют собой новаторскую архитектуру конволюционных нейронных сетей (CNN), разработанную Каймингом Хе и его коллегами из Microsoft Research. Представленная в 2015 году в работе"Deep Residual Learning for Image Recognition", ResNet решает главную проблему глубокого обучения (ГСО)- проблему деградации. Эта проблема возникает, когда добавление большего количества слоев в очень глубокую сеть приводит к увеличению ошибки обучения, вопреки ожиданиям, что более глубокие модели должны работать лучше. Инновации ResNet позволили успешно обучать сети значительно глубже, чем это было возможно ранее, что значительно продвинуло современный уровень в различных задачах компьютерного зрения (КЗ).

Как работают Рессети Пропускные соединения

Основная идея ResNet - введение "пропускных соединений" или "коротких соединений". В традиционных глубоких сетях каждый слой последовательно вливается в следующий. ResNet модифицирует это, позволяя добавлять вход блока слоев к выходу этого блока. Это создает "остаточный блок", где слои учат остаточное отображение (разницу между входом и желаемым выходом), а не пытаются выучить все базовое отображение напрямую. Если оптимальная функция ближе к отображению идентичности (где выход должен быть таким же, как и вход), то сети проще научиться делать остаток нулевым (направляя веса слоев в сторону нуля), чем изучать само отображение идентичности через нелинейные слои.

Эти пропускные соединения способствуют градиентному потоку во время обратного распространения, смягчая проблему исчезающего градиента, которая часто поражает очень глубокие сети. Это позволяет строить и эффективно обучать сети с сотнями и даже тысячами слоев, добиваясь заметного повышения точности на сложных эталонных наборах данных, таких как ImageNet.

Ключевые понятия

  • Остаточный блок: Фундаментальная строительная единица сети ResNet, состоящая из нескольких конволюционных слоев и пропускного соединения, которое добавляет вход блока к его выходу.
  • Skip Connection (Shortcut): Прямое соединение, которое обходит один или несколько слоев, позволяя легче изучать градиентный поток и отображение идентичности.
  • Отображение идентичности: Когда слой или блок просто пропускает свой вход через себя без изменений. Пропускные соединения облегчают остаточным блокам аппроксимацию отображения идентичности, если это необходимо.
  • Проблема деградации: явление, когда более глубокие сети работают хуже (более высокая ошибка обучения и тестирования), чем более мелкие аналоги, решается с помощью остаточного обучения ResNet.

Актуальность в компьютерном зрении

Архитектуры ResNet быстро стали стандартной основой для многих задач компьютерного зрения, выходящих за рамки классификации изображений, включая:

  • Обнаружение объектов: Многие модели обнаружения, например Faster R-CNN и некоторые ее варианты, используемые в системах, сравниваемых с Ultralytics YOLO модели (например, RT-DETR), используют основу ResNet для извлечения признаков(глоссарий "Обнаружение объектов").
  • Сегментация изображений: Архитектуры вроде Mask R-CNN часто используют ResNet для извлечения богатых пространственных признаков, необходимых для классификации на уровне пикселей(глоссарий Image Segmentation).

Способность извлекать мощные характеристики из изображений сделала эту архитектуру очень универсальной и широко распространенной.

Применение в реальном мире

  1. Анализ медицинских изображений: Сети ResNet широко используются при анализе медицинских снимков (рентгеновских, компьютерных, магнитно-резонансных) для обнаружения таких аномалий, как опухоли или диабетическая ретинопатия. Глубина, которую обеспечивает ResNet, позволяет модели изучать сложные паттерны, указывающие на заболевания, помогая рентгенологам в диагностике. Ты можешь изучить смежные приложения в AI in Radiology и узнать больше об этой области в анализе медицинских изображений. Такие инициативы, как программа NIH's Bridge2AI, часто используют подобные продвинутые модели.
  2. Автономное вождение: Системы восприятия в самоуправляемых автомобилях часто опираются на архитектуры на основе ResNet для обнаружения и распознавания объектов в реальном времени: пешеходов, автомобилей, светофоров и дорожных знаков. Надежность и точность глубоких моделей ResNet имеют решающее значение для обеспечения безопасности в сложных сценариях вождения(AI in Automotive solutions). Такие компании, как Waymo, подробно рассказывают о важности надежных систем восприятия.

Сравнение с другими архитектурами

  • VGGNet: Хотя VGGNet продемонстрировал преимущество глубины, используя простые свертки 3x3, он испытывал трудности со сходимостью для очень глубоких сетей из-за исчезающих градиентов. ResNet напрямую устранил это ограничение(блог Vision AI History, статья VGG).
  • Плотная сеть: Плотные сети соединяют каждый слой со всеми остальными слоями по принципу прямой передачи, что способствует повторному использованию характеристик. Это отличается от аддитивных пропускных соединений ResNet. Обе сети нацелены на улучшение потока информации, но используют разные механизмы(статья о DenseNet).
  • Vision Transformers (ViT): Более современные архитектуры, такие как ViT, используют механизмы внимания, отклоняясь от конволюционного подхода ResNet, и показали конкурентоспособную или превосходящую производительность во многих бенчмарках, хотя ResNets остаются влиятельными и широко используемыми.

Инструменты и реализация

Архитектуры ResNet легко доступны в основных фреймворках глубокого обучения, таких как PyTorchPyTorch официальный сайтPyTorch ) и TensorFlowTensorFlow официальный сайтTensorFlow ). Предварительно обученные модели, часто обученные на ImageNet, доступны через такие библиотеки, как torchvision, что позволяет эффективно проводить трансферное обучение. Платформы вроде Ultralytics HUB позволяют пользователям использовать различные архитектуры, в том числе на основе ResNet, для обучения пользовательских моделей и их развертыванияUltralytics документацияUltralytics HUB). Дополнительные образовательные ресурсы по CNN ты можешь найти в Stanford CS231n или на курсах вроде тех, что предлагает DeepLearning.AI.

Читать полностью