Глоссарий

Магистраль

Открой для себя роль магистралей в глубоком обучении, изучи лучшие архитектуры, такие как ResNet и ViT, и узнай об их реальных применениях в ИИ.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

В глубоком обучении, особенно в компьютерном зрении, под "костяком" понимается начальный набор слоев в нейросетевой модели, отвечающий за извлечение признаков. Считай, что это фундамент, на котором строится остальная часть модели. Его основная роль заключается в обработке исходных данных, таких как изображение, и преобразовании их в богатое представление, известное как карта признаков, которая фиксирует важные паттерны, текстуры и формы. Эта фундаментальная обработка имеет решающее значение для способности модели понимать и интерпретировать входные данные для последующих задач.

Основной функционал

Магистраль обычно состоит из ряда слоев, часто включающих конволюционные слои, слои объединения и функции активации. По мере того как входные данные проходят через эти слои, сеть постепенно обучается иерархическим признакам. Ранние слои могут обнаруживать простые признаки, такие как края и углы, а более глубокие слои объединяют их, чтобы распознавать более сложные структуры и объекты. На выходе магистраль получает набор высокоуровневых карт признаков, которые обобщают важную информацию, содержащуюся в исходном входном материале, эффективно снижая размерность и сохраняя семантическое значение. Этот процесс извлечения признаков является основополагающим для работы многих моделей глубокого обучения.

Роль в моделях компьютерного зрения

В сложных моделях компьютерного зрения, например в тех, что используются для обнаружения объектов или сегментации объектов, основа обеспечивает представление основных характеристик. Последующие компоненты, часто называемые "шеей" и "головой", используют эти признаки. Шея может дополнительно обрабатывать и комбинировать признаки, полученные на разных этапах работы костяка, а голова обнаружения использует уточненные признаки для выполнения конечной задачи, такой как рисование ограничительных рамок вокруг объектов или классификация пикселей. Костяк отличается от этих последующих этапов, концентрируясь исключительно на создании мощного представления признаков общего назначения из входных данных. Часто костяки предварительно обучаются на больших наборах данных, таких как ImageNet, а затем адаптируются для конкретных задач с помощью трансферного обучения.

Распространенные магистральные архитектуры

В качестве магистралей обычно используются несколько известных архитектур:

  • ResNet (Residual Networks): Ввел пропускные соединения, чтобы обеспечить обучение очень глубоких сетей(arXiv:1512.03385).
  • VGGNet: Известна своей простотой, использует небольшие конволюционные фильтры 3x3, сложенные в глубокую стопку(arXiv:1409.1556).
  • MobileNet: Разработан для эффективности на мобильных и встраиваемых устройствах с использованием глубинных сепарабельных сверток(arXiv:1704.04861).
  • CSPNet (Cross Stage Partial Network): Используется в таких моделях, как Ultralytics YOLOv5она улучшает обучение и одновременно уменьшает узкие места в вычислениях(arXiv:1911.11929).
  • Vision Transformers (ViT): Адаптируй архитектуру Transformer, изначально заимствованную из NLP, для задач распознавания образов, эффективно захватывая глобальный контекст.

Выбор магистрали существенно влияет на баланс между скоростью, вычислительными затратами и точностью модели, что видно из различных сравнений моделей.

Важность и применение

Выбор правильной основы имеет решающее значение для производительности модели. Более сложная магистраль может обеспечить более высокую точность, но потребовать больше вычислительных ресурсов, что делает ее непригодной для развертывания на пограничных устройствах. И наоборот, легкая магистраль ставит во главу угла скорость и эффективность, но может пожертвовать некоторой точностью.

  • ИИ в автономных автомобилях: Магистрали обрабатывают данные с камер или LiDAR для извлечения особенностей, представляющих дороги, пешеходов, дорожные знаки и другие транспортные средства, что позволяет навигационной системе автомобиля принимать решения.
  • ИИ в здравоохранении: В анализе медицинских изображений бэкбоны помогают выявлять на рентгеновских снимках, КТ или МРТ тонкие закономерности, указывающие на такие заболевания, как рак, помогая радиологам в диагностике.

Такие инструменты, как Ultralytics HUB, позволяют пользователям обучать такие модели, как YOLOv8 с различными конфигурациями, неявно используя мощь их базовой основы для различных приложений.

Читать полностью