Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Backbone (Опорная сеть)

Изучите роль базовой архитектуры в глубоком обучении. Узнайте, как Ultralytics использует оптимизированные базовые архитектуры для быстрого и точного извлечения признаков и обнаружения объектов.

Основа — это фундаментальный компонент извлечения признаков в архитектуре глубокого обучения, действующий в качестве основного двигателя, который преобразует необработанные данные в значимые представления. В контексте компьютерного зрения основа обычно состоит из ряда слоев в нейронной сети, которая обрабатывает входные изображения для идентификации иерархических паттернов. Эти паттерны варьируются от простых низкоуровневых признаков, таких как края и текстуры, до сложных высокоуровневых концепций, таких как формы и объекты. Выходные данные основной части, часто называемые картой признаков, служат входными данными для последующих компонентов, которые выполняют конкретные задачи, такие как классификация или обнаружение.

Роль магистрали

Основная функция базовой сети заключается в «просмотре» и понимании визуального содержания изображения до принятия каких-либо конкретных решений. Она действует как универсальный переводчик, преобразуя значения пикселей в сжатый, богатый информацией формат. Большинство современных базовых сетей опираются на сверточные нейронные сети (CNN) или трансформеры зрения (ViT) и часто предварительно обучаются на огромных наборах данных, таких как ImageNet. Этот процесс предварительной подготовки, являющийся ключевым аспектом переноса обучения, позволяет модели использовать ранее изученные визуальные особенности, что значительно сокращает объем данных и время, необходимые для обучения новой модели для конкретного приложения.

Например, при использовании Ultralytics архитектура включает в себя высокооптимизированную основу, которая эффективно извлекает многомасштабные особенности. Это позволяет последующим частям сети полностью сосредоточиться на локализации объектов и присвоении вероятностей классов без необходимости заново учиться распознавать базовые визуальные структуры.

Позвоночник, шея и голова

Чтобы полностью понять архитектуру моделей обнаружения объектов, необходимо отличать «позвоночник» от двух других основных компонентов: «шеи» и «головы».

  • Основа: «извлекатель особенностей». Он выделяет важную визуальную информацию из входного изображения. Популярные примеры включают Residual Networks (ResNet), первоначально разработанную Microsoft , и CSPNet, оптимизированную для вычислительной эффективности.
  • Шея: «Агрегатор признаков». Расположенная между позвоночником и головой, шея уточняет и объединяет признаки разных масштабов. Здесь обычно используется структура Feature Pyramid Network (FPN), которая улучшает способность модели detect разных размеров.
  • Голова: «прогнозирующий элемент». Головка обнаружения обрабатывает агрегированные характеристики от шеи для генерации конечного результата, такого как ограничительные рамки и метки классов.

Применение в реальном мире

Магистральные сети — это незаметные «рабочие лошадки», стоящие за многими промышленными и научными приложениями ИИ. Их способность обобщать визуальные данные делает их пригодными для использования в различных секторах.

  1. Медицинская диагностика: в здравоохранении базовые сети анализируют сложные медицинские изображения, такие как рентгеновские снимки, компьютерные томограммы и магнитно-резонансные томограммы. Выполняя анализ медицинских изображений, эти сети могут выявлять незначительные аномалии, указывающие на заболевание. Например, специализированные модели используют мощные базовые сети для обнаружения опухолей, выявляя ранние признаки рака, которые могут быть незаметны для человеческого глаза. Такие организации, как Североамериканское радиологическое общество (RSNA), выступают за использование этих инструментов глубокого обучения для революционного улучшения ухода за пациентами.
  2. Автономные системы: В автомобильной и робототехнической промышленности магистральные сети обрабатывают видеопотоки с бортовых камер для интерпретации окружающей среды. Искусственный интеллект в автомобильной промышленности полагается на эти надежные средства извлечения характеристик для detect , считывания дорожных знаков и идентификации пешеходов в режиме реального времени. Надежная магистральная сеть гарантирует, что система может различать статические препятствия и движущиеся транспортные средства, что является критически важным требованием безопасности для технологий автономного вождения, разработанных такими компаниями, как Waymo.

Реализация с помощью Ultralytics

Современные архитектуры, такие как YOLO11 и передовой YOLO26 по умолчанию интегрируют мощные базовые компоненты. Эти компоненты разработаны для обеспечения оптимальной задержки вывода на различных аппаратных платформах, от периферийных устройств до высокопроизводительных графических процессоров.

Следующий Python демонстрирует, как загрузить модель с предварительно обученной базовой структурой с помощью ultralytics пакет. Эта настройка автоматически использует магистраль для извлечения признаков во время вывода.

from ultralytics import YOLO

# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")

# Perform inference on an image
# The backbone extracts features, which are then used for detection
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting detection
results[0].show()

Используя предварительно обученную базовую модель, разработчики могут выполнять точную настройку на своих собственных наборах данных с помощью Ultralytics . Такой подход упрощает быструю разработку специализированных моделей, например, используемых для обнаружения посылок в логистике, без огромных вычислительных ресурсов, которые обычно требуются для обучения глубокой нейронной сети с нуля.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас