Изучите роль базовой архитектуры в глубоком обучении. Узнайте, как Ultralytics использует оптимизированные базовые архитектуры для быстрого и точного извлечения признаков и обнаружения объектов.
Основа — это фундаментальный компонент извлечения признаков в архитектуре глубокого обучения, действующий в качестве основного двигателя, который преобразует необработанные данные в значимые представления. В контексте компьютерного зрения основа обычно состоит из ряда слоев в нейронной сети, которая обрабатывает входные изображения для идентификации иерархических паттернов. Эти паттерны варьируются от простых низкоуровневых признаков, таких как края и текстуры, до сложных высокоуровневых концепций, таких как формы и объекты. Выходные данные основной части, часто называемые картой признаков, служат входными данными для последующих компонентов, которые выполняют конкретные задачи, такие как классификация или обнаружение.
Основная функция базовой сети заключается в «просмотре» и понимании визуального содержания изображения до принятия каких-либо конкретных решений. Она действует как универсальный переводчик, преобразуя значения пикселей в сжатый, богатый информацией формат. Большинство современных базовых сетей опираются на сверточные нейронные сети (CNN) или трансформеры зрения (ViT) и часто предварительно обучаются на огромных наборах данных, таких как ImageNet. Этот процесс предварительной подготовки, являющийся ключевым аспектом переноса обучения, позволяет модели использовать ранее изученные визуальные особенности, что значительно сокращает объем данных и время, необходимые для обучения новой модели для конкретного приложения.
Например, при использовании Ultralytics архитектура включает в себя высокооптимизированную основу, которая эффективно извлекает многомасштабные особенности. Это позволяет последующим частям сети полностью сосредоточиться на локализации объектов и присвоении вероятностей классов без необходимости заново учиться распознавать базовые визуальные структуры.
Чтобы полностью понять архитектуру моделей обнаружения объектов, необходимо отличать «позвоночник» от двух других основных компонентов: «шеи» и «головы».
Магистральные сети — это незаметные «рабочие лошадки», стоящие за многими промышленными и научными приложениями ИИ. Их способность обобщать визуальные данные делает их пригодными для использования в различных секторах.
Современные архитектуры, такие как YOLO11 и передовой YOLO26 по умолчанию интегрируют мощные базовые компоненты. Эти компоненты разработаны для обеспечения оптимальной задержки вывода на различных аппаратных платформах, от периферийных устройств до высокопроизводительных графических процессоров.
Следующий Python демонстрирует, как загрузить модель с предварительно обученной базовой структурой с помощью
ultralytics пакет. Эта настройка автоматически использует магистраль для извлечения признаков во время
вывода.
from ultralytics import YOLO
# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")
# Perform inference on an image
# The backbone extracts features, which are then used for detection
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting detection
results[0].show()
Используя предварительно обученную базовую модель, разработчики могут выполнять точную настройку на своих собственных наборах данных с помощью Ultralytics . Такой подход упрощает быструю разработку специализированных моделей, например, используемых для обнаружения посылок в логистике, без огромных вычислительных ресурсов, которые обычно требуются для обучения глубокой нейронной сети с нуля.