Изучите архитектуры обнаружения объектов, от базовых компонентов до головных. Узнайте, как Ultralytics обеспечивает высочайшую скорость и точность для компьютерного зрения в реальном времени.
Архитектуры обнаружения объектов — это структурные схемы нейронных сетей, используемые для идентификации и локализации объектов в визуальных данных. В более широкой области компьютерного зрения (CV) эти архитектуры определяют, как машина «видит», обрабатывая необработанные пиксельные данные и преобразуя их в значимую информацию. В отличие от базовых моделей классификации, которые просто маркируют изображение, архитектура обнаружения объектов предназначена для вывода ограничительной рамки наряду с меткой класса и показателем достоверности для каждого отдельного объекта, который она находит. Эта структурная конструкция определяет скорость, точность и вычислительную эффективность модели, что делает ее критическим фактором при выборе модели для вывода в реальном времени или высокоточного анализа.
Хотя конкретные конструкции различаются, большинство современных архитектур имеют три основных компонента: основу, шею и голову. Основа действует как основной экстрактор признаков. Обычно это сверточная нейронная сеть (CNN), предварительно обученная на большом наборе данных, таком как ImageNet, отвечает за идентификацию основных форм, краев и текстур. Популярными вариантами магистралей являются ResNet и CSPDarknet.
Шейка соединяет основу с конечными выходными слоями. Ее роль заключается в смешивании и объединении характеристик с разных этапов основы, чтобы модель могла detect разных размеров — концепция, известная как мультимасштабное слияние характеристик. Архитектуры часто используют Feature Pyramid Network (FPN) или Path Aggregation Network (PANet), чтобы обогатить семантическую информацию, передаваемую на уровни прогнозирования. Наконец, детектирующая головка обрабатывает эти объединенные особенности, чтобы предсказать конкретный класс и координаты местоположения каждого объекта.
Исторически архитектуры делились на две основные категории. Двухэтапные детекторы, такие как семейство R-CNN, сначала предлагают области интереса (RoI), где могут находиться объекты, а затем classify области на втором этапе. Хотя они, как правило, точны, они часто слишком вычислительно тяжелы для пограничных устройств.
В отличие от этого, одноступенчатые детекторы рассматривают обнаружение как простую задачу регрессии, сопоставляя пиксели изображения непосредственно с координатами ограничивающей рамки и вероятностями классов за один проход. Этот подход, впервые примененный в семействе Y YOLO (You Only Look Once), произвел революцию в отрасли, обеспечив работу в режиме реального времени. Современные достижения вылились в такие модели, как YOLO26, которые не только предлагают превосходную скорость, но и используют сквозные архитектуры NMS. Устранив необходимость в постобработке с помощью немаксимального подавления (NMS), эти новые архитектуры снижают изменчивость задержки, что имеет решающее значение для систем, критичных с точки зрения безопасности.
Выбор архитектуры напрямую влияет на успех решений в области искусственного интеллекта во всех отраслях.
Важно отличать архитектуры обнаружения от аналогичных задач компьютерного зрения:
Современные фреймворки абстрагировали сложности этих архитектур, позволяя разработчикам использовать
передовые разработки с минимальным количеством кода. Использование ultralytics пакет, вы можете загрузить предварительно обученный
YOLO26 модель и сразу же запустить инференцию. Для команд,
желающих управлять своими наборами данных и обучать пользовательские архитектуры в облаке,
Платформа Ultralytics упрощает весь конвейер MLOps.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()