Глоссарий

Задержка инференса

Изучите важность задержки вывода в искусственном интеллекте. Узнайте, как оптимизировать производительность в реальном времени с помощью Ultralytics для более быстрых и отзывчивых приложений.

Задержка вывода представляет собой временную задержку между получением моделью машинного обучения (ML) входных данных (таких как изображение или текстовый запрос) и выводом соответствующих выходных данных или прогноза. В контексте искусственного интеллекта (ИИ) этот показатель обычно измеряется в миллисекундах (мс) и служит важным индикатором отзывчивости системы. Для разработчиков, создающих приложения компьютерного зрения, понимание и минимизация задержки имеют важное значение для создания плавного интерактивного пользовательского опыта, особенно при развертывании моделей в средах с ограниченными ресурсами, таких как мобильные телефоны или встроенные устройства.

Почему латентность вывода имеет значение

Значение задержки вывода в значительной степени зависит от конкретного случая использования. Хотя задержка в несколько секунд может быть приемлемой для пакетной обработки, такой как анализ ночного отчета сервера, она часто неприемлема для интерактивных приложений. Низкая задержка является основой вывода в реальном времени, когда системы должны обрабатывать данные и реагировать мгновенно.

Сокращение задержки гарантирует, что агенты искусственного интеллекта могут естественно взаимодействовать с людьми, а автоматизированные системы работают безопасно. Высокая задержка может привести к «зависанию» интерфейсов, низкой удержании пользователей или, в критически важных для безопасности сценариях, к опасным сбоям в работе. Инженеры часто должны балансировать между сложностью модели, которая может повысить точность, и скоростью выполнения.

Факторы, влияющие на задержку

Несколько технических компонентов влияют на общее время, необходимое для одного прохода инференции:

Архитектура модели: Дизайн нейронной сети (NN) является основным фактором. Глубокие модели со многими слоями обычно требуют большего количества вычислений, чем более мелкие. Современные архитектуры, такие как YOLO26, специально оптимизированы для обеспечения высокой точности с минимальными вычислительными затратами.
Возможности оборудования: Выбор процессора существенно влияет на скорость работы. В то время как CPU является универсальным, специализированное оборудование, такое как графический процессорGPU ) или Tensor TPU ), предназначено для параллелизации матричных операций, которые являются центральными для глубокого обучения, что значительно сокращает задержку.
Размер входных данных: обработка видеокадров высокого разрешения 4K занимает больше времени, чем обработка стандартных изображений 640p. Разработчики часто изменяют размер входных данных во время предварительной обработки данных, чтобы найти оптимальный баланс между скоростью и способностью detect детали.
Методы оптимизации: такие методы, как квантование модели (преобразование весов в более низкую точность) и обрезка модели (удаление ненужных связей), являются эффективными способами ускорения выполнения. Инструменты, такие как NVIDIA TensorRT могут дополнительно оптимизировать модели для конкретного оборудования.

Применение в реальном мире

Влияние задержки вывода лучше всего иллюстрируется на практических примерах, где скорость является непреложным условием.

Автономное вождение: в области искусственного интеллекта в автомобилестроении самоуправляемый автомобиль должен непрерывно сканировать окружающую среду на наличие пешеходов, других транспортных средств и светофоров. Если система обнаружения объектов имеет высокую задержку, автомобиль может не успеть затормозить при появлении препятствия. Задержка даже в 100 миллисекунд при скорости движения по шоссе может привести к пробегу в несколько метров, поэтому низкая задержка является критически важным требованием безопасности.
Высокочастотная торговля: Финансовые учреждения используют прогнозное моделирование для анализа рыночных тенденций и совершения торговых операций. Эти алгоритмы должны обрабатывать огромные объемы данных и принимать решения за микросекунды. В этой сфере более низкая задержка напрямую означает конкурентное преимущество, позволяя компаниям извлекать выгоду из мимолетных рыночных возможностей, прежде чем конкуренты смогут отреагировать.

Измерение задержки с помощью Python

Вы можете легко измерить скорость вывода Ultralytics с помощью режима тестирования. Это поможет выбрать подходящий размер модели для ваших конкретных аппаратных ограничений.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

Задержка логического вывода и пропускная способность

Важно отличать задержку от пропускной способности, поскольку это связанные, но разные понятия в развертывании моделей.

Задержка вывода измерение времени, необходимого для одного прогноза (например, «обработка этого изображения заняла 20 мс»). Это ключевой показатель для однопользовательских приложений, работающих в режиме реального времени.
Пропускная способность измеряет объем прогнозов за определенный период времени (например, «Система обработала 500 изображений в секунду»). Высокая пропускная способность часто достигается за счет увеличения размера пакета, который обрабатывает много входных данных одновременно. Однако пакетирование может фактически увеличить задержку для отдельных элементов, ожидающих в очереди.

Оптимизация одного параметра часто достигается за счет другого. Например, приложения Edge AI обычно отдают приоритет задержке, чтобы обеспечить немедленную обратную связь, в то время как облачные задачи интеллектуального анализа данных могут отдавать приоритет пропускной способности для эффективной обработки огромных массивов данных.

Стратегии оптимизации

Разработчики используют различные стратегии для минимизации задержки. Экспорт моделей в оптимизированные форматы, такие как ONNX или OpenVINO может значительно повысить скорость работы на стандартных процессорах. Для мобильных устройств преобразование моделей в TFLite или CoreML гарантирует их эффективную работу на устройствах iOS Android . Кроме того, использование облегченных архитектур, таких как MobileNet или последняя версия Ultralytics YOLO26, гарантирует, что базовая модель будет эффективной по своему дизайну. Пользователи также могут использовать Ultralytics для беспроблемного развертывания моделей в этих оптимизированных форматах без сложной ручной настройки.

Задержка инференса

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Почему латентность вывода имеет значение

Факторы, влияющие на задержку

Применение в реальном мире

Измерение задержки с помощью Python

Задержка логического вывода и пропускная способность

Стратегии оптимизации

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics