Глоссарий

Распознавание образов

Узнай, как распознавание изображений позволяет ИИ классифицировать и понимать визуальные образы, стимулируя инновации в здравоохранении, розничной торговле, безопасности и многом другом.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Распознавание изображений - важнейшая отрасль искусственного интеллекта (ИИ) и компьютерного зрения (КВ), которая позволяет машинам идентифицировать и интерпретировать визуальную информацию из изображений или видео. Оно выходит за рамки простого разглядывания пикселей; оно включает в себя понимание содержания, такого как объекты, люди, сцены и действия, изображенные в визуальных данных. Эта технология лежит в основе бесчисленных приложений, позволяя системам "видеть" и осмысливать мир примерно так же, как человек.

Как работает распознавание образов

В своей основе распознавание изображений в значительной степени опирается на машинное обучение (ML), в частности на алгоритмы глубокого обучения (DL). Конволюционные нейронные сети (CNN) - это фундаментальный компонент, предназначенный для автоматического и адаптивного обучения пространственным иерархиям признаков на изображениях. Обычно этот процесс включает в себя обучение модели на огромных наборах помеченных изображений, таких как набор данных ImageNet, где каждое изображение помечено информацией о его содержании. В процессе обучения модель учится ассоциировать определенные визуальные паттерны и особенности с различными метками или категориями. После обучения модель может анализировать новые, невидимые изображения и предсказывать объекты или понятия, присутствующие в них.

Отличия от родственных терминов

Хотя распознавание изображений и связано с другими задачами компьютерного зрения, оно имеет свои специфические нюансы:

  • Классификация изображений: Классификация, часто используемая как взаимозаменяемое понятие с распознаванием изображений, обычно сосредоточена на присвоении одной первичной метки всему изображению (например, определение изображения как содержащего "кошку" или "собаку"). Распознавание изображений иногда может подразумевать более широкое понимание, например, идентификацию нескольких объектов или действий в сцене. Модели Ultralytics YOLO , такие как YOLOv11, могут выполнять задачи классификации изображений.
  • Обнаружение объектов: Эта задача идет на шаг дальше простого распознавания: она позволяет не только определить , какие объекты есть на изображении, но и где они расположены, обычно рисуя вокруг них ограничительные рамки.
  • Сегментация изображений: Обеспечивает более детальное понимание, классифицируя каждый пиксель на изображении, чтобы определить точные очертания или форму объектов, различая разные экземпляры(сегментация экземпляров) или категории(семантическая сегментация).

Применение в реальном мире

Распознавание образов обеспечивает широкий спектр приложений в различных отраслях:

  • Здравоохранение: Используется в анализе медицинских изображений, чтобы помочь радиологам обнаружить аномалии вроде опухолей или переломов на рентгеновских снимках, КТ и МРТ, что потенциально может привести к более ранней постановке диагноза. Например, модели могут быть обучены для таких задач, как обнаружение опухолей в медицинской визуализации.
  • Розничная торговля: Позволяет использовать такие приложения, как автоматизированные кассовые системы, которые идентифицируют товары без штрих-кодов, улучшает управление запасами в розничной торговле, отслеживая уровень запасов, и анализирует поведение покупателей в магазинах.
  • Безопасность и наблюдение: Задействует системы распознавания лиц для проверки личности и контроля доступа, а также обнаруживает вторжения или необычные действия в видеозаписях, внося свой вклад в системы типа компьютерного зрения для предотвращения краж.
  • Автономные транспортные средства: ИИ в самоуправляемых автомобилях необходим для распознавания пешеходов, других транспортных средств, светофоров и дорожных знаков, что обеспечивает безопасную навигацию.
  • Модерация контента: Платформы социальных сетей и онлайн-сервисы используют распознавание изображений для автоматического обнаружения и фильтрации неуместного или вредного контента, такого как глубокие подделки или нарушающие политику изображения, руководствуясь принципами этики ИИ.

Инструменты и технологии

Разработка систем распознавания изображений часто подразумевает использование специализированных инструментов и фреймворков. Библиотеки вроде OpenCV обеспечивают основные функции обработки изображений, а фреймворки глубокого обучения, такие как PyTorch и TensorFlow предлагают строительные блоки для создания и обучения сложных нейросетевых моделей. Платформы вроде Ultralytics HUB упрощают процесс обучения, развертывания и управления моделями компьютерного зрения, включая те, что используются для задач распознавания и классификации.

Читать полностью