Глоссарий

Компьютерное зрение (CV)

Раскрой потенциал искусственного интеллекта с помощью компьютерного зрения! Изучи его роль в распознавании объектов, здравоохранении, создании самоуправляемых автомобилей и не только. Узнай больше прямо сейчас!

Компьютерное зрение (КЗ) - это специализированная область искусственного интеллекта (ИИ), которая позволяет компьютерам и системам извлекать значимую информацию из цифровых изображений, видео и других визуальных данных. По сути, она направлена на то, чтобы воспроизвести человеческое визуальное понимание, позволяя машинам "видеть", интерпретировать и принимать решения на основе визуальных данных. Это предполагает обработку визуальной информации с помощью сложных алгоритмов и моделей глубокого обучения (DL) для распознавания объектов, понимания сцен и извлечения высокоуровневых выводов. В отличие от простой обработки изображений, которая в первую очередь направлена на улучшение или манипулирование данными изображения (например, регулировка яркости или применение фильтров), компьютерное зрение стремится понять содержание и контекст внутри визуального ряда.

Важность в искусственном интеллекте и машинном обучении

Компьютерное зрение является основополагающим для многих современных систем ИИ и машинного обучения (ML), обеспечивая необходимые возможности для взаимодействия машин с физическим миром и его понимания через визуальное восприятие. Появление таких методов, как конволюционные нейронные сети (CNN), вдохновленные зрительной корой головного мозга человека, произвело революцию в КВ. Эти сети позволяют моделям автоматически изучать иерархические признаки из огромного количества визуальных данных, что приводит к значительному повышению точности выполнения различных задач компьютерного зрения. Этот прогресс позволяет создавать сложные приложения, которые раньше были недостижимы, что делает КВ краеугольным камнем нынешнего развития ИИ и ключевым фактором для использования ИИ, преобразующего наше будущее.

Ключевые понятия и задачи

Компьютерное зрение охватывает широкий спектр задач, направленных на извлечение различных типов информации из визуальных данных. К основным задачам относятся:

Классификация изображений: Присвоение одной метки или категории всему изображению (например, определение изображения как содержащего "кошку" или "собаку"). Для решения этой задачи обычно используются такие наборы данных, как ImageNet.
Обнаружение объектов: Определение наличия и местоположения нескольких объектов на изображении, обычно путем рисования ограничительных рамок вокруг них и присвоения меток классов (например, определение местоположения всех "машин" и "пешеходов" на уличной сцене). Такие модели, как Ultralytics YOLO широко используются для эффективного обнаружения объектов.
Сегментация изображения: Классификация каждого пикселя на изображении на предмет принадлежности к определенному объекту или региону. Это дает более детальное понимание, чем обнаружение объектов. Типы сегментации включают семантическую сегментацию (маркировка пикселей по категориям) и сегментацию экземпляров (различение отдельных экземпляров объектов в пределах одной категории). Смотри руководство по сегментации и отслеживанию экземпляров.
Оценка позы: Определение положения и ориентации ключевых точек объекта, часто используется для оценки позы человека (определение суставов) или отслеживания жестких объектов. Узнай о специальном обучении для оценки позы собаки.
Отслеживание объектов: Идентификация и слежение за определенными объектами на протяжении нескольких кадров видеопоследовательности. Это сочетает в себе обнаружение объектов и временной анализ. Изучи обнаружение и отслеживание объектов с помощью Ultralytics YOLOv8.
Оптический поток: оценка движения объектов или камеры между последовательными кадрами видео.

Компьютерное зрение в сравнении со смежными областями

Полезно отличать компьютерное зрение от смежных дисциплин:

Обработка изображений: Фокусируется на манипуляциях с изображениями на низком уровне, часто в качестве предварительного этапа обработки для CV. Задачи включают в себя подавление шума, повышение контрастности и фильтрацию с помощью библиотек вроде OpenCV. Обработка изображений изменяет пиксели, но не обязательно интерпретирует содержимое изображения. Подробнее о ключевых различиях между компьютерным зрением и обработкой изображений.
Машинное зрение (МВ): Несмотря на то, что MV пересекается с CV, оно обычно относится к применению технологии машинного зрения в промышленных условиях для автоматизированного контроля, управления процессом и управления роботами. Системы MV часто работают в контролируемой среде со специфическим освещением и настройками камер, уделяя особое внимание надежности и скорости выполнения специфических задач, таких как проверка качества на производстве. Подробнее о машинном зрении.

Технологии и фреймворки

Разработка приложений для компьютерного зрения опирается на различные инструменты, библиотеки и фреймворки:

Библиотеки: OpenCV (Open Source Computer Vision Library) - основополагающая библиотека, предлагающая обширную коллекцию алгоритмов для обработки изображений и классических задач КВ. Среди других библиотек - Pillow для манипуляций с изображениями в Python и Scikit-image для алгоритмов обработки изображений.
Фреймворки для глубокого обучения: PyTorch и TensorFlow это ведущие фреймворки для построения и обучения моделей глубокого обучения, в том числе и тех, что используются в CV.
Модели: Современные модели, такие как YOLO (You Only Look Once), обеспечивают эффективное обнаружение объектов в реальном времени. Архитектуры вроде ResNet являются распространенной основой, а Vision Transformers (ViT) представляют собой новый класс моделей, набирающий популярность. Сравни производительность различных моделейYOLO .
Платформы: Такие инструменты, как Ultralytics HUB, упрощают процесс обучения, развертывания и управления CV-моделями, предлагая такие функции, как облачное обучение и управление наборами данных. Другие платформы, например Roboflow и . Weights & Biases предлагают дополнительные инструменты для аннотирования данных и отслеживания экспериментов.

Применение в реальном мире

Приложения компьютерного зрения получают все большее распространение в различных отраслях:

Автономные транспортные средства: Автобиография крайне важна для самодвижущихся автомобилей, позволяя им воспринимать окружающую обстановку, обнаруживать пешеходов и другие транспортные средства, читать дорожные знаки и безопасно перемещаться. Такие компании, как Waymo и Tesla, во многом полагаются на системы CV. Изучи решения в области ИИ в автомобильной промышленности.
Здравоохранение: В анализе медицинских изображений КВ помогает радиологам обнаруживать аномалии вроде опухолей или переломов на рентгеновских снимках, КТ и МРТ. Также она используется в роботизированной хирургии и при наблюдении за пациентами. Смотри исследование из журнала Radiology: Искусственный интеллект. Узнай, как YOLO11 используется для обнаружения опухолей.
Безопасность и наблюдение: CV питает автоматизированные системы наблюдения, обнаруживая вторжения, отслеживая людей и анализируя поведение толпы. Узнай, как построить систему охранной сигнализации.
Розничная торговля: Сферы применения включают управление запасами с помощью мониторинга полок, анализ поведения покупателей и системы касс без кассиров, как в Amazon Go.
Производство: Используется для контроля качества, обнаружения дефектов, мониторинга сборочных линий и автоматизации робототехники. Узнай о создании умных производственных решений с помощью YOLO11.
Сельское хозяйство: Обеспечивает точное земледелие благодаря мониторингу урожая, обнаружению болезней, выявлению сорняков и автоматическому сбору урожая. Читай о мониторинге здоровья сельскохозяйственных культур в режиме реального времени.
Развлечения: Используется в кинопроизводстве для создания спецэффектов, захвата движения, а также в играх для создания захватывающих впечатлений. Исследуй искусственный интеллект в видеоиграх.

Компьютерное зрение (CV)

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Важность в искусственном интеллекте и машинном обучении

Ключевые понятия и задачи

Компьютерное зрение в сравнении со смежными областями

Технологии и фреймворки

Применение в реальном мире

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

Компьютерное зрение (CV)

Обучай модели YOLO простос помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Важность в искусственном интеллекте и машинном обучении

Ключевые понятия и задачи

Компьютерное зрение в сравнении со смежными областями

Технологии и фреймворки

Применение в реальном мире

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

Обучай модели YOLO просто
с помощью Ultralytics HUB.