Глоссарий

Компьютерное зрение (CV)

Раскрой потенциал искусственного интеллекта с помощью компьютерного зрения! Изучи его роль в распознавании объектов, здравоохранении, создании самоуправляемых автомобилей и не только. Узнай больше прямо сейчас!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Компьютерное зрение (КЗ) - это специализированная область искусственного интеллекта (ИИ), которая позволяет компьютерам и системам извлекать значимую информацию из цифровых изображений, видео и других визуальных данных. По сути, она направлена на то, чтобы воспроизвести человеческое визуальное понимание, позволяя машинам "видеть", интерпретировать и принимать решения на основе визуальных данных. Это предполагает обработку визуальной информации с помощью сложных алгоритмов и моделей глубокого обучения (DL) для распознавания объектов, понимания сцен и извлечения высокоуровневых выводов. В отличие от простой обработки изображений, которая в первую очередь направлена на улучшение или манипулирование данными изображения (например, регулировка яркости или применение фильтров), компьютерное зрение стремится понять содержание и контекст внутри визуального ряда.

Важность в искусственном интеллекте и машинном обучении

Компьютерное зрение является основополагающим для многих современных систем ИИ и машинного обучения (ML), обеспечивая необходимые возможности для взаимодействия машин с физическим миром и его понимания через визуальное восприятие. Появление таких методов, как конволюционные нейронные сети (CNN), вдохновленные зрительной корой головного мозга человека, произвело революцию в КВ. Эти сети позволяют моделям автоматически изучать иерархические признаки из огромного количества визуальных данных, что приводит к значительному повышению точности выполнения различных задач компьютерного зрения. Этот прогресс позволяет создавать сложные приложения, которые раньше были недостижимы, что делает КВ краеугольным камнем нынешнего развития ИИ и ключевым фактором для использования ИИ, преобразующего наше будущее.

Ключевые понятия и задачи

Компьютерное зрение охватывает широкий спектр задач, направленных на извлечение различных типов информации из визуальных данных. К основным задачам относятся:

Компьютерное зрение в сравнении со смежными областями

Полезно отличать компьютерное зрение от смежных дисциплин:

  • Обработка изображений: Фокусируется на манипуляциях с изображениями на низком уровне, часто в качестве предварительного этапа обработки для CV. Задачи включают в себя подавление шума, повышение контрастности и фильтрацию с помощью библиотек вроде OpenCV. Обработка изображений изменяет пиксели, но не обязательно интерпретирует содержимое изображения. Подробнее о ключевых различиях между компьютерным зрением и обработкой изображений.
  • Машинное зрение (МВ): Несмотря на то, что MV пересекается с CV, оно обычно относится к применению технологии машинного зрения в промышленных условиях для автоматизированного контроля, управления процессом и управления роботами. Системы MV часто работают в контролируемой среде со специфическим освещением и настройками камер, уделяя особое внимание надежности и скорости выполнения специфических задач, таких как проверка качества на производстве. Подробнее о машинном зрении.

Технологии и фреймворки

Разработка приложений для компьютерного зрения опирается на различные инструменты, библиотеки и фреймворки:

  • Библиотеки: OpenCV (Open Source Computer Vision Library) - основополагающая библиотека, предлагающая обширную коллекцию алгоритмов для обработки изображений и классических задач КВ. Среди других библиотек - Pillow для манипуляций с изображениями в Python и Scikit-image для алгоритмов обработки изображений.
  • Фреймворки для глубокого обучения: PyTorch и TensorFlow это ведущие фреймворки для построения и обучения моделей глубокого обучения, в том числе и тех, что используются в CV.
  • Модели: Современные модели, такие как YOLO (You Only Look Once), обеспечивают эффективное обнаружение объектов в реальном времени. Архитектуры вроде ResNet являются распространенной основой, а Vision Transformers (ViT) представляют собой новый класс моделей, набирающий популярность. Сравни производительность различных моделейYOLO .
  • Платформы: Такие инструменты, как Ultralytics HUB, упрощают процесс обучения, развертывания и управления CV-моделями, предлагая такие функции, как облачное обучение и управление наборами данных. Другие платформы, например Roboflow и . Weights & Biases предлагают дополнительные инструменты для аннотирования данных и отслеживания экспериментов.

Применение в реальном мире

Приложения компьютерного зрения получают все большее распространение в различных отраслях:

Читать полностью