Глоссарий

Компьютерное зрение (CV)

Раскрой потенциал искусственного интеллекта с помощью компьютерного зрения! Изучи его роль в распознавании объектов, здравоохранении, создании самоуправляемых автомобилей и не только. Узнай больше прямо сейчас!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Компьютерное зрение (КЗ) - это специализированная область искусственного интеллекта (ИИ), которая позволяет компьютерам и системам извлекать значимую информацию из цифровых изображений, видео и других визуальных данных. По сути, она направлена на то, чтобы воспроизвести человеческое визуальное понимание, позволяя машинам "видеть", интерпретировать и принимать решения на основе визуальных данных. Это предполагает обработку визуальной информации с помощью сложных алгоритмов и моделей глубокого обучения (DL) для распознавания объектов, понимания сцен и извлечения высокоуровневых выводов. В отличие от обработки изображений, которая в первую очередь направлена на улучшение или манипулирование данными изображения (например, регулировка яркости или применение фильтров), компьютерное зрение стремится понять содержание и контекст внутри визуального ряда.

Важность в искусственном интеллекте и машинном обучении

Компьютерное зрение является основополагающим для многих современных систем искусственного интеллекта и машинного обучения (ML). Оно предоставляет машинам необходимые возможности для взаимодействия с физическим миром и его понимания через визуальное восприятие. Такие техники, как конволюционные нейронные сети (CNN), произвели революцию в КВ, позволив моделям с высокой точностью изучать иерархические признаки из огромных массивов визуальных данных. Это позволяет решать сложные задачи компьютерного зрения, такие как обнаружение объектов, классификация изображений и сегментация изображений. Такие модели, как Ultralytics YOLOv8 используют эти достижения для создания эффективных и точных решений для различных приложений, связанных со зрением, и часто интегрируются с платформами вроде Ultralytics HUB для упрощения разработки и развертывания.

Ключевые технологии и фреймворки

Разработка приложений для компьютерного зрения часто подразумевает использование специализированных библиотек и фреймворков. К ключевым технологиям относятся:

  • OpenCV (библиотека компьютерного зрения с открытым исходным кодом): Комплексная библиотека, предлагающая множество алгоритмов для обработки изображений в реальном времени и решения задач компьютерного зрения. Она широко используется для предварительной обработки данных и реализации классических техник CV. Узнай больше на официальном сайте OpenCV.
  • PyTorch: Фреймворк машинного обучения с открытым исходным кодом, известный своей гибкостью и динамическим графом вычислений, популярный в исследованиях и разработках для моделей глубокого обучения. Посети официальный сайтPyTorch .
  • TensorFlow: Еще один широко используемый фреймворк с открытым исходным кодом, разработанный Google и предлагающий обширные инструменты для построения и развертывания моделей машинного обучения, включая сложные CV-приложения. Узнай больше на официальном сайтеTensorFlow .
  • Модели глубокого обучения: Такие архитектуры, как CNN, Vision Transformers (ViT), и модели типа YOLO (You Only Look Once) занимают центральное место в современной производительности CV.

Примеры из реальной жизни

Приложения компьютерного зрения получают все большее распространение в различных отраслях:

Автономные транспортные средства

Автономные автомобили в значительной степени полагаются на компьютерное зрение, чтобы воспринимать окружающую обстановку. Камеры и датчики снимают визуальные данные в реальном времени, которые алгоритмы CV обрабатывают, чтобы обнаружить пешеходов, транспортные средства, светофоры, разметку полос и препятствия. Это позволяет автомобилю безопасно ориентироваться и принимать сложные водительские решения. Ознакомься с решениямиUltralytics для технологий самостоятельного вождения и узнай больше о таких лидерах индустрии, как Waymo.

Анализ медицинских изображений

В здравоохранении компьютерное зрение помогает анализировать медицинские изображения, помогая рентгенологам и клиницистам диагностировать заболевания. Модели КВ могут анализировать рентгеновские снимки, КТ и МРТ, чтобы с поразительной скоростью и точностью обнаружить такие аномалии, как опухоли, переломы или признаки диабетической ретинопатии, что потенциально может привести к более ранней постановке диагноза и улучшению состояния пациента. Такие инициативы, как программа NIH Bridge2AI, направлены на развитие ИИ в биомедицинских исследованиях, включая медицинскую визуализацию. Узнай, как ИИ улучшает анализ медицинских изображений.

Среди других значимых применений - контроль качества в производстве, точное земледелие, наблюдение за безопасностью и системы дополненной реальности.

Читать полностью