Зелёная проверка
Ссылка копируется в буфер обмена

Генеративный искусственный интеллект меняет дальнейший путь развития компьютерного зрения

Открой для себя интересные моменты из панельной дискуссии на YOLO Vision 2024. Узнай, как генеративный ИИ определяет дальнейший путь развития моделей ИИ Vision в реальном времени.

Генеративный ИИ - это направление искусственного интеллекта (ИИ), которое создает новый контент, например изображения, текст или аудио, путем изучения закономерностей на основе существующих данных. Благодаря последним достижениям его теперь можно использовать для создания очень реалистичного контента, который часто имитирует человеческое творчество.

Однако влияние генеративного ИИ выходит за рамки простого создания контента. По мере развития моделей компьютерного зрения в реальном времени, таких как моделиUltralytics YOLO , генеративный ИИ также пересматривает способы обработки и дополнения визуальных данных, прокладывая путь к инновационным приложениям в реальных сценариях. 

Этот новый технологический сдвиг стал интересной темой для разговора на YOLO Vision 2024 (YV24), ежегодном гибридном мероприятии, проводимом компанией Ultralytics. На YV24 собрались энтузиасты ИИ и лидеры индустрии, чтобы обсудить последние прорывы в области компьютерного зрения. Мероприятие было посвящено инновациям, эффективности и будущему ИИ-решений в реальном времени.

Одним из ключевых моментов мероприятия стал панельный доклад на тему YOLO в эпоху генеративного ИИ". В дискуссии приняли участие Гленн Джочер, основатель и генеральный директор Ultralytics, Цзин Цю, старший инженер по машинному обучению в Ultralytics, и Ао Ванг из Университета Цинхуа. Они рассказали о том, как генеративный ИИ влияет на компьютерное зрение, и о проблемах построения практических моделей ИИ.

В этой статье мы вернемся к ключевым моментам их дискуссии и рассмотрим подробнее, как генеративный ИИ трансформирует Vision AI.

Разработка моделей Ultralytics YOLO

Наряду с Гленом Джочером многие опытные инженеры сыграли важную роль в разработке моделейYOLO от Ultralytics . Один из них, Цзин Цю, рассказал о своем неожиданном начале работы с YOLO. Он объяснил, что его увлечение искусственным интеллектом началось в студенческие годы. Он проводил значительное количество времени, исследуя и изучая эту область. Цзин Цю вспомнил, как он связался с Гленом Джочером на GitHub и стал участвовать в различных проектах по ИИ.

Дополняя слова Цзин Цю, Гленн Джочер описал GitHub как "невероятный способ обмена опытом - где люди, которых ты никогда не встречал, собираются вместе, чтобы помогать друг другу, внося свой вклад в работу друг друга. Это отличное сообщество и действительно отличный способ начать работать в области ИИ".

Рис. 1. Гленн Джочер и Цзин Цю выступают на сцене на YV24.

Интерес Цзина Цю к искусственному интеллекту и его работа над Ultralytics YOLOv5 помогли усовершенствовать модель. Позже он сыграл ключевую роль в разработке Ultralytics YOLOv8в которой были внесены дальнейшие улучшения. Он описал это как невероятное путешествие. Сегодня Цзин Цю продолжает совершенствоваться и работать над такими моделями, как Ultralytics YOLO11

YOLOv10: оптимизирован для реальной производительности

Присоединившись к панельной дискуссии удаленно из Китая, Ао Ванг представился как аспирант. Изначально он изучал программную инженерию, но страсть к ИИ заставила его переключиться на компьютерное зрение и глубокое обучение.

Впервые он познакомился со знаменитой моделью YOLO , когда экспериментировал с различными техниками и моделями ИИ. Он был впечатлен ее скоростью и точностью, что вдохновило его на более глубокое погружение в задачи компьютерного зрения, такие как обнаружение объектов. Недавно Ао Ванг внес свой вклад в YOLOv10, последнюю версию модели YOLO . Его исследования были направлены на оптимизацию модели, чтобы она стала быстрее и точнее.

Ключевое различие между генеративным ИИ и ИИ видения

Затем участники дискуссии приступили к обсуждению генеративного ИИ, и Цзин Цю отметил, что генеративный ИИ и Vision AI имеют совершенно разные цели. Генеративный ИИ создает или генерирует такие вещи, как текст, изображения и видео, а Vision AI анализирует то, что уже существует, в основном изображения.

Гленн Джочер подчеркнул, что размер тоже имеет большое значение. Генеративные модели ИИ массивны, часто содержат миллиарды параметров - внутренних настроек, которые помогают модели учиться на данных. Модели компьютерного зрения гораздо меньше. Он сказал: "Самая маленькая модель YOLO , которая у нас есть, примерно в тысячу раз меньше, чем самая маленькая LLM [Large Language Model]. Итак, 3 миллиона параметров против трех миллиардов".

Рис. 3. Панельная дискуссия по генеративному ИИ и ИИ видения на YV24.

Цзин Цю добавил, что процессы обучения и внедрения генеративного ИИ и компьютерного зрения также сильно отличаются. Для работы генеративного ИИ нужны огромные мощные серверы. Такие модели, как YOLO, напротив, созданы для эффективности и могут быть обучены и развернуты на стандартном оборудовании. Это делает модели Ultralytics YOLO более практичными для использования в реальном мире.

Несмотря на то что они разные, эти две области начинают переплетаться. Гленн Джочер рассказал, что генеративный ИИ привносит новые достижения в Vision AI, делая модели умнее и эффективнее. 

Влияние генеративного ИИ на компьютерное зрение

Генеративный ИИ быстро продвигается вперед, и эти прорывы влияют на многие другие области искусственного интеллекта, включая компьютерное зрение. Далее давай пройдемся по некоторым увлекательным выводам участников дискуссии на этот счет.

Аппаратные достижения позволяют внедрять инновации в области искусственного интеллекта

В самом начале дискуссии Гленн Джочер объяснил, что идеи машинного обучения появились уже давно, но компьютеры были недостаточно мощными, чтобы заставить их работать. Идеи ИИ нуждались в более мощном оборудовании, чтобы воплотить их в жизнь.

Появление за последние 20 лет графических процессоров (GPU) с возможностями параллельной обработки данных изменило все. Они сделали обучение моделей ИИ намного быстрее и эффективнее, что позволило глубокому обучению развиваться быстрыми темпами.

Сегодня ИИ-чипы, такие как TPU (Tensor Processing Units) и оптимизированные GPU, потребляют меньше энергии, обрабатывая при этом более крупные и сложные модели. Это сделало ИИ более доступным и полезным в реальных приложениях.

С каждым новым усовершенствованием аппаратного обеспечения генеративный ИИ и приложения компьютерного зрения становятся все мощнее. Благодаря этим достижениям ИИ в реальном времени становится быстрее, эффективнее и готов к использованию во многих отраслях.

Как генеративный ИИ формирует модели обнаружения объектов

На вопрос о том, как генеративный ИИ влияет на компьютерное зрение, Цзин Цю ответил, что трансформаторы - модели, которые помогают ИИ сосредоточиться на самых важных частях изображения, - изменили способ, которым ИИ понимает и обрабатывает изображения. Первым большим шагом стал DETR (Detection Transformer), который использовал этот новый подход для обнаружения объектов. Он повышал точность, но имел проблемы с производительностью, из-за чего в некоторых случаях работал медленнее.

Чтобы решить эту проблему, исследователи создали гибридные модели вроде RT-DETR. Эти модели сочетают в себе конволюционные нейронные сети (CNN, которые представляют собой модели глубокого обучения, автоматически обучающиеся и извлекающие особенности из изображений) и трансформаторы, балансируя между скоростью и точностью. Такой подход позволяет использовать преимущества трансформаторов и при этом ускорить процесс обнаружения объектов.

Интересно, что YOLOv10 использует слои внимания на основе трансформаторов (части модели, которые действуют подобно прожектору, выделяя наиболее важные области изображения и игнорируя менее значимые детали), чтобы повысить свою производительность. 

Ао Ванг также упомянул о том, как генеративный ИИ меняет способы обучения моделей. Такие техники, как моделирование по маске, помогают ИИ эффективнее обучаться на изображениях, снижая потребность в больших наборах данных, помеченных вручную. Это делает обучение компьютерного зрения более быстрым и менее ресурсоемким.

Будущее генеративного ИИ и искусственного зрения 

Еще одна ключевая идея, которую обсудили участники дискуссии, - как генеративный ИИ и ИИ видения могут объединиться для создания более способных моделей. Гленн Джочер объяснил, что, хотя эти два подхода имеют разные сильные стороны, их объединение может открыть новые возможности. 

Например, модели Vision AI, такие как YOLO , часто разбивают изображение на сетку, чтобы идентифицировать объекты. Этот метод, основанный на сетке, может помочь языковым моделям улучшить свою способность как точно определять детали, так и описывать их - проблема, с которой сегодня сталкиваются многие языковые модели. По сути, объединение этих методов может привести к созданию систем, которые смогут точно определять и четко объяснять то, что они видят.

Рис. 4. Будущее генеративного и Vision AI. Изображение автора.

Основные выводы

Генеративный ИИ и компьютерное зрение развиваются вместе. В то время как генеративный ИИ создает изображения и видео, он также улучшает анализ изображений и видео, привнося новые инновационные идеи, которые могут сделать модели ИИ зрения более точными и эффективными. 

В этой содержательной панельной дискуссии YV24 Гленн Джочер, Цзин Цю и Ао Ванг поделились своими мыслями о том, как эти технологии формируют будущее. С улучшением аппаратного обеспечения ИИ генеративный ИИ и Vision AI будут продолжать развиваться, что приведет к еще большим инновациям. Эти две области работают вместе, чтобы создать более умный, быстрый и полезный ИИ для повседневной жизни.

Присоединяйся к нашему сообществу и изучи наш репозиторий на GitHub, чтобы узнать больше о Vision AI. Ознакомься с нашими вариантами лицензирования, чтобы начать работу над своими проектами в области компьютерного зрения. Интересуешься такими инновациями, как ИИ в производстве или компьютерное зрение в самодвижении? Загляни на страницы наших решений, чтобы узнать больше. 

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения