Зелёная проверка
Ссылка копируется в буфер обмена

Флоренция-2: Microsoft'Новейшая модель языка зрения'.

Познакомься с Florence-2, моделью визуального языка Microsoft, которая обеспечивает улучшенное обнаружение объектов, сегментацию и работу с нулевыми снимками с большой эффективностью.

В июне 2024 года компания Microsoft представила Florence-2- мультимодальную модель визуального языка (VLM), которая предназначена для решения широкого спектра задач, включая обнаружение объектов, сегментацию, создание подписей к изображениям и заземление. Florence-2 устанавливает новую планку производительности "нулевого выстрела", то есть она может выполнять задачи без предварительного специального обучения, и имеет меньший размер модели по сравнению с другими современными моделями языка зрения.

Это больше, чем просто другая модель, универсальность и улучшенные характеристики Florence-2 способны оказать значительное влияние на различные отрасли промышленности, повысив точность и уменьшив необходимость в обширном обучении. В этой статье мы рассмотрим инновационные особенности Florence-2, сравним его производительность с другими VLM и обсудим возможные сферы применения.

Что такое "Флоренция-2"?

Florence-2 может решать самые разные задачи в рамках единой унифицированной структуры. Впечатляющие возможности модели отчасти обусловлены ее массивным обучающим набором данных под названием FLD-5B. FLD-5B включает в себя 5,4 миллиарда аннотаций на 126 миллионах изображений. Этот всеобъемлющий набор данных был создан специально для того, чтобы Florence-2 обладал возможностями, необходимыми для решения широкого спектра задач по зрению с высокой точностью и эффективностью. 

Вот более подробный обзор задач, которые поддерживает Florence-2:

  • Обнаружение объекта: Он может определять и находить объекты на изображениях с высокой точностью.
  • Сегментация: Эта задача заключается в разделении изображения на осмысленные сегменты для более удобного анализа и интерпретации.
  • Создание подписей к изображениям: Florence-2 способен генерировать описательные подписи к изображениям, которые предоставляют контекст и детали.
  • Визуальное обоснование: Модель может ассоциировать определенные фразы или слова в подписи с соответствующими областями на изображении.
  • Нулевая производительность: Он может выполнять задания без специальной подготовки.
Рис. 1. Понимание того, как тренировалась Флоренция-2.

Модель поддерживает как текстовые, так и региональные задачи. Для задач, связанных с определенными областями изображения, в словарный запас модели добавляются специальные лексемы местоположения. Эти лексемы помогают модели понимать различные формы, такие как прямоугольники вокруг объектов (представление коробки), четырехугольные формы (представление квадрокоптера) и многоугольные формы (представление многоугольника). Модель обучается с помощью метода под названием cross-entropy loss, который помогает ей обучаться, сравнивая свои предсказания с правильными ответами и соответствующим образом корректируя свои внутренние параметры.

Создание набора данных FLD-5B

Набор данных FLD-5B включает в себя различные типы аннотаций: текстовые описания, пары регионов и текста, а также комбинации текста, фраз и регионов. Он был создан в ходе двухэтапного процесса, включающего сбор данных и аннотирование. Изображения были взяты из таких популярных наборов данных, как ImageNet-22k, Object 365, Open Images, Conceptual Captions и LAION. Аннотации в наборе данных FLD-5B в основном синтетические, то есть они были сгенерированы автоматически, а не проставлены вручную. 

Рис. 2. Создание набора данных FLD-5B.

Изначально эти аннотации создавались специализированными моделями, умеющими решать конкретные задачи, такие как обнаружение объектов или сегментация. Затем использовался процесс фильтрации и улучшения, чтобы убедиться, что аннотации были подробными и точными. После удаления шумов набор данных проходил итеративную доработку, в ходе которой результаты работы Florence-2 использовались для постоянного обновления и улучшения аннотаций. 

Понимание архитектуры модели Florence-2

Архитектура модели Florence-2 основана на подходе к обучению по принципу "последовательность-последовательность". Это значит, что модель обрабатывает входную последовательность (например, изображение с текстовой подсказкой) и пошагово генерирует выходную последовательность (например, описание или метку). В рамках подхода "последовательность-последовательность" каждая задача рассматривается как проблема перевода: модель принимает на вход изображение и подсказку, характерную для конкретной задачи, и генерирует соответствующий выход.

Рис. 3. Архитектура модели языка зрения Florence-2.

В основе архитектуры модели лежит мультимодальный кодер-декодер-трансформер, который объединяет кодер изображений и мультимодальный кодер-декодер. Кодер изображений, называемый DaViT (Data-efficient Vision Transformer), обрабатывает входные изображения, преобразуя их в визуальные вкрапления лексем - компактные представления изображения, которые отражают как пространственную (где находятся предметы), так и семантическую (что это за предметы) информацию. Затем эти визуальные лексемы объединяются с текстовыми вкраплениями (представлениями текста), что позволяет модели беспрепятственно объединять текстовые и визуальные данные.

Сравнение Florence-2 с другими VLM

Florence-2 выделяется на фоне других моделей визуальных языков благодаря своим впечатляющим возможностям работы с нуля. В отличие от таких моделей, как PaliGemma, которым требуется длительная тонкая настройка для адаптации к различным задачам, Florence-2 отлично работает прямо из коробки. Кроме того, Florence-2 способен конкурировать с более крупными моделями вроде GPT-4V и Flamingo, которые зачастую имеют гораздо больше параметров, но не всегда соответствуют производительности Florence-2. Например, Florence-2 достигает лучших результатов по обнулению, чем Kosmos-2, несмотря на то, что у Kosmos-2 более чем в два раза больше параметров.

В эталонных тестах Florence-2 показала выдающуюся производительность в таких задачах, как создание титров COCO и понимание референтных выражений. Он превзошел такие модели, как PolyFormer и UNINEXT, в задачах обнаружения и сегментации объектов на наборе данных COCO. Это очень конкурентоспособный выбор для реальных приложений, где важны как производительность, так и эффективность использования ресурсов.

Применение Флоренции-2

Флоренция-2 может использоваться в самых разных отраслях, таких как развлечения, доступность, образование и т. д. Давай пройдемся по нескольким примерам, чтобы лучше понять ситуацию.

Приложения для создания надписей к изображениям

Когда ты находишься на стриминговой платформе и пытаешься решить, что посмотреть, ты можешь прочитать краткое описание фильма, чтобы помочь тебе с выбором. А что, если бы платформа могла также предоставить подробное описание постера фильма? Florence-2 может сделать это возможным благодаря функции создания подписей к изображениям, которая генерирует описательный текст для изображений. Florence-2 может генерировать подробные описания киноафиш, делая стриминговые платформы более инклюзивными для пользователей с ослабленным зрением. Анализируя визуальные элементы постера, такие как персонажи, декорации и текст, Florence-2 может создавать подробные описания, передающие содержание и настроение постера. На изображении ниже показан уровень детализации, который Florence-2 может обеспечить в описании.

Рис. 4. Пример подписи к изображению, сгенерированной Florence-2. 

Вот еще несколько примеров того, как надписи на изображениях могут быть полезны:

  • Электронная коммерция: Подписи к изображениям могут содержать подробные описания изображений товаров, помогая покупателям лучше понять их особенности и детали.
  • Путешествия и туризм: Он может давать подробные описания достопримечательностей в путеводителях и приложениях.
  • Образование: Надписи на изображениях могут обозначать и описывать учебные картинки и диаграммы, помогая в преподавании и обучении.
  • Недвижимость: Он может предоставить подробные описания изображений недвижимости, которые подчеркивают особенности и удобства для потенциальных покупателей.

Использование визуального заземления во время приготовления пищи

Florence-2 также можно использовать для обогащения кулинарного опыта. Например, в онлайновой кулинарной книге Florence-2 может использоваться для визуального обоснования и маркировки частей изображения сложного рецепта. Визуальное обоснование помогает здесь, связывая определенные части изображения с соответствующим описательным текстом. Каждый ингредиент и шаг может быть точно обозначен и объяснен, что облегчает домашним поварам следование рецепту и понимание роли каждого компонента в блюде.

Рис. 5. Пример визуального заземления с помощью Florence-2. 

Региональный OCR для финансовых документов

OCR с обработкой по регионам, которая направлена на извлечение текста из определенных областей документа, может пригодиться в таких областях, как бухгалтерия. Выделенные области финансовых документов могут быть проанализированы для автоматического извлечения важной информации, такой как детали транзакций, номера счетов и даты погашения. Уменьшая необходимость ручного ввода данных, он сводит к минимуму количество ошибок и ускоряет время обработки. Финансовые организации могут использовать его для оптимизации таких задач, как обработка счетов, сверка квитанций и очистка чеков, что приведет к ускорению операций и улучшению обслуживания клиентов. 

Рис. 6. Пример извлечения OCR с регионом с помощью Florence-2. 

Сегментация по регионам в промышленных приложениях

Сегментация по регионам, которая подразумевает разделение изображения на значимые части для целенаправленного анализа и детального осмотра, может способствовать развитию промышленных приложений, повышающих точность и эффективность различных процессов. Фокусируясь на определенных областях изображения, эта технология позволяет проводить детальный осмотр и анализ компонентов и продуктов. Что касается контроля качества, то она может выявлять дефекты или несоответствия в материалах, например трещины или смещения, гарантируя, что на рынок попадут только высококачественные продукты.

Рис. 7. Пример сегментации на основе регионов с помощью Florence-2.

Она также улучшает работу автоматизированных сборочных линий, направляя роботизированные руки к определенным деталям и оптимизируя размещение и сборку компонентов. Аналогично, в управлении запасами она помогает отслеживать состояние и местоположение товаров, что приводит к более эффективной логистике и сокращению простоев. В целом сегментация по регионам повышает точность и производительность, что приводит к экономии средств и повышению качества продукции в промышленных условиях.

Основные выводы

Мы начинаем наблюдать тенденцию, когда модели ИИ становятся легче, сохраняя при этом высокую производительность. Florence-2 знаменует собой большой шаг вперед в плане моделей визуального языка. Она может справляться с различными задачами, такими как обнаружение объектов, сегментация, создание подписей к изображениям и заземление, с впечатляющей производительностью при нулевых затратах. Несмотря на небольшие размеры, Florence-2 эффективен и многофункционален, что делает его чрезвычайно полезным в плане применения в различных отраслях. Такие модели, как Florence-2, открывают новые возможности, расширяя потенциал инноваций в области ИИ.

Узнай больше об искусственном интеллекте, посетив наш репозиторий на GitHub и присоединившись к нашему сообществу. Загляни на страницы наших решений, чтобы прочитать о применении ИИ в производстве и сельском хозяйстве. 🚀

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения