Флоренция-2: Zero-Shot Vision AI от Microsoft

В июне 2024 года Microsoft представила Florence-2, мультимодальную модель визуального языка (VLM), предназначенную для решения широкого спектра задач, включая обнаружение объектов, сегментацию, создание подписей к изображениям и заземление. Florence-2 устанавливает новую планку производительности, то есть может выполнять задачи без предварительного специального обучения, и имеет меньший размер модели по сравнению с другими современными моделями языка зрения.

Florence-2 — это больше, чем просто еще одна модель. Универсальность и улучшенная производительность Florence-2 потенциально могут оказать значительное влияние на различные отрасли, повысив точность и снизив потребность в длительном обучении. В этой статье мы рассмотрим инновационные функции Florence-2, сравним ее производительность с другими VLM и обсудим ее потенциальные применения.

Что такое Florence-2?

Florence-2 может обрабатывать различные задачи в рамках единой унифицированной структуры. Впечатляющие возможности модели частично обусловлены ее огромным набором данных для обучения под названием FLD-5B. FLD-5B включает 5,4 миллиарда аннотаций по 126 миллионам изображений. Этот всеобъемлющий набор данных был создан специально для того, чтобы предоставить Florence-2 возможности, необходимые для выполнения широкого спектра задач компьютерного зрения с высокой точностью и эффективностью.

Вот более подробный обзор задач, которые поддерживает Florence-2:

Детекция объектов: Она может идентифицировать и определять местоположение объектов на изображениях с высокой точностью.
‍
Сегментация: Эта задача включает в себя разделение изображения на значимые сегменты для облегчения анализа и интерпретации.
‍
Создание описаний изображений: Florence-2 способен генерировать описательные подписи к изображениям, которые предоставляют контекст и детали.
‍
Визуальное обоснование: Модель может связывать определенные фразы или слова в подписи с соответствующими областями на изображении.
‍
Производительность Zero-shot: Она может выполнять задачи без специального обучения.

__wf_reserved_inherit — Рис. 1. Понимание того, как была обучена Florence-2.

‍

Модель поддерживает задачи, основанные как на тексте, так и на регионах. Специальные токены местоположения добавляются в словарь модели для задач, связанных с определенными областями изображения. Эти токены помогают модели понимать различные формы, такие как прямоугольники вокруг объектов (представление ограничивающего прямоугольника), четырехсторонние фигуры (представление четырехугольника) и многосторонние фигуры (представление полигона). Модель обучается с использованием метода, называемого перекрестной энтропией, который помогает ей учиться, сравнивая свои прогнозы с правильными ответами и соответствующим образом корректируя свои внутренние параметры.

Создание набора данных FLD-5B

Набор данных FLD-5B включает в себя различные типы аннотаций: текстовые описания, пары регионов и текста, а также комбинации текста, фраз и регионов. Он был создан в результате двухэтапного процесса сбора данных и аннотирования. Изображения были взяты из таких популярных наборов данных, как ImageNet, Object 365, Open Images, Conceptual Captions и LAION. Аннотации в наборе данных FLD-5B в основном синтетические, то есть они были сгенерированы автоматически, а не помечены вручную.

‍

Первоначально эти аннотации создавались специализированными моделями, предназначенными для конкретных задач, таких как обнаружение объектов или сегментация. Затем использовался процесс фильтрации и улучшения, чтобы убедиться, что аннотации были подробными и точными. После удаления любого шума набор данных прошел итеративную доработку, где выходные данные Florence-2 использовались для непрерывного обновления и улучшения аннотаций.

Понимание архитектуры модели Florence-2

Архитектура модели Florence-2 следует подходу обучения sequence-to-sequence. Это означает, что модель обрабатывает входную последовательность (например, изображение с текстовым запросом) и генерирует выходную последовательность (например, описание или метку) шаг за шагом. В структуре sequence-to-sequence каждая задача рассматривается как проблема перевода: модель принимает входное изображение и специфичный для задачи запрос и генерирует соответствующий вывод.

‍

В основе архитектуры модели лежит многомодальный кодировщик-декодер transformer, который объединяет кодировщик изображений и многомодальный кодировщик-декодер. Кодировщик изображений, называемый DaViT (Data-efficient Vision Transformer), обрабатывает входные изображения, преобразуя их в визуальные токены-вложения — компактные представления изображения, которые фиксируют как пространственную (где находятся объекты), так и семантическую (что это за объекты) информацию. Затем эти визуальные токены объединяются с текстовыми вложениями (представлениями текста), что позволяет модели беспрепятственно объединять текстовые и визуальные данные.

Сравнение Florence-2 с другими VLM

Florence-2 отличается от других визуальных языковых моделей благодаря своим впечатляющим возможностям zero-shot. В отличие от таких моделей, как PaliGemma, которые полагаются на обширную тонкую настройку для адаптации к различным задачам, Florence-2 хорошо работает прямо из коробки. Кроме того, Florence-2 способна конкурировать с более крупными моделями, такими как GPT-4V и Flamingo, которые часто имеют гораздо больше параметров, но не всегда соответствуют производительности Florence-2. Например, Florence-2 достигает лучших результатов zero-shot, чем Kosmos-2, несмотря на то, что Kosmos-2 имеет более чем в два раза больше параметров.

В эталонных тестах Florence-2 продемонстрировала выдающуюся производительность в таких задачах, как создание титров COCO и понимание референсных выражений. Она превзошла такие модели, как PolyFormer и UNINEXT, в задачах обнаружения и сегментации объектов на наборе данныхCOCO . Это очень конкурентоспособный выбор для реальных приложений, где важны как производительность, так и эффективность использования ресурсов.

Применение Florence-2

Florence-2 можно использовать во многих различных отраслях, таких как развлечения, специальные возможности, образование и т. д. Давайте рассмотрим несколько примеров, чтобы лучше понять.

Применение создания подписей к изображениям

Когда вы находитесь на стриминговой платформе и пытаетесь решить, что посмотреть, вы можете прочитать краткое содержание фильма, чтобы помочь вам сделать выбор. Что, если бы платформа могла также предоставить подробное описание постера фильма? Florence-2 может сделать это возможным с помощью создания подписей к изображениям, которое генерирует описательный текст для изображений. Florence-2 может генерировать подробные описания постеров фильмов, делая стриминговые платформы более доступными для пользователей с нарушениями зрения. Анализируя визуальные элементы постера, такие как персонажи, пейзажи и текст, Florence-2 может создавать подробные описания, передающие содержание и настроение постера. На изображении ниже показан уровень детализации, который Florence-2 может предоставить в своем описании.

‍

Вот еще несколько примеров того, где может быть полезно создание подписей к изображениям:

Электронная коммерция: Описание изображений может предоставить подробные описания изображений продуктов, помогая клиентам более четко понимать особенности и детали продукта.
‍
Туризм: Может предоставлять подробные описания достопримечательностей в туристических путеводителях и приложениях.
‍
Образование: Описание изображений может маркировать и описывать образовательные изображения и диаграммы, помогая в преподавании и обучении.
‍
Недвижимость: Он может предоставлять подробные описания изображений недвижимости, которые выделяют особенности и удобства для потенциальных покупателей.

Использование визуального заземления во время приготовления пищи

Florence-2 также можно использовать для обогащения кулинарного опыта. Например, онлайн-книга рецептов может использовать Florence-2 для визуальной привязки и маркировки частей сложного изображения рецепта. Визуальная привязка помогает здесь, связывая определенные части изображения с соответствующим описательным текстом. Каждый ингредиент и шаг можно точно пометить и объяснить, что облегчает домашним поварам следование рецепту и понимание роли каждого компонента в блюде.

‍

Региональное оптическое распознавание символов для финансовых документов

OCR с обработкой на основе регионов, которая фокусируется на извлечении текста из определенных областей документа, может пригодиться в таких областях, как бухгалтерский учет. Определенные области финансовых документов можно анализировать для автоматического извлечения важной информации, такой как детали транзакций, номера счетов и сроки оплаты. Уменьшая потребность в ручном вводе данных, он минимизирует ошибки и ускоряет время обработки. Финансовые учреждения могут использовать его для оптимизации таких задач, как обработка счетов, сверка квитанций и клиринг чеков, что приводит к более быстрым транзакциям и улучшению обслуживания клиентов.

‍

Региональная сегментация в промышленных приложениях

Региональная сегментация, которая включает в себя разделение изображения на значимые части для целенаправленного анализа и детального осмотра, может способствовать развитию промышленных приложений, которые повышают точность и эффективность различных процессов. Сосредоточившись на определенных областях изображения, эта технология позволяет проводить детальный осмотр и анализ компонентов и продуктов. Что касается контроля качества, она может выявлять дефекты или несоответствия в материалах, такие как трещины или смещения, гарантируя, что на рынок попадут только продукты высшего качества.

‍

Она также улучшает работу автоматизированных сборочных линий, направляя роботизированные руки к определенным деталям и оптимизируя размещение и сборку компонентов. Аналогичным образом, при управлении запасами она помогает track состояние и местонахождение товаров, что приводит к повышению эффективности логистики и сокращению времени простоя. В целом сегментация по регионам повышает точность и производительность, что приводит к экономии средств и повышению качества продукции в промышленности.

Основные выводы

Мы начинаем наблюдать тенденцию, когда модели ИИ становятся легче, сохраняя при этом высокую производительность. Florence-2 знаменует собой важный шаг вперед в области моделей визуального языка. Она может справляться с различными задачами, такими как обнаружение объектов, сегментация, создание подписей к изображениям и граундинг, с впечатляющей производительностью zero-shot. Несмотря на свой меньший размер, Florence-2 эффективна и многофункциональна, что делает ее чрезвычайно полезной для применения в различных отраслях. Модели, подобные Florence-2, открывают больше возможностей, расширяя потенциал для инноваций в области ИИ.

Узнайте больше об ИИ, посетив наш репозиторий GitHub и присоединившись к нашему сообществу. Посетите страницы наших решений, чтобы узнать о применении ИИ в производстве и сельском хозяйстве. 🚀

Флоренция-2: новейшая модель языка видения от Microsoft

Что такое Florence-2?

Создание набора данных FLD-5B

Понимание архитектуры модели Florence-2

Сравнение Florence-2 с другими VLM

Применение Florence-2

Применение создания подписей к изображениям

Использование визуального заземления во время приготовления пищи

Региональное оптическое распознавание символов для финансовых документов

Региональная сегментация в промышленных приложениях

Основные выводы

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Инструменты Vision AI для диагностики в здравоохранении

От данных к решениям: использование искусственного интеллекта для разработки корпоративной стратегии

Давайте строить будущее
ИИ вместе!

Флоренция-2: новейшая модель языка видения от Microsoft

Что такое Florence-2?

Создание набора данных FLD-5B

Понимание архитектуры модели Florence-2

Сравнение Florence-2 с другими VLM

Применение Florence-2

Применение создания подписей к изображениям

Использование визуального заземления во время приготовления пищи

Региональное оптическое распознавание символов для финансовых документов

Региональная сегментация в промышленных приложениях

Основные выводы

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Инструменты Vision AI для диагностики в здравоохранении

От данных к решениям: использование искусственного интеллекта для разработки корпоративной стратегии

Давайте строить будущее ИИ вместе!

Давайте строить будущее
ИИ вместе!