Познакомься с Florence-2, моделью визуального языка Microsoft, которая обеспечивает улучшенное обнаружение объектов, сегментацию и работу с нулевыми снимками с большой эффективностью.
В июне 2024 года компания Microsoft представила Florence-2- мультимодальную модель визуального языка (VLM), которая предназначена для решения широкого спектра задач, включая обнаружение объектов, сегментацию, создание подписей к изображениям и заземление. Florence-2 устанавливает новую планку производительности "нулевого выстрела", то есть она может выполнять задачи без предварительного специального обучения, и имеет меньший размер модели по сравнению с другими современными моделями языка зрения.
Это больше, чем просто другая модель, универсальность и улучшенные характеристики Florence-2 способны оказать значительное влияние на различные отрасли промышленности, повысив точность и уменьшив необходимость в обширном обучении. В этой статье мы рассмотрим инновационные особенности Florence-2, сравним его производительность с другими VLM и обсудим возможные сферы применения.
Florence-2 может решать самые разные задачи в рамках единой унифицированной структуры. Впечатляющие возможности модели отчасти обусловлены ее массивным обучающим набором данных под названием FLD-5B. FLD-5B включает в себя 5,4 миллиарда аннотаций на 126 миллионах изображений. Этот всеобъемлющий набор данных был создан специально для того, чтобы Florence-2 обладал возможностями, необходимыми для решения широкого спектра задач по зрению с высокой точностью и эффективностью.
Вот более подробный обзор задач, которые поддерживает Florence-2:
Модель поддерживает как текстовые, так и региональные задачи. Для задач, связанных с определенными областями изображения, в словарный запас модели добавляются специальные лексемы местоположения. Эти лексемы помогают модели понимать различные формы, такие как прямоугольники вокруг объектов (представление коробки), четырехугольные формы (представление квадрокоптера) и многоугольные формы (представление многоугольника). Модель обучается с помощью метода под названием cross-entropy loss, который помогает ей обучаться, сравнивая свои предсказания с правильными ответами и соответствующим образом корректируя свои внутренние параметры.
Набор данных FLD-5B включает в себя различные типы аннотаций: текстовые описания, пары регионов и текста, а также комбинации текста, фраз и регионов. Он был создан в ходе двухэтапного процесса, включающего сбор данных и аннотирование. Изображения были взяты из таких популярных наборов данных, как ImageNet-22k, Object 365, Open Images, Conceptual Captions и LAION. Аннотации в наборе данных FLD-5B в основном синтетические, то есть они были сгенерированы автоматически, а не проставлены вручную.
Изначально эти аннотации создавались специализированными моделями, умеющими решать конкретные задачи, такие как обнаружение объектов или сегментация. Затем использовался процесс фильтрации и улучшения, чтобы убедиться, что аннотации были подробными и точными. После удаления шумов набор данных проходил итеративную доработку, в ходе которой результаты работы Florence-2 использовались для постоянного обновления и улучшения аннотаций.
Архитектура модели Florence-2 основана на подходе к обучению по принципу "последовательность-последовательность". Это значит, что модель обрабатывает входную последовательность (например, изображение с текстовой подсказкой) и пошагово генерирует выходную последовательность (например, описание или метку). В рамках подхода "последовательность-последовательность" каждая задача рассматривается как проблема перевода: модель принимает на вход изображение и подсказку, характерную для конкретной задачи, и генерирует соответствующий выход.
В основе архитектуры модели лежит мультимодальный кодер-декодер-трансформер, который объединяет кодер изображений и мультимодальный кодер-декодер. Кодер изображений, называемый DaViT (Data-efficient Vision Transformer), обрабатывает входные изображения, преобразуя их в визуальные вкрапления лексем - компактные представления изображения, которые отражают как пространственную (где находятся предметы), так и семантическую (что это за предметы) информацию. Затем эти визуальные лексемы объединяются с текстовыми вкраплениями (представлениями текста), что позволяет модели беспрепятственно объединять текстовые и визуальные данные.
Florence-2 выделяется на фоне других моделей визуальных языков благодаря своим впечатляющим возможностям работы с нуля. В отличие от таких моделей, как PaliGemma, которым требуется длительная тонкая настройка для адаптации к различным задачам, Florence-2 отлично работает прямо из коробки. Кроме того, Florence-2 способен конкурировать с более крупными моделями вроде GPT-4V и Flamingo, которые зачастую имеют гораздо больше параметров, но не всегда соответствуют производительности Florence-2. Например, Florence-2 достигает лучших результатов по обнулению, чем Kosmos-2, несмотря на то, что у Kosmos-2 более чем в два раза больше параметров.
В эталонных тестах Florence-2 показала выдающуюся производительность в таких задачах, как создание титров COCO и понимание референтных выражений. Он превзошел такие модели, как PolyFormer и UNINEXT, в задачах обнаружения и сегментации объектов на наборе данных COCO. Это очень конкурентоспособный выбор для реальных приложений, где важны как производительность, так и эффективность использования ресурсов.
Флоренция-2 может использоваться в самых разных отраслях, таких как развлечения, доступность, образование и т. д. Давай пройдемся по нескольким примерам, чтобы лучше понять ситуацию.
Когда ты находишься на стриминговой платформе и пытаешься решить, что посмотреть, ты можешь прочитать краткое описание фильма, чтобы помочь тебе с выбором. А что, если бы платформа могла также предоставить подробное описание постера фильма? Florence-2 может сделать это возможным благодаря функции создания подписей к изображениям, которая генерирует описательный текст для изображений. Florence-2 может генерировать подробные описания киноафиш, делая стриминговые платформы более инклюзивными для пользователей с ослабленным зрением. Анализируя визуальные элементы постера, такие как персонажи, декорации и текст, Florence-2 может создавать подробные описания, передающие содержание и настроение постера. На изображении ниже показан уровень детализации, который Florence-2 может обеспечить в описании.
Вот еще несколько примеров того, как надписи на изображениях могут быть полезны:
Florence-2 также можно использовать для обогащения кулинарного опыта. Например, в онлайновой кулинарной книге Florence-2 может использоваться для визуального обоснования и маркировки частей изображения сложного рецепта. Визуальное обоснование помогает здесь, связывая определенные части изображения с соответствующим описательным текстом. Каждый ингредиент и шаг может быть точно обозначен и объяснен, что облегчает домашним поварам следование рецепту и понимание роли каждого компонента в блюде.
OCR с обработкой по регионам, которая направлена на извлечение текста из определенных областей документа, может пригодиться в таких областях, как бухгалтерия. Выделенные области финансовых документов могут быть проанализированы для автоматического извлечения важной информации, такой как детали транзакций, номера счетов и даты погашения. Уменьшая необходимость ручного ввода данных, он сводит к минимуму количество ошибок и ускоряет время обработки. Финансовые организации могут использовать его для оптимизации таких задач, как обработка счетов, сверка квитанций и очистка чеков, что приведет к ускорению операций и улучшению обслуживания клиентов.
Сегментация по регионам, которая подразумевает разделение изображения на значимые части для целенаправленного анализа и детального осмотра, может способствовать развитию промышленных приложений, повышающих точность и эффективность различных процессов. Фокусируясь на определенных областях изображения, эта технология позволяет проводить детальный осмотр и анализ компонентов и продуктов. Что касается контроля качества, то она может выявлять дефекты или несоответствия в материалах, например трещины или смещения, гарантируя, что на рынок попадут только высококачественные продукты.
Она также улучшает работу автоматизированных сборочных линий, направляя роботизированные руки к определенным деталям и оптимизируя размещение и сборку компонентов. Аналогично, в управлении запасами она помогает отслеживать состояние и местоположение товаров, что приводит к более эффективной логистике и сокращению простоев. В целом сегментация по регионам повышает точность и производительность, что приводит к экономии средств и повышению качества продукции в промышленных условиях.
Мы начинаем наблюдать тенденцию, когда модели ИИ становятся легче, сохраняя при этом высокую производительность. Florence-2 знаменует собой большой шаг вперед в плане моделей визуального языка. Она может справляться с различными задачами, такими как обнаружение объектов, сегментация, создание подписей к изображениям и заземление, с впечатляющей производительностью при нулевых затратах. Несмотря на небольшие размеры, Florence-2 эффективен и многофункционален, что делает его чрезвычайно полезным в плане применения в различных отраслях. Такие модели, как Florence-2, открывают новые возможности, расширяя потенциал инноваций в области ИИ.
Узнай больше об искусственном интеллекте, посетив наш репозиторий на GitHub и присоединившись к нашему сообществу. Загляни на страницы наших решений, чтобы прочитать о применении ИИ в производстве и сельском хозяйстве. 🚀
Начни свое путешествие с будущим машинного обучения