Cheque verde
Enlace copiado en el portapapeles

Florence-2: Microsoft's Último Modelo de Visión-Lenguaje

Conoce a Florence-2, el modelo de lenguaje visual de Microsoft que ofrece una detección de objetos mejorada, segmentación y rendimiento de disparo cero con gran eficacia.

En junio de 2024, Microsoft presentó Florence-2, un modelo de lenguaje visual (VLM) multimodal que está diseñado para manejar una amplia gama de tareas, como la detección de objetos, la segmentación, la subtitulación de imágenes y el grounding. Florence-2 establece un nuevo punto de referencia para el rendimiento sin disparo, lo que significa que puede realizar tareas sin entrenamiento específico previo, y potencia un tamaño de modelo más pequeño que otros modelos de visión-lenguaje del estado de la técnica.

Es algo más que otro modelo: la versatilidad y el rendimiento mejorado de Florence-2 tienen el potencial de influir significativamente en varias industrias al mejorar la precisión y reducir la necesidad de una formación exhaustiva. En este artículo, exploraremos las innovadoras características de Florence-2, compararemos su rendimiento con el de otros VLM y hablaremos de sus posibles aplicaciones.

¿Qué es Florencia-2?

Florence-2 puede manejar una gran variedad de tareas dentro de un único marco unificado. Las impresionantes capacidades del modelo se deben en parte a su enorme conjunto de datos de entrenamiento llamado FLD-5B. FLD-5B incluye 5.400 millones de anotaciones en 126 millones de imágenes. Este completo conjunto de datos se creó específicamente para dotar a Florence-2 de las capacidades necesarias para manejar una amplia gama de tareas de visión con gran precisión y eficacia. 

Aquí tienes una visión más detallada de las tareas que admite Florencia-2:

  • Detección de objetos: Puede identificar y localizar objetos dentro de las imágenes con gran precisión.
  • Segmentación: Esta tarea consiste en dividir una imagen en segmentos significativos para facilitar su análisis e interpretación.
  • Subtítulos de imágenes: Florencia-2 es capaz de generar pies de foto descriptivos para las imágenes que proporcionan contexto y detalles.
  • Fundamentación visual: El modelo puede asociar frases o palabras concretas de un pie de foto con las regiones correspondientes de la imagen.
  • Rendimiento cero: Puede realizar tareas sin formación específica.
Fig. 1. Comprender cómo se entrenó a Florencia-2.

El modelo admite tareas basadas tanto en texto como en regiones. Se añaden tokens de localización especiales al vocabulario del modelo para tareas que impliquen regiones específicas de una imagen. Estos tokens ayudan al modelo a comprender diferentes formas, como rectángulos alrededor de objetos (representación de caja), formas de cuatro lados (representación de caja cuádruple) y formas de muchos lados (representación de polígono). El modelo se entrena utilizando un método llamado pérdida de entropía cruzada, que le ayuda a aprender comparando sus predicciones con las respuestas correctas y ajustando sus parámetros internos en consecuencia.

Creación del conjunto de datos FLD-5B

El conjunto de datos FLD-5B incluye distintos tipos de anotaciones: descripciones de texto, pares de regiones y texto, y combinaciones de texto, frases y regiones. Se creó mediante un proceso de dos pasos que incluía la recogida de datos y la anotación. Las imágenes se obtuvieron de conjuntos de datos populares como ImageNet-22k, Object 365, Open Images, Conceptual Captions y LAION. Las anotaciones del conjunto de datos FLD-5B son en su mayoría sintéticas, lo que significa que se generaron automáticamente y no se etiquetaron manualmente. 

Fig. 2. Creación del conjunto de datos FLD-5B.

Inicialmente, modelos especializados en tareas específicas, como la detección de objetos o la segmentación, crearon estas anotaciones. Después, se utilizó un proceso de filtrado y mejora para garantizar que las anotaciones fueran detalladas y precisas. Tras eliminar cualquier ruido, el conjunto de datos se sometió a un refinamiento iterativo, en el que se utilizaron los resultados de Florence-2 para actualizar y mejorar continuamente las anotaciones. 

Comprender la arquitectura del modelo Florence-2

La arquitectura del modelo Florence-2 sigue un enfoque de aprendizaje secuencia a secuencia. Esto significa que el modelo procesa una secuencia de entrada (como una imagen con un texto) y genera una secuencia de salida (como una descripción o una etiqueta) paso a paso. En el marco secuencia a secuencia, cada tarea se trata como un problema de traducción: el modelo toma una imagen de entrada y una indicación específica de la tarea y genera la salida correspondiente.

Fig. 3. Arquitectura del modelo visión-lenguaje de Florence-2.

El núcleo de la arquitectura del modelo es un transformador codificador-decodificador multimodal, que combina un codificador de imágenes y un codificador-decodificador multimodal. El codificador de imágenes, llamado DaViT (Data-efficient Vision Transformer), procesa las imágenes de entrada convirtiéndolas en tokens visuales incrustados, representaciones compactas de la imagen que capturan información espacial (dónde están las cosas) y semántica (qué son las cosas). A continuación, estos tokens visuales se combinan con incrustaciones de texto (representaciones del texto), lo que permite al modelo fusionar a la perfección datos textuales y visuales.

Comparación de Florence-2 con otros VLM

Florence-2 se distingue de otros modelos de lenguaje visual por su impresionante capacidad de ajuste a cero. A diferencia de modelos como PaliGemma, que dependen de un amplio ajuste fino para adaptarse a diversas tareas, Florence-2 funciona bien nada más sacarlo de la caja. Además, la Florence-2 es capaz de competir con modelos más grandes como la GPT-4V y la Flamingo, que suelen tener muchos más parámetros pero no siempre igualan el rendimiento de la Florence-2. Por ejemplo, Florence-2 consigue mejores resultados de tiro cero que Kosmos-2, a pesar de que Kosmos-2 tiene más del doble de parámetros.

En las pruebas de referencia, Florence-2 ha mostrado un rendimiento notable en tareas como el subtitulado COCO y la comprensión de expresiones de referencia. Superó a modelos como PolyFormer y UNINEXT en tareas de detección y segmentación de objetos en el conjunto de datos COCO. Es una opción muy competitiva para aplicaciones del mundo real en las que tanto el rendimiento como la eficiencia de recursos son cruciales.

Aplicaciones de Florencia-2

La Florencia-2 puede utilizarse en muchos sectores diferentes, como el entretenimiento, la accesibilidad, la educación, etc. Veamos algunos ejemplos para comprenderlo mejor.

Aplicaciones del subtitulado de imágenes

Cuando estás en una plataforma de streaming intentando decidir qué ver, es posible que leas un resumen de una película para ayudarte a elegir. ¿Y si la plataforma también pudiera ofrecer una descripción detallada del cartel de la película? Florence-2 puede hacerlo posible mediante el subtitulado de imágenes, que genera texto descriptivo para las imágenes. Florence-2 puede generar descripciones detalladas de los carteles de las películas, haciendo que las plataformas de streaming sean más inclusivas para los usuarios con discapacidad visual. Analizando los elementos visuales de un cartel, como los personajes, el escenario y el texto, Florence-2 puede crear descripciones detalladas que transmitan el contenido y el estado de ánimo del cartel. La imagen siguiente muestra el nivel de detalle que Florence-2 puede proporcionar en su descripción.

Fig. 4. Ejemplo de pie de foto generado por Florence-2. 

Aquí tienes otros ejemplos en los que el subtitulado de imágenes puede ser útil:

  • Comercio electrónico: El subtitulado de imágenes puede proporcionar descripciones detalladas de las imágenes de los productos, ayudando a los clientes a comprender las características y los detalles de los productos con mayor claridad.
  • Viajes y Turismo: Puede proporcionar descripciones detalladas de lugares de interés y atracciones en guías de viaje y aplicaciones.
  • Educación: El subtitulado de imágenes puede etiquetar y describir imágenes y diagramas educativos, ayudando en la enseñanza y el aprendizaje.
  • Inmobiliaria: Puede proporcionar descripciones detalladas de imágenes de propiedades que destaquen las características y comodidades para los compradores potenciales.

Utilizar la conexión visual a tierra mientras cocinas

Florencia-2 también puede utilizarse para enriquecer las experiencias culinarias. Por ejemplo, un libro de cocina en línea podría utilizar Florencia-2 para fundamentar visualmente y etiquetar partes de la imagen de una receta compleja. En este caso, la base visual ayuda a vincular partes concretas de la imagen con el texto descriptivo correspondiente. Cada ingrediente y cada paso pueden etiquetarse y explicarse con precisión, facilitando a los cocineros caseros el seguimiento de la receta y la comprensión del papel de cada componente en el plato.

Fig. 5. Un ejemplo de conexión visual a tierra utilizando Florencia-2. 

OCR basado en regiones para documentos financieros

El OCR con procesamiento basado en regiones, que se centra en extraer texto de áreas específicas de un documento, puede resultar útil cuando se trata de campos como la contabilidad. Se pueden analizar áreas designadas de documentos financieros para extraer automáticamente información importante, como detalles de transacciones, números de cuenta y fechas de vencimiento. Al reducir la necesidad de introducir datos manualmente, minimiza los errores y acelera los tiempos de procesamiento. Las instituciones financieras pueden utilizarlo para agilizar tareas como el procesamiento de facturas, la conciliación de recibos y la compensación de cheques, lo que agiliza las transacciones y mejora el servicio al cliente. 

Fig. 6. Un ejemplo de extracción de OCR con región utilizando Florencia-2. 

Segmentación por regiones en aplicaciones industriales

La segmentación basada en regiones, que consiste en dividir una imagen en partes significativas para un análisis centrado y una inspección detallada, puede impulsar aplicaciones industriales que mejoren la precisión y la eficacia en diversos procesos. Al centrarse en áreas específicas dentro de una imagen, esta tecnología permite la inspección y el análisis detallados de componentes y productos. En cuanto al control de calidad, puede identificar defectos o incoherencias en los materiales, como grietas o desalineaciones, garantizando que sólo lleguen al mercado productos de la máxima calidad.

Fig. 7. Un ejemplo de segmentación basada en regiones utilizando Florencia-2.

También mejora las líneas de montaje automatizadas, guiando los brazos robóticos hacia piezas específicas y optimizando la colocación y el montaje de los componentes. Del mismo modo, en la gestión de inventarios, ayuda a rastrear y supervisar el estado y la ubicación de las mercancías, lo que conduce a una logística más eficiente y a la reducción del tiempo de inactividad. En general, la segmentación por regiones aumenta la precisión y la productividad, lo que supone un ahorro de costes y una mayor calidad de los productos en los entornos industriales.

Puntos clave

Estamos empezando a ver una tendencia en la que los modelos de IA son cada vez más ligeros, pero siguen manteniendo un alto rendimiento. Florence-2 supone un gran paso adelante en términos de modelos de lenguaje visual. Puede manejar diversas tareas, como la detección de objetos, la segmentación, el subtitulado de imágenes y la puesta a tierra, con un impresionante rendimiento de cero disparos. A pesar de su menor tamaño, Florence-2 es eficiente y multifuncional, lo que lo hace extremadamente útil en términos de aplicaciones en diferentes industrias. Modelos como Florence-2 están aportando más posibilidades, ampliando el potencial de las innovaciones en IA.

Explora más sobre la IA visitando nuestro repositorio de GitHub y uniéndote a nuestra comunidad. Consulta nuestras páginas de soluciones para leer sobre las aplicaciones de la IA en la fabricación y la agricultura. 🚀

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático