Acompáñanos a conocer más de cerca los nuevos modelos de lenguaje de visión de Google: PaliGemma 2. Estos modelos pueden ayudar a comprender y analizar tanto imágenes como texto.
El 5 de diciembre de 2024, Google presentó PaliGemma 2, la última versión de su vanguardista modelo de visión-lenguaje (VLM). PaliGemma 2 está diseñado para realizar tareas que combinan imágenes y texto, como generar subtítulos, responder a preguntas visuales y detectar objetos en imágenes.
Basándose en el PaliGemma original, que ya era una herramienta sólida para el subtitulado multilingüe y el reconocimiento de objetos, PaliGemma 2 aporta varias mejoras clave. Entre ellas se incluyen modelos de mayor tamaño, compatibilidad con imágenes de mayor resolución y mejor rendimiento en tareas visuales complejas. Estas mejoras lo hacen aún más flexible y eficaz para una amplia gama de usos.
En este artículo examinaremos más de cerca PaliGemma 2, incluyendo su funcionamiento, sus características principales y las aplicaciones en las que brilla. ¡Empecemos ya!
PaliGemma 2 se basa en dos tecnologías clave: el codificador de visión SigLIP y el modelo de lenguaje Gemma 2. El codificador SigLIP procesa los datos visuales, como imágenes o vídeos, y los descompone en características que el modelo puede analizar. Por su parte, Gemma 2 se encarga del texto, lo que permite al modelo comprender y generar lenguaje multilingüe. Juntos, forman un VLM, diseñado para interpretar y conectar a la perfección la información visual y textual.
Lo que hace que PaliGemma 2 sea un gran paso adelante es su escalabilidad y versatilidad. A diferencia de la versión original, PaliGemma 2 viene en tres tamaños: 3.000 millones (3B), 10.000 millones (10B) y 28.000 millones (28B) de parámetros. Estos parámetros son como los ajustes internos del modelo, que le ayudan a aprender y procesar los datos con eficacia. También admite diferentes resoluciones de imagen (por ejemplo, 224 x 224 píxeles para tareas rápidas y 896 x 896 para análisis detallados), lo que lo hace adaptable a diversas aplicaciones.
La integración de las capacidades lingüísticas avanzadas de Gemma 2 con el procesamiento de imágenes de SigLIP hace que PaliGemma 2 sea significativamente más inteligente. Puede manejar tareas como
PaliGemma 2 va más allá del procesamiento de imágenes y texto por separado: los une de forma significativa. Por ejemplo, puede entender las relaciones en una escena, como reconocer que "El gato está sentado en la mesa", o identificar objetos añadiendo contexto, como reconocer un punto de referencia famoso.
A continuación, recorreremos un ejemplo utilizando el gráfico que se muestra en la imagen siguiente para comprender mejor cómo PaliGemma 2 procesa los datos visuales y textuales. Supongamos que subes este gráfico y preguntas al modelo: "¿Qué representa este gráfico?".
El proceso comienza con el codificador de visión SigLIP de PaliGemma 2 para analizar las imágenes y extraer las características clave. Para un gráfico, esto incluye identificar elementos como ejes, puntos de datos y etiquetas. El codificador está entrenado para captar tanto patrones amplios como detalles finos. También utiliza el reconocimiento óptico de caracteres (OCR ) para detectar y procesar cualquier texto incrustado en la imagen. Estas características visuales se convierten en tokens, que son representaciones numéricas que el modelo puede procesar. A continuación, estos tokens se ajustan mediante una capa de proyección lineal, una técnica que garantiza que puedan combinarse a la perfección con los datos textuales.
Al mismo tiempo, el modelo lingüístico Gemma 2 procesa la consulta adjunta para determinar su significado e intención. El texto de la consulta se convierte en tokens, y éstos se combinan con los tokens visuales de SigLIP para crear una representación multimodal, un formato unificado que vincula los datos visuales y textuales.
Utilizando esta representación integrada, PaliGemma 2 genera una respuesta paso a paso mediante descodificación autorregresiva, un método en el que el modelo predice una parte de la respuesta cada vez basándose en el contexto que ya ha procesado.
Ahora que hemos comprendido cómo funciona, exploremos las características clave que hacen de PaliGemma 2 un modelo fiable de visión-lenguaje:
Echar un vistazo a la arquitectura de la primera versión de PaliGemma es una buena forma de ver las mejoras de PaliGemma 2. Uno de los cambios más notables es la sustitución del modelo de lenguaje Gemma original por Gemma 2, que aporta mejoras sustanciales tanto en rendimiento como en eficacia.
Gemma 2, disponible en tamaños de parámetros de 9B y 27B, se ha diseñado para ofrecer una precisión y velocidad líderes en su clase, reduciendo al mismo tiempo los costes de implantación. Lo consigue mediante una arquitectura rediseñada y optimizada para la eficacia de la inferencia en distintas configuraciones de hardware, desde potentes GPU hasta configuraciones más accesibles.
Como resultado, PaliGemma 2 es un modelo muy preciso. La versión 10B de PaliGemma 2 alcanza una puntuación más baja de 20,3 en las oraciones sin detalles (Non-Entailment Sentence, NES), frente a los 34,3 del modelo original, lo que significa menos errores factuales en sus resultados. Estos avances hacen que PaliGemma 2 sea más escalable, preciso y adaptable a una gama más amplia de aplicaciones, desde el subtitulado detallado a la respuesta visual a preguntas.
PaliGemma 2 tiene el potencial de redefinir las industrias combinando a la perfección la comprensión visual y lingüística. Por ejemplo, en lo que respecta a la accesibilidad, puede generar descripciones detalladas de objetos, escenas y relaciones espaciales, proporcionando una ayuda crucial a las personas con discapacidad visual. Esta capacidad ayuda a los usuarios a comprender mejor su entorno, ofreciéndoles una mayor independencia en las tareas cotidianas.
Además de la accesibilidad, PaliGemma 2 está teniendo impacto en varios sectores, entre ellos:
Para probar PaliGemma 2, puedes empezar con la demostración interactiva de Hugging Face. Te permite explorar sus capacidades en tareas como el subtitulado de imágenes y la respuesta a preguntas visuales. Sólo tienes que subir una imagen y hacer preguntas al modelo sobre ella o solicitar una descripción de la escena.
Si quieres profundizar más, aquí tienes cómo ponerte manos a la obra:
Una vez entendido cómo empezar con PaliGemma 2, veamos más de cerca sus principales puntos fuertes e inconvenientes a tener en cuenta cuando utilices estos modelos.
Esto es lo que hace que PaliGemma 2 destaque como modelo de lenguaje de visión:
Mientras tanto, aquí tienes algunas áreas en las que PaliGemma 2 puede tener limitaciones:
PaliGemma 2 es un avance fascinante en el modelado del lenguaje visual, que ofrece una escalabilidad, una flexibilidad de ajuste y una precisión mejoradas. Puede ser una valiosa herramienta para aplicaciones que van desde las soluciones de accesibilidad y el comercio electrónico hasta el diagnóstico sanitario y la educación.
Aunque tiene limitaciones, como los requisitos informáticos y la dependencia de datos de alta calidad, sus puntos fuertes lo convierten en una opción práctica para abordar tareas complejas que integran datos visuales y textuales. PaliGemma 2 puede proporcionar una base sólida para que investigadores y desarrolladores exploren y amplíen el potencial de la IA en aplicaciones multimodales.
Forma parte de la conversación sobre IA visitando nuestro repositorio y comunidad de GitHub. Infórmate sobre los avances de la IA en la agricultura y la sanidad. 🚀
Comienza tu viaje con el futuro del aprendizaje automático