Google'PaliGemma 2: Perspectivas de los modelos VLM avanzados

Acompáñanos a conocer más de cerca los nuevos modelos de lenguaje de visión de Google: PaliGemma 2. Estos modelos pueden ayudar a comprender y analizar tanto imágenes como texto.

Escrito por

Abirami Vina

min leer

6 de diciembre de 2024

3 de abril de 2025

De Gemma 2 a PaliGemma 2

Cómo funcionan los modelos PaliGemma 2 VLM de Google

Capacidades clave de PaliGemma 2

Comparando PaliGemma 2 y PaliGemma: ¿Qué ha mejorado?

Aplicaciones de PaliGemma 2: Usos reales de los modelos VLM

Pruébalo tú mismo: PaliGemma 2

Pros y contras del PaliGemma 2 de Google

Puntos clave

El 5 de diciembre de 2024, Google presentó PaliGemma 2, la última versión de su vanguardista modelo de visión-lenguaje (VLM). PaliGemma 2 está diseñado para realizar tareas que combinan imágenes y texto, como generar subtítulos, responder a preguntas visuales y detectar objetos en imágenes.

Basándose en el PaliGemma original, que ya era una herramienta sólida para el subtitulado multilingüe y el reconocimiento de objetos, PaliGemma 2 aporta varias mejoras clave. Entre ellas se incluyen modelos de mayor tamaño, compatibilidad con imágenes de mayor resolución y mejor rendimiento en tareas visuales complejas. Estas mejoras lo hacen aún más flexible y eficaz para una amplia gama de usos.

En este artículo examinaremos más de cerca PaliGemma 2, incluyendo su funcionamiento, sus características principales y las aplicaciones en las que brilla. ¡Empecemos ya!

De Gemma 2 a PaliGemma 2

PaliGemma 2 se basa en dos tecnologías clave: el codificador de visión SigLIP y el modelo de lenguaje Gemma 2. El codificador SigLIP procesa los datos visuales, como imágenes o vídeos, y los descompone en características que el modelo puede analizar. Por su parte, Gemma 2 se encarga del texto, lo que permite al modelo comprender y generar lenguaje multilingüe. Juntos, forman un VLM, diseñado para interpretar y conectar a la perfección la información visual y textual.

Lo que hace que PaliGemma 2 sea un gran paso adelante es su escalabilidad y versatilidad. A diferencia de la versión original, PaliGemma 2 viene en tres tamaños: 3.000 millones (3B), 10.000 millones (10B) y 28.000 millones (28B) de parámetros. Estos parámetros son como los ajustes internos del modelo, que le ayudan a aprender y procesar los datos con eficacia. También admite diferentes resoluciones de imagen (por ejemplo, 224 x 224 píxeles para tareas rápidas y 896 x 896 para análisis detallados), lo que lo hace adaptable a diversas aplicaciones.

‍

La integración de las capacidades lingüísticas avanzadas de Gemma 2 con el procesamiento de imágenes de SigLIP hace que PaliGemma 2 sea significativamente más inteligente. Puede manejar tareas como

Subtitular imágenes o vídeos: El modelo puede generar descripciones textuales detalladas de los elementos visuales, lo que lo hace útil para crear subtítulos automáticamente.
‍
Respuesta a preguntas visuales: PaliGemma 2 puede responder a preguntas basadas en imágenes, como identificar objetos, personas o acciones en una escena.
‍
Reconocimiento de objetos: Identifica y etiqueta objetos dentro de una imagen, como distinguir entre un gato, una mesa o un coche en una foto.

PaliGemma 2 va más allá del procesamiento de imágenes y texto por separado: los une de forma significativa. Por ejemplo, puede entender las relaciones en una escena, como reconocer que "El gato está sentado en la mesa", o identificar objetos añadiendo contexto, como reconocer un punto de referencia famoso.

Cómo funcionan los modelos PaliGemma 2 VLM de Google

A continuación, recorreremos un ejemplo utilizando el gráfico que se muestra en la imagen siguiente para comprender mejor cómo procesa PaliGemma 2 los datos visuales y textuales. Supongamos que cargas este gráfico y preguntas al modelo: "¿Qué representa este gráfico?

Fig. 2. Un ejemplo de las capacidades de PaliGemma 2.
‍

El proceso comienza con el codificador de visión SigLIP de PaliGemma 2 para analizar las imágenes y extraer las características clave. Para un gráfico, esto incluye identificar elementos como ejes, puntos de datos y etiquetas. El codificador está entrenado para captar tanto patrones amplios como detalles finos. También utiliza el reconocimiento óptico de caracteres (OCR ) para detectar y procesar cualquier texto incrustado en la imagen. Estas características visuales se convierten en tokens, que son representaciones numéricas que el modelo puede procesar. A continuación, estos tokens se ajustan mediante una capa de proyección lineal, una técnica que garantiza que puedan combinarse a la perfección con los datos textuales.

Al mismo tiempo, el modelo lingüístico Gemma 2 procesa la consulta adjunta para determinar su significado e intención. El texto de la consulta se convierte en tokens, y éstos se combinan con los tokens visuales de SigLIP para crear una representación multimodal, un formato unificado que vincula los datos visuales y textuales.

Utilizando esta representación integrada, PaliGemma 2 genera una respuesta paso a paso mediante descodificación autorregresiva, un método en el que el modelo predice una parte de la respuesta cada vez basándose en el contexto que ya ha procesado.

Capacidades clave de PaliGemma 2

Ahora que hemos comprendido cómo funciona, exploremos las características clave que hacen de PaliGemma 2 un modelo fiable de visión-lenguaje:

Flexibilidad de ajuste: Se adapta fácilmente a conjuntos de datos y tareas específicas, con un buen rendimiento en aplicaciones como el subtitulado de imágenes, el razonamiento espacial y las imágenes médicas.
‍
Datos de entrenamiento diversos: Entrenado en conjuntos de datos como WebLI y OpenImages, lo que le confiere una gran capacidad de reconocimiento de objetos y resultados multilingües.
‍
Integración OCR: Incluye reconocimiento óptico de caracteres para extraer e interpretar texto de imágenes, lo que lo hace ideal para el análisis de documentos y otras tareas basadas en texto.
‍
Salidas multilingües: Genera subtítulos y respuestas en varios idiomas, ideal para aplicaciones globales.
‍
Integración con herramientas: Es compatible con marcos de trabajo como Hugging Face Transformers, PyTorch, y Keras, lo que permite una fácil implementación y experimentación.

Comparando PaliGemma 2 y PaliGemma: ¿Qué ha mejorado?

Echar un vistazo a la arquitectura de la primera versión de PaliGemma es una buena forma de ver las mejoras de PaliGemma 2. Uno de los cambios más notables es la sustitución del modelo de lenguaje Gemma original por Gemma 2, que aporta mejoras sustanciales tanto en rendimiento como en eficacia.

Gemma 2, disponible en tamaños de parámetros de 9B y 27B, se ha diseñado para ofrecer una precisión y velocidad líderes en su clase, reduciendo al mismo tiempo los costes de implantación. Lo consigue mediante una arquitectura rediseñada y optimizada para la eficacia de la inferencia en distintas configuraciones de hardware, desde potentes GPU hasta configuraciones más accesibles.

Fig. 3. Una mirada retrospectiva a la primera versión de PaliGemma 2.

‍

Como resultado, PaliGemma 2 es un modelo muy preciso. La versión 10B de PaliGemma 2 alcanza una puntuación más baja de 20,3 en las oraciones sin detalles (Non-Entailment Sentence, NES), frente a los 34,3 del modelo original, lo que significa menos errores factuales en sus resultados. Estos avances hacen que PaliGemma 2 sea más escalable, preciso y adaptable a una gama más amplia de aplicaciones, desde el subtitulado detallado a la respuesta visual a preguntas.

Aplicaciones de PaliGemma 2: Usos reales de los modelos VLM

PaliGemma 2 tiene el potencial de redefinir las industrias combinando a la perfección la comprensión visual y lingüística. Por ejemplo, en lo que respecta a la accesibilidad, puede generar descripciones detalladas de objetos, escenas y relaciones espaciales, proporcionando una ayuda crucial a las personas con discapacidad visual. Esta capacidad ayuda a los usuarios a comprender mejor su entorno, ofreciéndoles una mayor independencia en las tareas cotidianas.

Fig. 4. PaliGemma 2 puede hacer del mundo un lugar más accesible.

‍

Además de la accesibilidad, PaliGemma 2 está teniendo impacto en varios sectores, entre ellos:

Comercio electrónico: El modelo mejora la categorización de los productos analizando y describiendo los artículos en imágenes, lo que simplifica la gestión del inventario y mejora la experiencia de búsqueda de los usuarios.
‍
Sanidad: Ayuda a los profesionales médicos interpretando imágenes médicas, como radiografías y resonancias magnéticas, junto con notas clínicas para proporcionar diagnósticos más precisos e informados.
‍
Educación: PaliGemma 2 ayuda a los educadores a crear materiales didácticos descriptivos y accesibles generando pies de foto y proporcionando información contextual para las imágenes.
‍
Creación de contenidos: El modelo automatiza el proceso de generación de subtítulos y descripciones visuales para contenidos multimedia, ahorrando tiempo a los creadores.

Pruébalo tú mismo: PaliGemma 2

Para probar PaliGemma 2, puedes empezar con la demostración interactiva de Hugging Face. Te permite explorar sus capacidades en tareas como el subtitulado de imágenes y la respuesta a preguntas visuales. Sólo tienes que subir una imagen y hacer preguntas al modelo sobre ella o solicitar una descripción de la escena.

‍

Si quieres profundizar más, aquí tienes cómo ponerte manos a la obra:

Modelos preentrenados: Puedes acceder a modelos preentrenados y al código de plataformas como Hugging Face y Kaggle. Estos recursos te proporcionan todo lo que necesitas para empezar a trabajar con el modelo.
‍
Cuadernos: Existe una completa documentación y cuadernos de ejemplos para familiarizarte con PaliGemma 2. Puedes empezar con ejemplos de inferencia y experimentar con el ajuste fino del modelo en tu propio conjunto de datos para tareas específicas.
‍
Integraciones: PaliGemma 2 es compatible con marcos ampliamente utilizados como Hugging Face Transformers, Keras, PyTorch, JAX y Gemma.cpp, lo que te permite integrarlo en tus flujos de trabajo existentes sin esfuerzo.

Pros y contras del PaliGemma 2 de Google

Una vez entendido cómo empezar con PaliGemma 2, veamos más de cerca sus principales puntos fuertes e inconvenientes a tener en cuenta cuando utilices estos modelos.

Esto es lo que hace que PaliGemma 2 destaque como modelo de lenguaje de visión:

Aumento de la eficiencia: Aprovechando la arquitectura optimizada de Gemma 2, PaliGemma 2 ofrece un alto rendimiento a la vez que minimiza los costes de implantación.
‍
Funciones de seguridad mejoradas: PaliGemma 2 incluye importantes mejoras de seguridad en su proceso de entrenamiento, como un sólido filtrado de los datos de preentrenamiento para reducir los sesgos y una rigurosa evaluación con respecto a puntos de referencia de seguridad.
‍
Baja latencia para configuraciones más pequeñas: El modelo 3B ofrece tiempos de inferencia más rápidos, lo que lo hace adecuado para casos de uso en los que la velocidad es crítica, como las recomendaciones de productos en el comercio electrónico o los sistemas de asistencia en directo.

Mientras tanto, aquí tienes algunas áreas en las que PaliGemma 2 puede tener limitaciones:

Latencia: Aunque potentes, los modelos más grandes pueden enfrentarse a problemas de latencia, especialmente cuando se despliegan para tareas que requieren respuestas inmediatas, como los sistemas interactivos de IA en tiempo real.
‍
Dependencia de grandes conjuntos de datos: El rendimiento de PaliGemma 2 está estrechamente ligado a la calidad y diversidad de sus conjuntos de datos de entrenamiento, lo que podría limitar su eficacia en dominios poco representados o en lenguas no incluidas en los datos de entrenamiento.
‍
Elevados requisitos de recursos: A pesar de las optimizaciones, las versiones de 10B y 28B parámetros exigen una potencia de cálculo significativa, lo que las hace menos accesibles para las organizaciones más pequeñas con recursos limitados.

Puntos clave

PaliGemma 2 es un avance fascinante en el modelado del lenguaje visual, que ofrece una escalabilidad, una flexibilidad de ajuste y una precisión mejoradas. Puede ser una valiosa herramienta para aplicaciones que van desde las soluciones de accesibilidad y el comercio electrónico hasta el diagnóstico sanitario y la educación.

Aunque tiene limitaciones, como los requisitos informáticos y la dependencia de datos de alta calidad, sus puntos fuertes lo convierten en una opción práctica para abordar tareas complejas que integran datos visuales y textuales. PaliGemma 2 puede proporcionar una base sólida para que investigadores y desarrolladores exploren y amplíen el potencial de la IA en aplicaciones multimodales.

Forma parte de la conversación sobre IA visitando nuestro repositorio y comunidad de GitHub. Infórmate sobre los avances de la IA en la agricultura y la sanidad. 🚀

Google'PaliGemma 2: Perspectivas de los modelos VLM avanzados

De Gemma 2 a PaliGemma 2

Cómo funcionan los modelos PaliGemma 2 VLM de Google

Capacidades clave de PaliGemma 2

Comparando PaliGemma 2 y PaliGemma: ¿Qué ha mejorado?

Aplicaciones de PaliGemma 2: Usos reales de los modelos VLM

Pruébalo tú mismo: PaliGemma 2

Pros y contras del PaliGemma 2 de Google

Puntos clave

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Google'PaliGemma 2: Perspectivas de los modelos VLM avanzados

De Gemma 2 a PaliGemma 2

Cómo funcionan los modelos PaliGemma 2 VLM de Google

Capacidades clave de PaliGemma 2

Comparando PaliGemma 2 y PaliGemma: ¿Qué ha mejorado?

Aplicaciones de PaliGemma 2: Usos reales de los modelos VLM

Pruébalo tú mismo: PaliGemma 2

Pros y contras del PaliGemma 2 de Google

Puntos clave

Leer más en esta categoría

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!