Cheque verde
Enlace copiado en el portapapeles

Prueba Google Gemini 2.5 para tareas de visión por ordenador

Descubre cómo puedes ponerte manos a la obra con Google Gemini 2.5 para tareas de visión por ordenador como la detección de objetos, el subtitulado de imágenes y el reconocimiento óptico de caracteres para soluciones de IA Vision.

Los avances de la IA avanzan rápidamente, y casi todos los días aparecen nuevas innovaciones en los titulares. Uno de estos avances recientes es Gemini 2.5, el último modelo multimodal de Google DeepMind, lanzado el 26 de marzo. Mientras que los Grandes Modelos del Lenguaje (LLM) tradicionales pueden aprender de cantidades masivas de datos para generar texto similar al humano, Gemini 2.5 va más allá. 

Está diseñado como un "modelo de pensamiento" que puede procesar imágenes, audio y vídeo. Tiene capacidades de razonamiento y codificación mejoradas. Curiosamente, también rinde excepcionalmente bien en tareas de visión por ordenador, en las que las máquinas interpretan y analizan datos visuales, como la detección de objetos, el subtitulado de imágenes y el reconocimiento óptico de caracteres (OCR).

Fig. 1. Ejemplo de utilización de Gemini 2.5 para comprender el contenido de una imagen.

En este artículo, recorreremos uno de los cuadernos de Ultralyticsque pueden ayudarte a ponerte manos a la obra con las capacidades de visión por ordenador de Gemini 2.5. También examinaremos más de cerca las características clave de Gemini 2.5 y mostraremos cómo puede utilizarse para crear soluciones de visión por ordenador para aplicaciones del mundo real. ¡Vamos a empezar!

Visión general de Géminis 2.5: características y capacidades

La primera versión de la serie de modelos Géminis 2.5 que acaba de publicarse es una versión experimental de Géminis 2.5 Pro. Está diseñado para resolver problemas complejos pensando sus respuestas antes de dar una respuesta. Utiliza métodos como el aprendizaje por refuerzo (en el que el modelo aprende de la retroalimentación) y el estímulo de la cadena de pensamiento (un enfoque paso a paso para resolver problemas).

Una de sus características clave es su enorme ventana de contexto, que puede contener 1 millón de tokens (aproximadamente un millón de palabras o partes de palabras) y se espera que crezca hasta 2 millones. Esto significa que el modelo puede asimilar mucha información a la vez, lo que conduce a resultados más detallados y precisos.

Además del lenguaje de procesamiento, Gemini 2.5 puede utilizarse para las siguientes tareas de visión por ordenador:

  • Detección de objetos: Es el proceso de identificar y localizar objetos dentro de una imagen. Puede utilizarse en aplicaciones como la vigilancia o los coches autoconducidos.
  • Subtitulado de imágenes: Esta tarea consiste en generar un texto descriptivo para una imagen. Hace que el contenido visual sea más accesible y fácil de entender.
  • Reconocimiento óptico de caracteres: Esta tecnología convierte el texto de las imágenes en texto editable y legible por máquina. Es útil para digitalizar documentos y automatizar la introducción de datos.

Benchmarking y comparación de Google Gemini 2.5 con otros modelos

Hoy en día hay varios modelos multimodales disponibles en el espacio de la IA, por lo que es importante comprender cómo se compara Gemini 2.5 Pro con ellos. Según los resultados de las pruebas comparativas compartidas por DeepMind de Google, Gemini 2.5 Pro muestra un rendimiento impresionante en una serie de tareas. 

Por ejemplo, en una prueba llamada El último examen de la humanidad, que simula un examen exigente que abarca muchas asignaturas y pone a prueba el razonamiento avanzado y los conocimientos generales, Gemini 2.5 Pro obtiene una puntuación de alrededor del 18,8%, superando a modelos como o3-mini de OpenAI, que obtiene una puntuación de alrededor del 14%. 

Figura 2. Una visión general del rendimiento de referencia de Gemini 2.5 Pro.

También rinde muy bien en retos matemáticos y de codificación, a menudo igualando o superando el rendimiento de modelos como OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta y DeepSeek R1, lo que demuestra su capacidad para manejar tareas complejas y procesar grandes cantidades de datos.

Manos a la obra con Gemini 2.5: Cómo utilizar la API Gemini Google

Gemini 2.5 Pro está disponible en varias plataformas. Puedes experimentar con él en Google AI Studio y acceder a él a través de la aplicación Gemini para usuarios de Gemini Advanced. En su anuncio de lanzamiento, Google DeepMind también mencionó que el modelo será compatible con Vertex AI en breve. Estos puntos de acceso facilitan a los desarrolladores el uso de Gemini 2.5 Pro para aplicaciones de IA del mundo real. 

Sin embargo, si quieres utilizar la API Gemini Google Google y empezar a trabajar en pocos minutos sin una configuración complicada y quieres conocer mejor sus capacidades de visión por ordenador, puedes consultar el cuadernoUltralytics que muestra tareas como la detección de objetos y el subtitulado de imágenes utilizando Gemini 2.5 Pro. Veamos en detalle lo que puedes esperar del cuaderno.

Configurar la inferencia con el cuaderno Google Gemini 2.5

Para empezar con el cuaderno Ultralytics y utilizar Google Gemini 2.5, primero tendrás que generar una clave API a través de Google AI Studio. Esta clave te da acceso a la API de Gemini para que puedas utilizar el modelo.

Una vez que tengas tu clave API, asegúrate de que tu entorno tiene instaladas las librerías necesarias - éstas incluyen paquetes de Ultralytics y el kit de herramientas de IA de Google. Este paso está claramente descrito en el cuaderno, por lo que puedes seguir fácilmente las instrucciones para configurar tu espacio de trabajo.

Con todo configurado, puedes conectarte a la API de Gemini introduciendo tu clave API (como se muestra a continuación), lo que crea un enlace entre tu espacio de trabajo y el modelo. Después de eso, estarás listo para enviar imágenes y mensajes de texto a Géminis 2.5.

1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")

Básicamente, puedes proporcionar una imagen y una instrucción sencilla (como "detecta objetos en esta imagen" o "describe lo que ves") al modelo, y éste te devuelve los resultados que necesitas. Este sencillo proceso hace que sea fácil empezar a explorar las capacidades de visión por ordenador de Gemini 2.5.

Detección de objetos con Google Gemini 2.5

Uno de los ejemplos clave del cuaderno es la detección de objetos mediante Gemini 2.5 Pro. En este ejemplo, proporcionas al modelo una imagen y una sencilla instrucción para detectar objetos. 

El modelo procesa la imagen y devuelve un conjunto de coordenadas y etiquetas para cada objeto que encuentra; estas coordenadas se dan en forma normalizada. A continuación, se utilizan funciones del paquetePython Ultralytics para convertir estos valores normalizados de modo que coincidan con las dimensiones reales de la imagen y dibujen cuadros delimitadores claros alrededor de cada objeto, como se muestra a continuación.

Fig. 3. Utilizando Google Gemini 2.5 para la detección de objetos.

Subtitulado de imágenes con Gemini 2.5

Otro ejemplo interesante del cuaderno es el subtitulado de imágenes mediante Gemini 2.5 Pro. En este ejemplo, proporcionas al modelo una imagen y le pides que genere un pie de foto detallado que describa lo que hay en la imagen. 

A continuación, el modelo analiza el contenido visual y devuelve una narración, a menudo formateada como varias frases, que capta tanto el contenido como el contexto de la imagen. Esta función es útil para mejorar la accesibilidad, resumir la información visual e incluso mejorar la narración creativa.

Mejorar la precisión del OCR con los modelos de Google Gemini

Una tarea de visión por ordenador que utiliza la capacidad de Gemini 2.5 Pro para leer texto en imágenes es el OCR. En el bloc de notas, puedes proporcionar al modelo una imagen que contenga texto junto con una instrucción para extraer dicho texto. El modelo procesa la imagen y devuelve tanto el texto detectado como las coordenadas en las que se encuentra el texto, como se muestra a continuación.

1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png")  # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)

A continuación, se utilizan funciones del paquetePython Ultralytics para convertir estas coordenadas normalizadas en las dimensiones reales de la imagen y dibujar cuadros delimitadores alrededor de las regiones de texto. Esta salida anotada deja claro dónde se encuentra el texto, lo que resulta útil para digitalizar documentos, automatizar la introducción de datos y mejorar la accesibilidad.

Fig. 4. Extracción de datos textuales en una imagen utilizando Google Gemini 2.5.

Aplicaciones reales de Google Gemini 2.5

Ahora que hemos visto cómo se puede utilizar Google Gemini 2.5 Pro para diversas tareas de visión por ordenador, vamos a explorar algunas aplicaciones del mundo real en las que se pueden utilizar estas capacidades.

La capacidad de detección de objetos de Gemini 2.5 Pro, por ejemplo, puede ayudar a etiquetar y organizar automáticamente grandes conjuntos de imágenes, agilizando tareas como la creación de conjuntos de datos o la gestión de contenidos. También puede utilizarse para analizar imágenes en campos como el comercio minorista y la agricultura, por ejemplo, detectando productos en estanterías o identificando signos de estrés en los cultivos en fotos de granjas.

Fig. 5. Gemini 2.5 Pro analizando la salud de una planta.

Mientras tanto, la función de subtitulado de imágenes del modelo puede ayudar a los usuarios con discapacidad visual a entender lo que hay en una imagen. Por ejemplo, si tienes una foto de una calle concurrida, el modelo puede producir un pie de foto que describa la escena con detalle, mencionando los tipos de vehículos, la actividad de los peatones e incluso la hora del día basándose en las señales de iluminación. 

Además, la funcionalidad OCR de Gemini 2.5 puede utilizarse en diversas aplicaciones. Por ejemplo, puedes digitalizar documentos impresos escaneando páginas o recibos. Esta capacidad es ideal para automatizar tareas de introducción de datos, procesar formularios o incluso leer texto de tarjetas de visita y carteles. 

En general, Google Gemini 2.5 Pro abre las puertas a una amplia gama de aplicaciones prácticas de la IA.

Puntos clave

Más allá de la generación y el análisis de texto, Google Gemini 2.5 Pro puede utilizarse para tareas de visión por ordenador como la detección de objetos, el subtitulado de imágenes y el reconocimiento óptico de caracteres. Con su enorme ventana de contexto y sus capacidades de razonamiento mejoradas, produce resultados detallados y conscientes del contexto que funcionan bien en escenarios del mundo real. 

A medida que los modelos de IA siguen evolucionando, herramientas como Gemini 2.5 Pro facilitan la resolución de problemas complejos en todos los sectores. Es probable que veamos una adopción aún más amplia de la IA a medida que más organizaciones busquen soluciones flexibles y multimodales que puedan manejar una amplia gama de tareas, desde la comprensión visual al procesamiento del lenguaje.

Forma parte de nuestra comunidad y conoce proyectos de IA de vanguardia en nuestro repositorio de GitHub. Consulta las aplicaciones de la IA de visión en la agricultura y el papel de la IA en la fabricación en nuestras páginas de soluciones. Explora nuestros planes de licencias y crea soluciones de visión por ordenador hoy mismo.

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático