Cheque verde
Enlace copiado en el portapapeles

Una inmersión profunda en las capacidades del GPT-4o Mini de OpenAI

Explora las funciones y aplicaciones de la GPT-4o Mini. El modelo más reciente y rentable de OpenAI ofrece funciones avanzadas de IA un 60% más baratas que la GPT-3.5 Turbo.

En mayo de 2024, OpenAI lanzó GPT-4o, y ahora, sólo tres meses después, vuelven con otro modelo impresionante: GPT-4o Mini. El 18 de julio de 2024, OpenAI presentó GPT-4o Mini. Lo llaman su "modelo más rentable". GPT-4o Mini es un modelo compacto que se basa en las capacidades de los modelos anteriores y pretende hacer que la IA avanzada sea más accesible y asequible.

GPT-4o Mini admite actualmente interacciones de texto y visión, y se espera que futuras actualizaciones añadan capacidades para manejar imágenes, vídeos y audio. En este artículo, exploraremos qué es GPT-4o Mini, sus características más destacadas, cómo se puede utilizar, las diferencias entre GPT-4 y GPT-4o Mini, y cómo se puede utilizar en diversos casos de uso de visión por ordenador. ¡Sumerjámonos y veamos qué puede ofrecer GPT-4o Mini!

¿Qué es GPT-4o Mini?

GPT-4o Mini es la última incorporación a la gama de modelos de IA de OpenAI, diseñada para ser más rentable y accesible. Es un modelo multimodal de gran lenguaje (LLM), lo que significa que puede procesar y generar distintos tipos de datos, como texto, imágenes, vídeos y audio. El modelo se basa en los puntos fuertes de modelos anteriores como GPT-4 y GPT-4o para ofrecer potentes capacidades en un paquete compacto. 

GPT-4o Mini es un 60% más barato que GPT-3.5 Turbo, ya que cuesta 15 céntimos por millón de tokens de entrada (unidades de texto o datos que el modelo procesa) y 60 céntimos por millón de tokens de salida (unidades que el modelo genera como respuesta). Para ponerlo en perspectiva, un millón de tokens equivale aproximadamente a procesar 2.500 páginas de texto. Con una ventana de contexto de 128.000 tokens y la capacidad de manejar hasta 16.000 tokens de salida por solicitud, GPT-4o Mini está diseñado para ser eficiente y asequible.

Fig. 1. GPT-4o Mini es un 60% más barato que GPT-3,5 Turbo.

Características principales del GPT-4o Mini 

GPT-4o Mini admite una serie de tareas que lo convierten en una gran opción para diversas aplicaciones. Se puede utilizar cuando se ejecutan varias operaciones a la vez, como llamar a varias API, manejar grandes cantidades de datos como bases de código completas o historiales de conversaciones, y proporcionar respuestas rápidas y en tiempo real en chatbots de atención al cliente.

Aquí tienes otras características clave:

  • Base de conocimientos actualizada: Contiene información hasta octubre de 2023.
  • Tokenizador mejorado: GPT-4o Mini hace que el procesamiento de texto noEnglish sea más rentable.
  • Sólidas medidas de seguridad: Estas medidas incluyen el filtrado de contenidos dañinos y la protección contra problemas de seguridad como inyecciones puntuales y manipulaciones del sistema.

Primeros pasos con GPT-4o Mini 

Puedes probar a utilizar GPT-4o Mini a través de la interfaz ChatGPT . Es accesible para usuarios Free, Plus y Team, y sustituye a GPT-3.5, como se muestra a continuación. Los usuarios de empresa también obtendrán acceso en breve, en línea con el objetivo de OpenAI de proporcionar beneficios de la IA a todos. GPT-4o Mini también está disponible a través de la API para los desarrolladores que quieran integrar sus capacidades en sus aplicaciones. De momento, las capacidades de visión sólo son accesibles a través de la API.

Fig. 2. Opciones de modelos en ChatGPT.

Diferencia entre GPT-4o y GPT-4o Mini 

Tanto el GPT-4o Mini como el GPT-4o tienen un rendimiento impresionante en varios benchmarks. Aunque GPT-4o supera en general a GPT-4o Mini, GPT-4o Mini sigue siendo una solución rentable para las tareas cotidianas. Los puntos de referencia incluyen tareas de razonamiento, competencia matemática y de codificación, y razonamiento multimodal. Como se muestra en la imagen siguiente, el GPT-4o Mini obtiene unos resultados bastante elevados en comparación con otros modelos populares.

Fig. 3. Comparación del GPT-4o Mini con otros modelos populares.

Manos a la obra con GPT-4o y GPT-4o Mini

Una pregunta interesante que se ha debatido en Internet implica a los populares LLM comparando números decimales incorrectamente. Cuando pusimos a prueba al GPT-4o y al GPT-4o Mini, sus capacidades de razonamiento mostraron claras diferencias. En la imagen siguiente, preguntamos a ambos modelos cuál es mayor: 9,11 o 9,9, y luego les pedimos que explicaran su razonamiento.

Fig. 4. Probando GPT-4o y GPT-4o Mini.

Ambos modelos responden inicialmente de forma incorrecta y afirman que 9,11 es mayor. Sin embargo, el GPT-4o es capaz de razonar hasta llegar a la respuesta correcta y afirma que 9,9 es mayor. Ofrece una explicación detallada y compara los decimales con precisión. En cambio, GPT-4o Mini mantiene obstinadamente su respuesta inicial errónea a pesar de haber razonado correctamente que 9,9 es mayor.

Ambos modelos muestran una gran capacidad de razonamiento. La capacidad de GPT-4o para corregirse a sí mismo lo hace superior y útil para tareas más complejas. GPT-4o Mini, aunque menos adaptable, sigue ofreciendo un razonamiento claro y preciso para tareas más sencillas. 

Utilización del GPT-4o Mini para diversos casos de uso de la visión por ordenador

Si prefieres explorar las capacidades de visión de GPT-4o Mini sin sumergirte en el código, puedes probar fácilmente la API en OpenAI Playground. Nosotros mismos lo hemos probado para comprobar lo bien que GPT-4o Mini es capaz de manejar diversos casos de uso relacionados con la visión por ordenador.

Clasificación de imágenes mediante GPT-4o Mini

Pedimos a GPT-4o Mini que clasificara dos imágenes: una de una mariposa y otra de un mapa. El modelo de IA identificó con éxito la mariposa y el mapa. Se trata de una tarea bastante sencilla, dado que las imágenes son muy diferentes.

Fig 5. Clasificación de imágenes con ayuda de GPT-4o Mini.

A continuación, pasamos otras dos imágenes por el modelo: una con una mariposa posada en una planta y otra con una mariposa posada en el suelo. La IA volvió a hacer un gran trabajo, detectando correctamente la mariposa sobre la planta y la que estaba en el suelo. Así que volvimos a dar un paso más.

Fig. 6. Clasificación de imágenes similares con ayuda de GPT-4o Mini.

A continuación pedimos a GPT-4o Mini que clasificara dos imágenes: una que mostraba a una mariposa alimentándose de las flores de un algodoncillo de los pantanos y otra que mostraba a una mariposa alimentándose de una flor de zinnia. Es asombroso que el modelo fuera capaz de clasificar una etiqueta tan específica sin más ajustes. Estos ejemplos rápidos demuestran que GPT-4o Mini podría utilizarse para tareas de clasificación de imágenes sin necesidad de un entrenamiento personalizado.

Fig 7. Clasificación de imágenes detalladas con ayuda de GPT-4o Mini.

Comprender las posturas con GPT-4o Mini

Por ahora, las tareas de visión por ordenador como la detección de objetos y la segmentación de instancias no pueden realizarse con GPT-4o Mini. GPT-4o lucha por la precisión, pero puede utilizarse para dichas tareas. En esta línea, respecto a la comprensión de poses, no podemos detectar o estimar la pose en la imagen, pero podemos clasificar y comprender la pose.

Fig 8. Utilizando GPT-4o Mini para comprender las poses de una imagen. 

La imagen anterior muestra cómo GPT-4o Mini puede clasificar y comprender poses, a pesar de no ser capaz de detectar o estimar las coordenadas precisas de la pose. Esto puede ser útil en distintas aplicaciones. Por ejemplo, en la analítica deportiva, puede evaluar ampliamente los movimientos de los atletas y ayudar a prevenir lesiones. Del mismo modo, en fisioterapia, puede ayudar a controlar los ejercicios para asegurarse de que los pacientes realizan los movimientos correctos durante la rehabilitación. También en vigilancia, puede ayudar a identificar actividades sospechosas analizando el lenguaje corporal general. Aunque el GPT-4o Mini no puede detectar puntos clave concretos, su capacidad para clasificar posturas generales lo hace útil en estos y otros campos.

Aplicaciones para las que es adecuado el GPT-4o Mini

Ya hemos visto lo que puede hacer GPT-4o Mini. Ahora, vamos a hablar de las aplicaciones en las que es más óptimo utilizar GPT-4o Mini.

GPT-4o Mini es ideal para aplicaciones que requieren una comprensión avanzada del lenguaje natural y necesitan una huella computacional pequeña. Permite integrar la IA en aplicaciones en las que normalmente sería demasiado costosa. De hecho, un análisis detallado realizado por Artificial Analysis muestra que la GPT-4o Mini proporciona respuestas de alta calidad a velocidades vertiginosas en comparación con la mayoría de los demás modelos.

Fig. 9. Calidad en función de la velocidad de salida del GPT-4o Mini.

He aquí algunas áreas clave en las que podría brillar en el futuro:

  • Asistentes virtuales y Chatbots: GPT-4o Mini puede proporcionar respuestas rápidas e inteligentes para mejorar las interacciones con los usuarios.
  • Herramientas educativas: El modelo puede utilizarse para construir herramientas que ofrezcan tutoría personalizada y generación de contenidos.
  • Herramientas de productividad: Puede mejorar tareas como resumir documentos, redactar correos electrónicos y traducir idiomas para aumentar la eficacia.
  • Traducción de idiomas: La última versión de GPT se puede utilizar para desarrollar traductores que proporcionen una traducción de idiomas precisa y en tiempo real para una mejor comunicación entre diferentes idiomas.

GPT-4o Mini abre nuevas puertas

GPT-4o Mini está creando nuevas oportunidades para el futuro de la IA multimodal. El gasto de procesar cada fragmento de texto o datos, conocido como coste por token, ha disminuido sustancialmente -casi un 99%- desde 2022, cuando se lanzó text-davinci-003, el modelo GPT-3. La disminución del coste muestra una clara tendencia a hacer que la IA avanzada sea más asequible. A medida que los modelos de IA siguen mejorando, es cada vez más probable que la integración de la IA en todas las aplicaciones y sitios web sea económicamente viable.

¿Quieres ponerte manos a la obra con la IA? Visita nuestro repositorio de GitHub para ver nuestras innovaciones y formar parte de nuestra activa comunidad. Obtén más información sobre las aplicaciones de la IA en la fabricación y la agricultura en nuestras páginas de soluciones.

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático