Cheque verde
Enlace copiado en el portapapeles

El GPT-4o de OpenAI muestra el potencial de la IA

Explora la nueva GPT-4o de OpenAI, que presenta una IA avanzada con interacciones realistas que cambian nuestra forma de comunicarnos con la tecnología. ¡Explora sus innovadoras funciones!

El lunes 13 de mayo de 2024, OpenAI anunció el lanzamiento de su nuevo modelo insignia, GPT-4o, donde la "o" significa "omni". GPT-4o es un modelo avanzado de IA multimodal para interacciones de texto, audio y visión en tiempo real, que ofrece un procesamiento más rápido, soporte multilingüe y seguridad mejorada.

Pone sobre la mesa capacidades de IA generativa nunca vistas. Basándose en los puntos fuertes conversacionales de ChatGPT, las funciones de GPT-4o suponen un avance sustancial en la forma en que la gente percibe la IA. Ahora podemos hablar con GPT-4o como si fuera una persona real. ¡Sumerjámonos y veamos exactamente de qué es capaz GPT-4o!

Conociendo la GPT-4o

En la actualización de primavera de OpenAI, se reveló que, aunque GPT-4o es igual de inteligente que GPT-4, puede procesar datos más rápidamente y está mejor equipado para manejar texto, visión y audio. A diferencia de versiones anteriores que se centraban en hacer los modelos más inteligentes, esta versión se ha hecho teniendo en cuenta la necesidad de hacer que la IA sea más fácil de usar por el público en general. 

Fig. 1. Actualización de primavera de OpenAI

ChatGPTque se lanzó a finales del año pasado, incluía tres modelos diferentes que se unían para transcribir las entradas vocales, comprender y generar respuestas escritas, y convertir el texto en voz para que el usuario pudiera oír una respuesta. Este modo tenía problemas de latencia y no parecía muy natural. GPT-4o puede procesar de forma nativa texto, visión y audio de una sola vez para dar al usuario la impresión de que está participando en una conversación natural. 

Además, a diferencia del modo voz, ahora puedes interrumpir al GPT-4o mientras habla, y reaccionará igual que lo haría una persona. Hará una pausa y escuchará, y luego dará su respuesta en tiempo real basándose en lo que hayas dicho. También puede expresar emociones a través de su voz y entender tu tono. 

Emocionantes características de la GPT-4o

La evaluación del modelo de GPT-4o muestra lo avanzado que es. Uno de los resultados más interesantes que se han encontrado es que GPT-4o mejora mucho el reconocimiento de voz en comparación con Whisper-v3 en todos los idiomas, especialmente en los de uso menos común. 

El rendimiento del ASR (Reconocimiento Automático del Habla) de audio mide la precisión con la que un modelo transcribe el lenguaje hablado a texto. El rendimiento de GPT-4o se controla mediante la Tasa de Error de Palabra (TEP), que muestra el porcentaje de palabras transcritas incorrectamente (una TEP más baja significa mejor calidad). El siguiente gráfico muestra el menor WER de GPT-4o en varias regiones, lo que demuestra su eficacia para mejorar el reconocimiento del habla en las lenguas con menos recursos.

Fig. 2. El GPT-4o tiene un reconocimiento de voz superior en varios idiomas.

Echa un vistazo a otras características exclusivas de GPT-4o:

  • Más rápido - Es el doble de rápido que GPT-4 Turbo. Puede responder a entradas de audio en sólo 232 milisegundos, tiempos de respuesta similares a los de una conversación humana.
  • Rentable - La versión API de GPT-4o es un 50% más barata que GPT-4 Turbo.
  • Memoria - GPT-4o tiene la capacidad de mantener la atención a través de diferentes conversaciones. Puede recordar de qué estás hablando en diferentes chats.
  • Multilingüe - GPT-4o ha sido entrenado para mejorar la velocidad y la calidad en 50 idiomas diferentes.

Ejemplos de lo que puede hacer GPT-4o

Ahora puedes sacar GPT-4o de tu teléfono, encender la cámara y pedir a GPT-4o, como harías con un amigo, que adivine tu estado de ánimo basándose en tu expresión facial. GPT-4o puede verte a través de la cámara y responder.

Fig. 3. GPT-4o Comprender el estado de ánimo de un ser humano a través de un vídeo.

Incluso puedes utilizarlo para que te ayude a resolver problemas de matemáticas mostrando a GPT-4o lo que estás escribiendo a través de un vídeo. Alternativamente, puedes compartir tu pantalla, y puede convertirse en un útil tutor en Khan Academy, pidiéndote que señales las diferentes partes de un triángulo en geometría, como se muestra a continuación.

Fig. 4. GPT-4o actuando como tutor en Khan Academy.

Además de ayudar a los niños con las matemáticas, los desarrolladores pueden mantener conversaciones con GPT-4o para depurar su código. Esto es posible gracias a la introducción de ChatGPT como aplicación de escritorio. Si resaltas y copias tu código utilizando CTRL "C" mientras hablas con la aplicación de voz GPT-4o de escritorio, podrá leer tu código. También puedes utilizarla para traducir conversaciones entre desarrolladores que hablen idiomas diferentes. 

Las posibilidades con GPt-4o parecen infinitas. Una de las demostraciones más interesantes de OpenAI utilizó dos teléfonos para mostrar a GPt-4o hablando con diferentes instancias de sí mismo y cantando juntas.

Fig. 5. AI hablando y cantando con AI.

Aplicaciones GPT-4o

Como se muestra en una demostración, GPT-4o puede hacer que el mundo sea más accesible para las personas con deficiencias visuales. Puede ayudarles a interactuar y desplazarse de forma más segura e independiente. Por ejemplo, los usuarios pueden encender el vídeo y mostrar a GPT-4o una vista de la calle. Entonces GPT-4o puede proporcionar descripciones en tiempo real del entorno, como identificar obstáculos, leer señales de tráfico o guiarles a un lugar concreto. Incluso puede ayudarles a llamar a un taxi alertándoles cuando se acerca uno.

Fig. 6. GPT-4o alertando de la aproximación de un taxi.

Del mismo modo, la GPT-4o puede transformar varias industrias con sus capacidades avanzadas. En el comercio minorista, puede mejorar el servicio al cliente proporcionando asistencia en tiempo real, respondiendo a consultas y ayudando a los clientes a encontrar productos tanto en línea como en la tienda. Supongamos que estás mirando una estantería de productos y no puedes elegir el producto que buscas, GPT-4o puede ayudarte. 

En la asistencia sanitaria, GPT-4o puede ayudar en el diagnóstico analizando los datos del paciente, sugiriendo posibles afecciones basadas en los síntomas y ofreciendo orientación sobre las opciones de tratamiento. También puede ayudar a los profesionales médicos resumiendo los historiales de los pacientes, proporcionando un acceso rápido a la literatura médica e incluso ofreciendo traducción lingüística en tiempo real para comunicarse con pacientes que hablan idiomas diferentes. Estos son sólo un par de ejemplos. Las aplicaciones de GPT-4o facilitan la vida diaria ofreciendo asistencia adaptada al contexto y eliminando las barreras a la información y la comunicación.

GPT-4o y Seguridad del modelo

Al igual que las versiones anteriores de GPT, que han repercutido en cientos de millones de vidas, GPT-4o probablemente interactuará con audio y vídeo en tiempo real de forma global, lo que hace que la seguridad sea un elemento crucial en estas aplicaciones. OpenAI ha tenido mucho cuidado en construir la GPT-4o centrándose en mitigar los riesgos potenciales.

Para garantizar la seguridad y la fiabilidad, OpenAI ha implementado rigurosas medidas de seguridad. Entre ellas, filtrar los datos de entrenamiento, refinar el comportamiento del modelo tras el entrenamiento e incorporar nuevos sistemas de seguridad para gestionar las salidas de voz. Además, la GPT-4o ha sido sometida a pruebas exhaustivas por más de 70 expertos externos en campos como la psicología social, la parcialidad y la imparcialidad, y la desinformación. Las pruebas externas garantizan que se identifique y aborde cualquier riesgo introducido o amplificado por las nuevas funciones.

Para mantener un alto nivel de seguridad, OpenAI está lanzando las funciones de GPT-4o gradualmente a lo largo de las próximas semanas. Un despliegue por fases permite a OpenAI controlar el rendimiento, solucionar cualquier problema y recoger las opiniones de los usuarios. Adoptar un enfoque cuidadoso garantiza que la GPT-4o ofrezca capacidades avanzadas, manteniendo al mismo tiempo los más altos estándares de seguridad y uso ético.

Prueba tú mismo el GPT-4o

GPT-4o es de acceso gratuito. Para probar las capacidades de conversación en tiempo real mencionadas anteriormente, puedes descargar la aplicaciónChatGPT de Google Play Store o Apple App Store directamente en tu teléfono. 

Después de iniciar sesión, podrás seleccionar GPT-4o de la lista que se muestra tocando los tres puntos de la esquina superior derecha de la pantalla. Después de navegar a un chat habilitado con GPT-4o, si tocas el signo más en la esquina inferior izquierda de la pantalla, verás múltiples opciones de entrada. En la esquina inferior derecha de la pantalla, verás un icono de auriculares. Al seleccionar el icono de los auriculares, se te preguntará si deseas experimentar una versión manos libres de GPT-4o. Tras aceptar, podrás probar GPT-4o, como se muestra a continuación.

Fig 7. Probando GPT-4o en la aplicación móvil ChatGPT .

Si quieres integrar las capacidades avanzadas de GPT-4o en tus propios proyectos, está disponible como API para desarrolladores. Te permite incorporar a tus aplicaciones el potente reconocimiento de voz, el soporte multilingüe y las capacidades conversacionales en tiempo real de GPT-4o. Utilizando la API, puedes mejorar la experiencia del usuario, crear aplicaciones más inteligentes y llevar la tecnología de IA de vanguardia a diferentes sectores.

GPT-4o: Todavía no somos humanos

Aunque GPT-4o es mucho más avanzado que los modelos de IA anteriores, es importante recordar que GPT-4o tiene sus propias limitaciones. OpenAI ha mencionado que a veces puede cambiar aleatoriamente de idioma mientras habla, pasando de English a francés. También han visto que GPT-4o traduce incorrectamente entre idiomas. A medida que más gente pruebe el modelo, entenderemos en qué destaca GPT-4o y en qué necesita mejorar.

Lo esencial

La GPT-4o de OpenAI abre nuevas puertas a la IA con su procesamiento avanzado de texto, visión y audio, ofreciendo interacciones naturales, similares a las humanas. Destaca por su velocidad, rentabilidad y soporte multilingüe. GPT-4o es una herramienta versátil para la educación, la accesibilidad y la asistencia en tiempo real. A medida que los usuarios exploren las capacidades de GPT-4o, los comentarios impulsarán su evolución. GPT-4o demuestra que la IA está cambiando realmente nuestro mundo y formando parte de nuestra vida cotidiana. 

Explora nuestro repositorio de GitHub y únete a nuestra comunidad para profundizar en la IA. Visita nuestras páginas de soluciones para ver cómo la IA está transformando sectores como la fabricación y la agricultura.

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático