OpenAI o1: Nuevos modelos de razonamiento de IA - Visión interna

La comunidad de IA ha estado especulando sobre el próximo paso de los modelos GPT de OpenAI, y muchos se refieren a él como "Proyecto Fresa". La razón es que si preguntas a GPT-4o cuántas erres hay en la palabra "fresa", te dirá que hay dos erres en la palabra"fresa". Puede parecer extraño, teniendo en cuenta lo potente que es GPT-4o. Sin embargo, el modelo está construido para procesar el subtexto, no las palabras exactas. Se rumorea que el próximo modelo tratará de solucionar este problema. Sam Altman alimentó aún más estos rumores publicando fotos de fresas en su cuenta X (antes conocida como Twitter).

Con el último anuncio de OpenAI el jueves 12 de septiembre, ¡finalmente tenemos una respuesta a la especulación! Se ha lanzado OpenAI o1, una nueva serie de modelos de IA diseñados para ralentizar y pensar antes de responder. Curiosamente, ¡OpenAI o1 puede razonar mejor y responder correctamente a la pregunta sobre las fresas! En este artículo, analizaremos qué es OpenAI o1, cómo funciona, dónde se puede utilizar y qué significa para el futuro de la IA. ¡Empecemos!

__wf_reserved_inherit — Fig. 1. Un ejemplo de solicitud a OpenAI o1 sobre fresas.

‍

Nuevos avances en IA por OpenAI

En julio de 2024, los ejecutivos de OpenAI compartieron que la investigación de OpenAI se está acercando a un nivel humano de resolución de problemas, denominado nivel 2 de la IA. Está claro que este nivel se centra en el razonamiento, ya que OpenAI presenta su nueva serie de modelos, OpenAI o1, como pensar antes de responder. OpenAI o1 es un nuevo LLM (modelo de lenguaje grande), un modelo de IA que comprende y genera texto similar al humano aprendiendo patrones de cantidades masivas de datos lingüísticos. Ha sido diseñado para manejar problemas complejos que requieren un razonamiento profundo.

‍

El modelo ha sido entrenado utilizando aprendizaje por refuerzo, una técnica en la que el modelo aprende a tomar mejores decisiones a través de prueba y error al recibir recompensas o penalizaciones por sus acciones. El algoritmo de aprendizaje por refuerzo ayuda al modelo a pensar de manera más efectiva siguiendo una cadena de pensamiento. OpenAI también compartió que el rendimiento de o1 sigue mejorando con más aprendizaje por refuerzo durante el entrenamiento y con más tiempo dedicado a "pensar" durante la resolución de problemas, lo que demuestra que tanto el entrenamiento extendido como el procesamiento reflexivo ayudan a impulsar las habilidades del modelo.

Aunque OpenAI o1 es un avance significativo para el razonamiento complejo, aún es un modelo incipiente y carece de algunas funciones que hacen útil ChatGPT , como navegar por Internet o subir archivos e imágenes. Para muchas tareas comunes, GPT-4o podría seguir siendo más capaz por ahora. Sin embargo, OpenAI o1 supone un gran paso adelante en la capacidad de la IA para manejar razonamientos complejos, razón por la cual OpenAI inicia una nueva serie y la denomina OpenAI o1.

Cómo los nuevos modelos de OpenAI mejoran el razonamiento de la IA

OpenAI o1 se puede utilizar para tareas como descifrar códigos, resolver desafíos de programación, responder problemas de matemáticas, abordar crucigramas e incluso manejar temas complejos en ciencia, seguridad y atención médica. En un guiño divertido al nombre en clave del proyecto, OpenAI mostró las habilidades de razonamiento del modelo al descifrar un código que reveló el mensaje "THERE ARE THREE R’S IN STRAWBERRY".

Más allá de resolver cifrados, OpenAI o1 también es hábil en la codificación. Tiene un buen desempeño en desafíos de programación competitiva como los de Codeforces, una plataforma donde los programadores resuelven problemas de codificación complejos en condiciones de tiempo limitado. En estos desafíos, el modelo alcanza altas calificaciones Elo (un sistema de puntuación que mide los niveles de habilidad basados en el rendimiento contra otros competidores) y supera a los modelos anteriores. También sobresale en matemáticas y tiene un buen desempeño en exámenes como el American Invitational Mathematics Examination (AIME).

‍

Estos avances posicionan a OpenAI o1 como una mejora significativa con respecto a modelos anteriores como GPT-4o. Abre nuevas posibilidades para la IA en áreas como los negocios, el desarrollo, la investigación y la atención médica. Por ejemplo, en la investigación genética, OpenAI o1 puede revisar rápidamente una gran cantidad de artículos de investigación, seleccionando hallazgos clave y conexiones entre marcadores genéticos y enfermedades. Comprende el lenguaje científico complejo y puede resumir los puntos importantes, lo que ayuda a los investigadores a centrarse en la información más relevante.

Análisis detallado del encadenamiento de pensamiento

Vimos antes que OpenAI o1 introduce un proceso de razonamiento de "Cadena de Pensamiento". Permite al modelo abordar problemas complejos de una manera similar a las estrategias cognitivas humanas. El modelo puede dividir los desafíos en pasos más pequeños y manejables y refinar iterativamente su enfoque. A diferencia de los modelos anteriores que se basaban en el reconocimiento de patrones inmediato, o1 optimiza su toma de decisiones explorando múltiples rutas de razonamiento, aprendiendo tanto de los éxitos como de los errores a través del aprendizaje por refuerzo.

OpenAI ha decidido mantener estas cadenas de pensamiento en bruto ocultas a los usuarios, ofreciendo en cambio resúmenes que proporcionan información sobre el razonamiento del modelo sin exponer cada paso. Esta decisión ayuda a prevenir el uso indebido del proceso de pensamiento del modelo, al tiempo que permite a los desarrolladores monitorear y refinar la seguridad y la alineación de la IA. Al observar las cadenas ocultas internamente, los desarrolladores pueden asegurarse de que o1 se adhiera a las directrices éticas y evite comportamientos dañinos.

Evaluación comparativa de OpenAI o1

OpenAI o1 muestra mejoras importantes con respecto a GPT-4o en varios benchmarks que evalúan las habilidades de razonamiento y resolución de problemas. En el American Invitational Mathematics Examination (AIME) 2024, un examen de matemáticas desafiante para los mejores estudiantes de secundaria, o1 logró una tasa de precisión del 74% con solo una muestra por problema, en comparación con el 12% de GPT-4o. Con consenso en 64 muestras, su precisión aumentó al 83%, y al utilizar un método de re-ranking refinado con 1,000 muestras, alcanzó el 93%, ubicándose entre los 500 mejores estudiantes a nivel nacional.

Más allá de las matemáticas, o1 también tuvo un desempeño excepcionalmente bueno en los benchmarks que evalúan el conocimiento científico, como el GPQA Diamond, que cubre preguntas de nivel de doctorado en química, física y biología. Sorprendentemente, o1 superó a los expertos humanos con doctorados en esta prueba, convirtiéndose en el primer modelo de IA en hacerlo. También superó a GPT-4o en 54 de 57 categorías en el benchmark MMLU, que evalúa la comprensión en un conjunto diverso de temas, incluyendo historia, derecho y ciencia.

‍

Comience a practicar con OpenAI o1

OpenAI ha presentado dos nuevos modelos de IA en la serie o1: o1-preview y o1-mini. El modelo o1-preview está diseñado para pensar más profundamente antes de responder, destacando en tareas complejas de razonamiento en ciencia, codificación y matemáticas. Ofrece capacidades avanzadas de resolución de problemas para usuarios que abordan proyectos desafiantes. En contraste, o1-mini es un modelo más pequeño, rápido y rentable optimizado específicamente para el razonamiento STEM, particularmente en matemáticas y codificación. Si bien puede tener un conocimiento del mundo menos amplio, o1-mini casi iguala el rendimiento de o1-preview en evaluaciones clave como la competencia de matemáticas AIME y los desafíos de codificación de Codeforces, todo a un 80% menos de costo.

‍

Puedes probar estos modelos a través de varias plataformas OpenAI. Los usuarios ChatGPT ChatGPT Plus y Team pueden acceder tanto a o1-preview como a o1-mini a través del selector de modelos, experimentando capacidades de razonamiento mejoradas directamente en ChatGPT. Los desarrolladores con acceso al nivel 5 de uso de la API pueden empezar a crear prototipos con estos modelos, aunque algunas funciones avanzadas aún están en desarrollo. OpenAI también planea poner o1-mini a disposición de todos los usuarios de ChatGPT Free en breve. Explorando estos modelos, podrás experimentar de primera mano los avances en el razonamiento de IA y elegir el que mejor se adapte a tus necesidades.

Consideraciones éticas sobre la IA realizadas por OpenAI

OpenAI se ha centrado en la ética y la seguridad al desarrollar la serie de modelos o1. Antes de lanzar los modelos o1-preview y o1-mini, realizaron evaluaciones exhaustivas, incluyendo pruebas externas y controles internos de riesgos como contenido prohibido, alucinaciones y sesgos. Los modelos están diseñados con capacidades de razonamiento avanzadas para comprender y seguir mejor las normas de seguridad.

OpenAI también ha implementado salvaguardias como listas de bloqueo y clasificadores de seguridad para gestionar los riesgos. El modelo o1 tiene una calificación de riesgo general medio. Tiene bajos riesgos en áreas como la ciberseguridad y la autonomía del modelo, y riesgos medios en áreas como el contenido CBRN (Químico, Biológico, Radiológico y Nuclear) y la persuasión. El Grupo Asesor de Seguridad y la Junta Directiva de OpenAI han revisado estas medidas de seguridad para garantizar que el modelo sea seguro y ético de usar.

‍

De rumores a realidad: OpenAI o1 toma el escenario

OpenAI o1 es un gran paso adelante en el razonamiento de IA, convirtiendo algunos de los primeros rumores en realidad. A diferencia de GPT-4o, la serie o1 piensa más profundamente utilizando un enfoque de "cadena de pensamiento", descomponiendo los problemas complejos en pasos más pequeños para obtener mejores respuestas. OpenAI tiene previsto añadir funciones como la ChatGPT web y la carga de archivos e imágenes. OpenAI también ha comunicado que tiene previsto seguir desarrollando y lanzando modelos de la serie GPT, junto con la nueva serie OpenAI o1. A medida que la IA sigue evolucionando, avances como estos están allanando el camino para sistemas de IA más potentes, intuitivos y versátiles que puedan ayudar y comprender mejor las necesidades humanas.

¡Manténgase al día con lo último en IA uniéndose a nuestra comunidad! Diríjase a nuestro repositorio de GitHub para ver cómo estamos siendo pioneros en soluciones de IA en sectores como la fabricación y la atención médica. 🚀

OpenAI o1: Una nueva serie de modelos de OpenAI para el razonamiento de la IA

Nuevos avances en IA por OpenAI

Cómo los nuevos modelos de OpenAI mejoran el razonamiento de la IA

Análisis detallado del encadenamiento de pensamiento

Evaluación comparativa de OpenAI o1

Comience a practicar con OpenAI o1

Consideraciones éticas sobre la IA realizadas por OpenAI

De rumores a realidad: OpenAI o1 toma el escenario

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

Herramientas de visión artificial para el diagnóstico sanitario

De los datos a las decisiones: uso de la IA visual para la estrategia empresarial

¡Construyamos juntos el futuro
de la IA!

OpenAI o1: Una nueva serie de modelos de OpenAI para el razonamiento de la IA

Nuevos avances en IA por OpenAI

Cómo los nuevos modelos de OpenAI mejoran el razonamiento de la IA

Análisis detallado del encadenamiento de pensamiento

Evaluación comparativa de OpenAI o1

Comience a practicar con OpenAI o1

Consideraciones éticas sobre la IA realizadas por OpenAI

De rumores a realidad: OpenAI o1 toma el escenario

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

Herramientas de visión artificial para el diagnóstico sanitario

De los datos a las decisiones: uso de la IA visual para la estrategia empresarial

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!