Las últimas actualizaciones de OpenAI: Canvas, Vision Fine-Tuning y más

Acompáñanos en nuestro análisis de las recientes actualizaciones de ChatGPT publicadas por OpenAI. Exploraremos Canvas, el ajuste de las capacidades de visión y la última función de Búsqueda.

Escrito por

Abirami Vina

min leer

7 de noviembre de 2024

13 de abril de 2025

Visión general de la función canvas de OpenAI

Actualizaciones de la API de ChatGPT

Modelo de destilación

Caché de avisos

API en tiempo real

Ajuste fino de ChatGPT para tareas de visión

ChatGPT equidad y detección de sesgos

Comprender la búsqueda ChatGPT

El camino por recorrer

Desde la última vez que examinamos los modelos o1 de OpenAI en septiembre (que se diseñaron para mejorar el razonamiento), se han añadido muchas funciones nuevas e interesantes a ChatGPT. Algunas de estas novedades están orientadas a los desarrolladores, y otras están diseñadas para perfeccionar la experiencia del usuario. En general, cada actualización ayuda a que las interacciones con ChatGPT sean más intuitivas y eficaces.

Actualizaciones como Canvas, diseñada para la escritura y la codificación colaborativas, y el ajuste de las capacidades de visión que mejora la forma en que ChatGPT trabaja con las imágenes, han despertado mucho interés, animando a los usuarios a explorar más posibilidades creativas. Mientras tanto, las actualizaciones técnicas, como las nuevas API y los informes de pruebas de imparcialidad, abordan aspectos como la integración de modelos y las prácticas éticas de la IA . ¡Sumerjámonos y conozcamos mejor las últimas funciones de ChatGPT de OpenAI!

Visión general de la función canvas de OpenAI

Canvas es la primera actualización importante de la interfaz de usuario (IU) de ChatGPTdesde su lanzamiento. Se trata de una nueva interfaz con un diseño de dos pantallas, avisos en la barra lateral izquierda y respuestas en la ventana lateral derecha. La nueva interfaz de usuario elimina el flujo de trabajo habitual de una estructura de pantalla única similar a un chat y pasa a una disposición de dos pantallas que se adapta a la multitarea para aumentar la productividad.

__wf_reserved_inherit — Fig. 1. Canvas actualiza la interfaz de usuario en ChatGPT.

‍

Antes de la introducción de Canvas, trabajar con documentos largos en ChatGPT significaba tener que desplazarse bastante hacia arriba y hacia abajo. En el nuevo diseño, las instrucciones se muestran en la barra lateral izquierda, y el documento de texto o fragmento de código ocupa la mayor parte de la pantalla. Si es necesario, puedes incluso personalizar el tamaño de la barra lateral izquierda y de la pantalla de salida. Además, puedes seleccionar una parte del texto o una sección de código y editar la sección específica sin alterar todo el documento.

‍

Si utilizas Canvas, te darás cuenta de que no hay ningún botón o conmutador específico para abrirlo en la interfaz ChatGPT . En cambio, cuando trabajas con el modelo GPT-4o, Canvas se abre automáticamente si detecta que estás editando, escribiendo o codificando. Para indicaciones más sencillas, permanece inactivo. Si quieres abrirlo manualmente, puedes utilizar indicaciones como "Abrir el Lienzo" o "Consígueme el diseño del Lienzo".

Actualmente, Canvas está en fase beta y sólo está disponible con GPT-4o. Sin embargo, OpenAI ha mencionado que Canvas estará disponible para todos los usuarios gratuitos cuando salga de la beta.

Actualizaciones de la API de ChatGPT

OpenAI ha publicado tres nuevas actualizaciones de la API ChatGPT destinadas a mejorar la eficacia, la escalabilidad y la versatilidad. Echemos un vistazo más de cerca a cada una de estas actualizaciones.

Modelo de destilación

Utilizando la función de Destilación de Modelos a través de las API de OpenAI, los desarrolladores pueden utilizar los resultados de modelos avanzados como GPT-4o u o1-preview para mejorar el rendimiento de modelos más pequeños y rentables como GPT-4o mini. La destilación de modelos es un proceso que consiste en entrenar modelos más pequeños para que imiten el comportamiento de los más avanzados, haciéndolos más eficientes para tareas específicas.

Antes de que se introdujera esta función, los desarrolladores tenían que coordinar manualmente una serie de tareas utilizando distintas herramientas. Estas tareas incluían la generación de conjuntos de datos, la medición del rendimiento del modelo y el ajuste fino de los modelos, lo que a menudo hacía que el proceso fuera complejo y propenso a errores. La actualización de la Destilación de Modelos permite a los desarrolladores utilizar las Completaciones Almacenadas, una herramienta que les permite generar automáticamente conjuntos de datos capturando y almacenando los pares de entrada-salida producidos por modelos avanzados a través de la API.

Otra función de la Destilación de Modelos, Evals (actualmente en fase beta), ayuda a medir el rendimiento de un modelo en tareas específicas, sin necesidad de crear scripts de evaluación personalizados ni de utilizar herramientas independientes. Utilizando conjuntos de datos generados con Completaciones Almacenadas y evaluando el rendimiento con Evals, los desarrolladores pueden afinar sus propios modelos GPT personalizados.

‍

Caché de avisos

A menudo, cuando se construyen aplicaciones de IA, especialmente chatbots, el mismo contexto (la información de fondo o el historial de conversaciones previas necesarias para entender la solicitud actual) se utilizará repetidamente para múltiples llamadas a la API. El almacenamiento en caché de las peticiones permite a los desarrolladores reutilizar los tokens de entrada utilizados recientemente (segmentos de texto que el modelo procesa para comprender la petición y generar una respuesta), ayudando a reducir el coste y la latencia.

Desde el 1 de octubre, OpenAI aplica automáticamente el caché de avisos a sus modelos como GPT-4o, GPT-4o mini, o1-preview y o1-mini. Esto significa que cuando los desarrolladores utilizan la API para interactuar con un modelo con un prompt largo (más de 1.024 tokens), el sistema guarda las partes que ya ha procesado.

De este modo, si se vuelven a utilizar las mismas instrucciones o similares, puede omitir el recálculo de esas partes. El sistema almacena automáticamente en caché la parte más larga de la pregunta que ha encontrado anteriormente, empezando con 1.024 palabras y añadiendo trozos de 128 palabras a medida que la pregunta se hace más larga.

API en tiempo real

Crear un asistente de voz generalmente implica tener que transcribir el audio a texto, procesar el texto y volver a convertirlo en audio para reproducir la respuesta. El objetivo de la API en tiempo real de OpenAI es gestionar todo este proceso con una única solicitud a la API. Al simplificar el proceso, la API permite conversaciones en tiempo real con la IA.

Por ejemplo, un asistente de voz integrado con la API en tiempo real puede realizar acciones específicas, como hacer un pedido o buscar información, basándose en las peticiones del usuario. La API hace que el asistente de voz sea más receptivo y capaz de adaptarse rápidamente a las necesidades de los usuarios. La API Realtime estuvo disponible en beta pública el 1 de octubre, con seis voces. El 30 de octubre se añadieron cinco voces más, lo que hace un total de once voces disponibles.

‍

Ajuste fino de ChatGPT para tareas de visión

Originalmente, el modelo de lenguaje de visión GPT-4o sólo podía ajustarse y personalizarse utilizando conjuntos de datos de sólo texto. Ahora, con el lanzamiento de la API de ajuste fino de visión, los desarrolladores pueden entrenar y personalizar GPT-4o utilizando conjuntos de datos de imágenes. Desde su lanzamiento, el ajuste fino de la visión se ha convertido en un tema de gran interés entre desarrolladores e ingenieros de visión por ordenador.

Para afinar las capacidades de visión de GPT-4o, los desarrolladores pueden utilizar conjuntos de datos de imágenes que van desde unas 100 imágenes hasta 50.000 imágenes. Después de asegurarse de que el conjunto de datos coincide con el formato requerido por OpenAI, puede cargarse en la plataforma Openai, y el modelo puede ajustarse para aplicaciones específicas.

Por ejemplo, Automat, una empresa de automatización, utilizó un conjunto de datos de capturas de pantalla para entrenar a GPT-4o para que fuera capaz de identificar elementos de interfaz de usuario en una pantalla basándose en una descripción. Esto ayuda a agilizar la Automatización Robótica de Procesos (RPA), facilitando a los robots la interacción con las interfaces de usuario. En lugar de basarse en coordenadas fijas o en complejas reglas de selección, el modelo puede identificar elementos de la interfaz de usuario basándose en descripciones sencillas, lo que hace que las configuraciones de automatización sean más adaptables y fáciles de mantener cuando cambian las interfaces.

‍

ChatGPT equidad y detección de sesgos

Las preocupaciones éticas en torno a las aplicaciones de IA son un tema de conversación destacado a medida que la IA se vuelve más y más avanzada. Dado que las respuestas de ChatGPTse basan en las indicaciones del usuario y en los datos disponibles en Internet, puede resultar difícil ajustar su lenguaje para que sea responsable en todo momento. Los informes afirman que las respuestas deChatGPTson sesgadas en cuanto a nombre, sexo y raza. Para solucionar este problema, el equipo interno de OpenAI realizó una prueba de imparcialidad en primera persona.

Los nombres a menudo conllevan pistas sutiles sobre nuestra cultura y factores geográficos. En la mayoría de los casos, ChatGPT ignorará las pistas sutiles de los nombres. Sin embargo, en algunos casos, los nombres que reflejan la raza o la cultura provocan respuestas diferentes de ChatGPT, y alrededor del 1% de ellas reflejan un lenguaje perjudicial. Eliminar los sesgos y el lenguaje nocivo es una tarea difícil para un modelo lingüístico. Sin embargo, al compartir públicamente estos resultados y reconocer las limitaciones del modelo, OpenAI ayuda a los usuarios a refinar sus indicaciones para conseguir respuestas más neutrales e imparciales.

‍

Comprender la búsqueda ChatGPT

Cuando se lanzó por primera vez ChatGPT , hubo debates en la comunidad de IA sobre si podría sustituir a la navegación web tradicional. Ahora, muchos usuarios utilizan ChatGPT en lugar de Google Búsqueda.

La nueva actualización de OpenAI, la función Buscar, lleva esto un paso más allá. Con la Búsqueda, ChatGPT genera respuestas actualizadas e incluye enlaces a fuentes relevantes. Desde el 31 de octubre, la función Buscar está disponible para todos los usuarios de ChatGPT Plus y Team, haciendo que ChatGPT funcione más como un motor de búsqueda potenciado por IA.

‍

El camino por recorrer

ChatGPTse centran en hacer que la IA sea más útil, flexible y justa. La nueva función Lienzo ayuda a los usuarios a trabajar de forma más eficiente, mientras que el ajuste de la visión permite a los desarrolladores personalizar los modelos para manejar mejor las tareas visuales. Abordar la equidad y reducir los prejuicios también son prioridades clave, para garantizar que la IA funcione bien para todos, independientemente de quiénes sean. Tanto si eres un desarrollador que afina modelos como si simplemente utilizas las últimas funciones, ChatGPT está evolucionando para satisfacer una amplia gama de necesidades. Con capacidades en tiempo real, integración visual y un enfoque en el uso responsable, estas actualizaciones construyen una experiencia de IA más fiable y digna de confianza para todos.

Explora más sobre la IA visitando nuestro repositorio de GitHub y uniéndote a nuestra comunidad. Obtén más información sobre las aplicaciones de la IA en la conducción autónoma y la asistencia sanitaria.

Las últimas actualizaciones de OpenAI: Canvas, Vision Fine-Tuning y más

Visión general de la función canvas de OpenAI