As últimas actualizações da OpenAI: Canvas, afinação da visão e muito mais

Junta-te a nós para vermos mais de perto as recentes actualizações do ChatGPT lançadas pela OpenAI. Exploraremos o Canvas, o ajuste fino das capacidades de visão e a mais recente funcionalidade de Pesquisa.

Escrito por

Abirami Vina

min ler

7 de novembro de 2024

13 de abril de 2025

Uma visão geral da funcionalidade de ecrã da OpenAI

Actualizações da API do ChatGPT

Modelo de destilação

Cache de prompts

API em tempo real

Aperfeiçoa ChatGPT para tarefas de visão

Deteção de parcialidade e equidade ChatGPT

Compreender a pesquisa ChatGPT

O caminho a seguir

Depois de termos analisado pela última vez os modelos o1 da OpenAI em setembro (que foram concebidos para melhorar o raciocínio), foram adicionadas muitas funcionalidades novas e interessantes a ChatGPT. Alguns destes lançamentos são orientados para os programadores e outros são concebidos para aperfeiçoar a experiência do utilizador. No geral, cada atualização ajuda a tornar as interações com ChatGPT mais intuitivas e eficazes.

Actualizações como o Canvas, concebido para escrita e codificação colaborativas, e o ajuste fino das capacidades de visão, que melhora a forma como o ChatGPT trabalha com imagens, despertaram muito interesse, encorajando os utilizadores a explorar mais possibilidades criativas. Entretanto, as actualizações técnicas, como as novas API e os relatórios de testes de imparcialidade, abordam aspectos como a integração de modelos e as práticas éticas de IA . Vamos mergulhar e compreender melhor as mais recentes funcionalidades do ChatGPT da OpenAI!

Uma visão geral da funcionalidade de ecrã da OpenAI

O Canvas é a primeira grande atualização da interface de utilizador (IU) do ChatGPTdesde o seu lançamento. Trata-se de uma nova interface com uma disposição em dois ecrãs, com avisos na barra lateral esquerda e respostas na janela do lado direito. A nova IU elimina o fluxo de trabalho habitual de uma estrutura de ecrã único semelhante a um chat e muda para um esquema de dois ecrãs que se adequa a fins multitarefa para aumentar a produtividade.

__wf_reserved_inherit — Figura 1. O Canvas traz actualizações da IU para ChatGPT.

‍

Antes da introdução do Canvas, trabalhar com documentos longos em ChatGPT significava ter que rolar um pouco para cima e para baixo. No novo layout, os avisos são exibidos na barra lateral esquerda e o documento de texto ou trecho de código ocupa a maior parte da tela. Se necessário, podes até personalizar o tamanho da barra lateral esquerda e do ecrã de saída. Além disso, podes selecionar uma parte do texto ou uma secção de código e editar a secção específica sem alterar todo o documento.

‍

Se utilizares o Canvas, vais reparar que não existe um botão específico ou um botão de alternância para o abrir na interface ChatGPT . Em vez disso, quando estás a trabalhar com o modelo GPT-4o, o Canvas abre-se automaticamente se detetar que estás a editar, escrever ou codificar. Para prompts mais simples, permanece inativo. Se quiseres abri-lo manualmente, podes usar prompts como "Abrir o Canvas" ou "Arranja-me o layout do Canvas".

Atualmente, o Canvas está em versão beta e disponível apenas com o GPT-4o. No entanto, a OpenAI mencionou que o Canvas estará disponível para todos os utilizadores gratuitos quando sair da versão beta.

Actualizações da API do ChatGPT

A OpenAI lançou três novas actualizações da API ChatGPT com o objetivo de melhorar a eficiência, a escalabilidade e a versatilidade. Vamos dar uma olhada mais de perto em cada uma dessas atualizações.

Modelo de destilação

Utilizando a funcionalidade Destilação de modelos através das APIs OpenAI, os programadores podem utilizar os resultados de modelos avançados como o GPT-4o ou o1-preview para melhorar o desempenho de modelos mais pequenos e económicos como o GPT-4o mini. A destilação de modelos é um processo que envolve o treinamento de modelos menores para imitar o comportamento de modelos mais avançados, tornando-os mais eficientes para tarefas específicas.

Antes da introdução desta funcionalidade, os programadores tinham de coordenar manualmente uma série de tarefas utilizando diferentes ferramentas. Essas tarefas incluíam a geração de conjuntos de dados, a medição do desempenho do modelo e o ajuste fino dos modelos, o que muitas vezes tornava o processo complexo e propenso a erros. A atualização do Model Distillation permite que os programadores utilizem o Stored Completions, uma ferramenta que lhes permite gerar automaticamente conjuntos de dados, capturando e armazenando os pares de entradas e saídas produzidos por modelos avançados através da API.

Outro recurso do Model Distillation, o Evals (atualmente na versão beta), ajuda a medir o desempenho de um modelo em tarefas específicas, sem a necessidade de criar scripts de avaliação personalizados ou usar ferramentas separadas. Usando conjuntos de dados gerados com o Stored Completions e avaliando o desempenho com o Evals, os desenvolvedores podem ajustar seus próprios modelos GPT personalizados.

‍

Cache de prompts

Muitas vezes, ao criar aplicativos de IA, especialmente chatbots, o mesmo contexto (as informações de fundo ou o histórico de conversas anteriores necessárias para entender a solicitação atual) será usado repetidamente para várias chamadas de API. O Prompt Caching possibilita que os desenvolvedores reutilizem tokens de entrada usados recentemente (segmentos de texto que o modelo processa para entender a solicitação e gerar uma resposta), ajudando a reduzir o custo e a latência.

A partir de 1 de outubro, a OpenAI aplicou automaticamente o Prompt Caching aos seus modelos como o GPT-4o, GPT-4o mini, o1-preview e o1-mini. Isto significa que quando os programadores utilizam a API para interagir com um modelo com um prompt longo (mais de 1024 tokens), o sistema guarda as partes que já processou.

Desta forma, se as mesmas perguntas ou perguntas semelhantes forem usadas novamente, pode saltar o recálculo dessas partes. O sistema coloca automaticamente em cache a parte mais longa do prompt que encontrou anteriormente, começando com 1024 tokens e adicionando pedaços de 128 tokens à medida que o prompt se torna mais longo.

API em tempo real

Criar um assistente de voz geralmente envolve a necessidade de transcrever o áudio para texto, processar o texto e depois convertê-lo novamente em áudio para reproduzir a resposta. A API Realtime da OpenAI tem como objetivo tratar de todo este processo com um único pedido de API. Ao tornar o processo mais simples, a API permite conversas em tempo real com a IA.

Por exemplo, um assistente de voz integrado com a API Realtime pode executar acções específicas, como fazer uma encomenda ou encontrar informações, com base nos pedidos do utilizador. A API torna o assistente de voz mais ágil e capaz de se adaptar rapidamente às necessidades dos utilizadores. A API Realtime ficou disponível através da versão beta pública a 1 de outubro, com seis vozes. No dia 30 de outubro, foram adicionadas mais cinco vozes, perfazendo um total de onze vozes disponíveis.

‍

Aperfeiçoa ChatGPT para tarefas de visão

Originalmente, o modelo de linguagem de visão GPT-4o só podia ser ajustado e personalizado usando conjuntos de dados apenas de texto. Agora, com o lançamento da API de ajuste fino da visão, os programadores podem treinar e personalizar o GPT-4o utilizando conjuntos de dados de imagem. Desde o seu lançamento, o ajuste fino da visão tornou-se um tópico de grande interesse entre os programadores e os engenheiros de visão computacional.

Para afinar as capacidades de visão do GPT-4o, os programadores podem utilizar conjuntos de dados de imagens que vão desde apenas 100 imagens até 50 000 imagens. Depois de garantir que o conjunto de dados corresponde ao formato exigido pela OpenAI, pode ser carregado na plataforma Openai e o modelo pode ser aperfeiçoado para aplicações específicas.

Por exemplo, a Automat, uma empresa de automação, utilizou um conjunto de dados de capturas de ecrã para treinar o GPT-4o para ser capaz de identificar elementos da IU num ecrã com base numa descrição. Isto ajuda a simplificar a automatização de processos robóticos (RPA), facilitando a interação dos bots com as interfaces de utilizador. Em vez de depender de coordenadas fixas ou de regras de seleção complexas, o modelo pode identificar elementos de IU com base em descrições simples, tornando as configurações de automatização mais adaptáveis e mais fáceis de manter quando as interfaces mudam.

‍

Deteção de parcialidade e equidade ChatGPT

As preocupações éticas em torno das aplicações de IA são um tema de conversa proeminente à medida que a IA se torna cada vez mais avançada. Uma vez que as respostas do ChatGPTse baseiam em sugestões fornecidas pelo utilizador e em dados disponíveis na Internet, pode ser difícil ajustar a sua linguagem para ser sempre responsável. Os relatórios afirmam que as respostas doChatGPTsão tendenciosas em termos de nome, género e raça. Para resolver este problema, a equipa interna da OpenAI realizou um teste de imparcialidade na primeira pessoa.

Muitas vezes, os nomes contêm pistas subtis sobre a nossa cultura e factores geográficos. Na maioria dos casos, ChatGPT ignora as pistas subtis dos nomes. No entanto, em alguns casos, os nomes que reflectem a raça ou a cultura dão origem a respostas diferentes em ChatGPT, sendo que cerca de 1% destes reflectem linguagem nociva. Eliminar preconceitos e linguagem nociva é uma tarefa difícil para um modelo linguístico. No entanto, ao partilhar estas descobertas publicamente e ao reconhecer as limitações do modelo, a OpenAI ajuda os utilizadores a aperfeiçoar os seus pedidos para obterem respostas mais neutras e imparciais.

‍

Compreender a pesquisa ChatGPT

Quando o ChatGPT foi lançado pela primeira vez, a comunidade de IA discutiu se ele poderia substituir a navegação tradicional na Web. Atualmente, muitos utilizadores utilizam ChatGPT em vez de Google Search.

A nova atualização do OpenAI, a funcionalidade de Pesquisa, vai mais longe. Com a Pesquisa, o ChatGPT gera respostas actualizadas e inclui ligações para fontes relevantes. A partir de 31 de outubro, a funcionalidade de Pesquisa está disponível para todos os utilizadores do ChatGPT Plus e Team, fazendo com que o ChatGPT funcione mais como um motor de pesquisa alimentado por IA.

‍

O caminho a seguir

ChatGPTcentram-se em tornar a IA mais útil, flexível e justa. A nova funcionalidade Canvas ajuda os utilizadores a trabalhar de forma mais eficiente, enquanto o ajuste fino da visão permite aos programadores personalizar os modelos para lidar melhor com as tarefas visuais. Abordar a equidade e reduzir o preconceito são também prioridades-chave, garantindo que a IA funciona bem para todos, independentemente de quem são. Quer sejas um programador a afinar modelos ou apenas a utilizar as funcionalidades mais recentes, o ChatGPT está a evoluir para satisfazer uma vasta gama de necessidades. Com capacidades em tempo real, integração visual e um enfoque na utilização responsável, estas actualizações criam uma experiência de IA mais fiável e segura para todos.

Explora mais sobre a IA visitando o nosso repositório GitHub e juntando-te à nossa comunidade. Sabe mais sobre as aplicações de IA na condução autónoma e nos cuidados de saúde.

As últimas actualizações da OpenAI: Canvas, afinação da visão e muito mais

Uma visão geral da funcionalidade de ecrã da OpenAI