Verificação verde
Link copiado para a área de transferência

O GPT-4o da OpenAI mostra o potencial da IA

Explora o novo GPT-4o da OpenAI, que inclui IA avançada com interações realistas que mudam a forma como comunicamos com a tecnologia. Explora as suas caraterísticas inovadoras!

Na segunda-feira, 13 de maio de 2024, a OpenAI anunciou o lançamento do seu novo modelo principal, GPT-4o, em que o "o" significa "omni". O GPT-4o é um modelo avançado de IA multimodal para interações em tempo real de texto, áudio e visão, oferecendo processamento mais rápido, suporte multilíngue e segurança aprimorada.

Traz para a mesa capacidades de IA generativa nunca antes vistas. Com base nos pontos fortes de conversação do ChatGPT, as funcionalidades do GPT-4o marcam um passo em frente substancial na forma como as pessoas encaram a IA. Agora podemos falar com o GPT-4o como se fosse uma pessoa real. Vamos mergulhar e ver exatamente do que o GPT-4o é capaz!

Conhecer o GPT-4o

Na atualização de primavera da OpenAI, foi revelado que, embora o GPT-4o seja tão inteligente como o GPT-4, consegue processar dados mais rapidamente e está melhor equipado para lidar com texto, visão e áudio. Ao contrário de versões anteriores que se concentraram em tornar os modelos mais inteligentes, esta versão foi feita tendo em conta a necessidade de tornar a IA mais fácil de utilizar pelo público em geral. 

Figura 1. Atualização da primavera da OpenAI

ChatGPTO modo de voz da Apple, que foi lançado no final do ano passado, envolvia três modelos diferentes que se juntavam para transcrever entradas vocais, compreender e gerar respostas escritas e converter texto em voz para que o utilizador pudesse ouvir uma resposta. Este modo tinha problemas de latência e não parecia muito natural. O GPT-4o pode processar nativamente texto, visão e áudio de uma só vez para dar ao utilizador a impressão de que está a participar numa conversa natural. 

Além disso, ao contrário do modo de voz, agora podes interromper o GPT-4o enquanto ele está a falar, e ele reagirá tal como uma pessoa faria. Faz uma pausa e ouve, e depois dá a sua resposta em tempo real com base no que disseste. Também pode expressar emoções através da sua voz e compreender o teu tom. 

Características interessantes do GPT-4o

A avaliação do modelo do GPT-4o mostra o quão avançado ele é. Um dos resultados mais interessantes encontrados foi que o GPT-4o melhora muito o reconhecimento da fala em comparação com o Whisper-v3 em todas as línguas, especialmente naquelas que são menos utilizadas. 

O desempenho do ASR (Reconhecimento Automático de Fala) de áudio mede a precisão com que um modelo transcreve a linguagem falada para texto. O desempenho do GPT-4o é monitorizado pela Taxa de Erro de Palavras (WER), que mostra a percentagem de palavras incorretamente transcritas (WER inferior significa melhor qualidade). O gráfico abaixo mostra o WER mais baixo do GPT-4o em várias regiões, demonstrando a sua eficácia na melhoria do reconhecimento de voz para línguas com menos recursos.

Fig. 2. O GPT-4o tem um reconhecimento de voz superior em várias línguas.

Vê aqui mais algumas das características únicas do GPT-4o:

  • Mais rápido - É duas vezes mais rápido do que o GPT-4 Turbo. Consegue responder a entradas de áudio em apenas 232 milissegundos, semelhante aos tempos de resposta de conversas humanas.
  • Rentável - A versão API do GPT-4o é 50% mais barata do que o GPT-4 Turbo.
  • Memória - O GPT-4o tem a capacidade de manter a consciência em diferentes conversas. Consegue lembrar-se do que estás a falar em diferentes conversas.
  • Multilingue - O GPT-4o foi treinado para melhorar a velocidade e a qualidade em 50 línguas diferentes.

Exemplos do que o GPT-4o pode fazer

Agora podes usar o GPT-4o no teu telemóvel, ligar a câmara e pedir ao GPT-4o, tal como farias a um amigo, para adivinhar o teu estado de espírito com base na tua expressão facial. O GPT-4o pode ver-te através da câmara e responder.

Fig. 3. GPT-4o compreender o estado de espírito de um ser humano através de vídeo.

Podes até utilizá-lo para te ajudar a resolver problemas de matemática, mostrando ao GPT-4o o que estás a escrever através de vídeo. Em alternativa, podes partilhar o teu ecrã, e ele pode tornar-se um tutor útil na Khan Academy, pedindo-te para apontares as diferentes partes de um triângulo em geometria, como se mostra abaixo.

Fig. 4. GPT-4o actuando como tutor na Khan Academy.

Para além de ajudar as crianças com a matemática, os programadores podem ter conversas com o GPT-4o para depurar o seu código. Isto é possível graças à introdução de ChatGPT como uma aplicação de ambiente de trabalho. Se realçares e copiares o teu código utilizando CTRL "C" enquanto falas com a aplicação de voz GPT-4o para ambiente de trabalho, esta será capaz de ler o teu código. Ou podes usá-lo para traduzir conversas entre programadores que falam línguas diferentes. 

As possibilidades com o GPt-4o parecem infinitas. Uma das demonstrações mais interessantes da OpenAI usou dois telemóveis para mostrar o GPt-4o a falar com diferentes instâncias de si próprio e a cantar em conjunto.

Fig. 5. A IA a falar e a cantar com a IA.

Aplicações GPT-4o

Como demonstrado numa demonstração, o GPT-4o pode tornar o mundo mais acessível para pessoas com deficiências visuais. Pode ajudá-las a interagir e a deslocarem-se de forma mais segura e independente. Por exemplo, os utilizadores podem ligar o seu vídeo e mostrar ao GPT-4o uma vista da rua. O GPT-4o pode então fornecer descrições em tempo real do ambiente, como a identificação de obstáculos, a leitura de sinais de trânsito ou a orientação para um local específico. Pode até ajudar a chamar um táxi, alertando-o quando um táxi se aproxima.

Fig. 6. GPT-4o alerta para a aproximação de um táxi.

Da mesma forma, a GPT-4o pode transformar vários sectores com as suas capacidades avançadas. No comércio a retalho, pode melhorar o serviço ao cliente, fornecendo assistência em tempo real, respondendo a perguntas e ajudando os clientes a encontrar produtos tanto online como na loja. Digamos que estás a olhar para uma prateleira de produtos e não consegues escolher o produto que procuras, o GPT-4o pode ajudar-te. 

Na área da saúde, o GPT-4o pode ajudar no diagnóstico, analisando os dados do paciente, sugerindo possíveis condições com base nos sintomas e oferecendo orientação sobre as opções de tratamento. Também pode apoiar os profissionais médicos resumindo os registos dos pacientes, fornecendo acesso rápido à literatura médica e até mesmo oferecendo tradução de idiomas em tempo real para comunicar com pacientes que falam idiomas diferentes. Estes são apenas alguns exemplos. As aplicações da GPT-4o facilitam a vida quotidiana, oferecendo uma assistência adaptada e contextualizada e eliminando as barreiras à informação e à comunicação.

GPT-4o e modelo de segurança

Tal como as versões anteriores do GPT, que tiveram impacto em centenas de milhões de vidas, o GPT-4o irá provavelmente interagir com áudio e vídeo em tempo real a nível global, tornando a segurança um elemento crucial nestas aplicações. A OpenAI teve o cuidado de construir o GPT-4o com o objetivo de mitigar os riscos potenciais.

Para garantir a segurança e a fiabilidade, a OpenAI implementou medidas de segurança rigorosas. Estas incluem a filtragem dos dados de treino, o refinamento do comportamento do modelo após o treino e a incorporação de novos sistemas de segurança para gerir as saídas de voz. Além disso, o GPT-4o foi extensivamente testado por mais de 70 especialistas externos em áreas como a psicologia social, parcialidade e justiça, e desinformação. Os testes externos garantem que todos os riscos introduzidos ou ampliados pelas novas funcionalidades são identificados e tratados.

Para manter elevados padrões de segurança, a OpenAI está a lançar as funcionalidades do GPT-4o gradualmente ao longo das próximas semanas. Um lançamento faseado permite à OpenAI monitorizar o desempenho, resolver quaisquer problemas e recolher feedback dos utilizadores. A abordagem cuidadosa garante que o GPT-4o ofereça recursos avançados, mantendo os mais altos padrões de segurança e uso ético.

Experimenta tu mesmo o GPT-4o

O GPT-4o está disponível para acesso gratuito. Para experimentar as capacidades de conversação em tempo real mencionadas acima, podes transferir a aplicaçãoChatGPT a partir da Google Play Store ou da Apple App Store diretamente para o teu telemóvel. 

Depois de iniciares a sessão, poderás selecionar o GPT-4o na lista apresentada tocando nos três pontos no canto superior direito do ecrã. Depois de navegares para um chat ativado com GPT-4o, se tocares no sinal de mais no canto inferior esquerdo do ecrã, verás várias opções de entrada. No canto inferior direito do ecrã, verás um ícone de auscultadores. Ao selecionar o ícone dos auscultadores, ser-te-á perguntado se queres experimentar uma versão mãos-livres do GPT-4o. Depois de concordar, poderás experimentar o GPT-4o, como mostrado abaixo.

Fig. 7. Experimenta o GPT-4o na aplicação móvel ChatGPT .

Se quiseres integrar as capacidades avançadas do GPT-4o nos teus próprios projectos, ele está disponível como uma API para programadores. Permite-te incorporar o poderoso reconhecimento de voz do GPT-4o, o suporte multilingue e as capacidades de conversação em tempo real nas tuas aplicações. Ao utilizar a API, podes melhorar as experiências do utilizador, criar aplicações mais inteligentes e levar a tecnologia de IA de ponta a diferentes sectores.

GPT-4o: Ainda não és totalmente humano

Embora o GPT-4o seja muito mais avançado do que os modelos anteriores de IA, é importante lembrar que o GPT-4o tem as suas próprias limitações. A OpenAI mencionou que, por vezes, pode mudar aleatoriamente de língua enquanto fala, passando de English para francês. Também já viram o GPT-4o traduzir incorretamente entre línguas. À medida que mais pessoas experimentarem o modelo, perceberemos onde o GPT-4o se destaca e o que precisa de ser melhorado.

A linha de fundo

O GPT-4o da OpenAI abre novas portas para a IA com o seu processamento avançado de texto, visão e áudio, oferecendo interacções naturais e semelhantes às humanas. Destaca-se em termos de velocidade, eficiência de custos e suporte multilingue. O GPT-4o é uma ferramenta versátil para a educação, acessibilidade e assistência em tempo real. À medida que os utilizadores exploram as capacidades do GPT-4o, o feedback irá impulsionar a sua evolução. O GPT-4o prova que a IA está realmente a mudar o nosso mundo e a tornar-se parte das nossas vidas diárias. 

Explora o nosso repositório GitHub e junta-te à nossa comunidade para mergulhares mais fundo na IA. Visita as nossas páginas de soluções para veres como a IA está a transformar indústrias como o fabrico e a agricultura.

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática