Explora as funcionalidades e aplicações do GPT-4o Mini. O modelo mais recente e económico da OpenAI oferece capacidades avançadas de IA a um preço 60% mais baixo do que o GPT-3.5 Turbo.
Em maio de 2024, a OpenAI lançou o GPT-4o, e agora, apenas três meses depois, está de volta com outro modelo impressionante: GPT-4o Mini. No dia 18 de julho de 2024, a OpenAI apresentou o GPT-4o Mini. Chama-lhe o seu "modelo mais rentável"! O GPT-4o Mini é um modelo compacto que se baseia nas capacidades dos modelos anteriores e tem como objetivo tornar a IA avançada mais acessível e económica.
O GPT-4o Mini suporta atualmente interacções de texto e visão, esperando-se que futuras actualizações adicionem capacidades para lidar com imagens, vídeos e áudio. Neste artigo, vamos explorar o que é o GPT-4o Mini, as suas características de destaque, como pode ser utilizado, as diferenças entre o GPT-4 e o GPT-4o Mini e como pode ser utilizado em vários casos de utilização de visão computacional. Vamos mergulhar e ver o que o GPT-4o Mini tem para oferecer!
O GPT-4o Mini é a mais recente adição à linha de modelos de IA da OpenAI, concebida para ser mais económica e acessível. É um modelo multimodal de linguagem grande (LLM), o que significa que pode processar e gerar diferentes tipos de dados, como texto, imagens, vídeos e áudio. O modelo baseia-se nos pontos fortes dos modelos anteriores, como o GPT-4 e o GPT-4o, para oferecer capacidades poderosas num pacote compacto.
O GPT-4o Mini é 60% mais barato que o GPT-3.5 Turbo, custando 15 cêntimos por milhão de tokens de entrada (unidades de texto ou dados que o modelo processa) e 60 cêntimos por milhão de tokens de saída (unidades que o modelo gera em resposta). Para colocar isso em perspetiva, um milhão de tokens é aproximadamente equivalente ao processamento de 2.500 páginas de texto. Com uma janela de contexto de 128K tokens e a capacidade de processar até 16K tokens de saída por pedido, o GPT-4o Mini foi concebido para ser eficiente e económico.
O GPT-4o Mini suporta uma série de tarefas que o tornam uma óptima opção para várias aplicações. Pode ser utilizado para executar várias operações ao mesmo tempo, como chamar várias APIs, lidar com grandes quantidades de dados, como bases de código completas ou históricos de conversas, e fornecer respostas rápidas e em tempo real em chatbots de apoio ao cliente.
Eis algumas outras características importantes:
Podes tentar utilizar o GPT-4o Mini através da interface ChatGPT . Está acessível aos utilizadores Free, Plus e Team, substituindo o GPT-3.5, como se mostra abaixo. Os utilizadores empresariais também terão acesso em breve, em linha com o objetivo da OpenAI de proporcionar benefícios de IA a todos. O GPT-4o Mini também está disponível através da API para programadores que queiram integrar as suas capacidades nas suas aplicações. De momento, as capacidades de visão só estão acessíveis através da API.
Tanto o GPT-4o Mini como o GPT-4o têm um desempenho impressionante em vários benchmarks. Embora o GPT-4o geralmente supere o GPT-4o Mini, o GPT-4o Mini continua a ser uma solução económica para as tarefas diárias. Os testes de referência incluem tarefas de raciocínio, proficiência em matemática e codificação, e raciocínio multimodal. Como mostra a imagem abaixo, o GPT-4o Mini tem um desempenho bastante elevado quando comparado com outros modelos populares.
Uma questão interessante que tem sido debatida online envolve LLMs populares que comparam números decimais incorretamente. Quando pusemos à prova o GPT-4o e o GPT-4o Mini, as suas capacidades de raciocínio mostraram diferenças claras. Na imagem abaixo, perguntámos a ambos os modelos qual é o maior: 9,11 ou 9,9, e pedimos-lhes que explicassem o seu raciocínio.
Ambos os modelos respondem inicialmente de forma incorrecta e afirmam que 9,11 é maior. No entanto, o GPT-4o é capaz de raciocinar para chegar à resposta correcta e afirma que 9,9 é maior. Apresenta uma explicação detalhada e compara os decimais com precisão. Em contraste, o GPT-4o Mini mantém obstinadamente a sua resposta errada inicial, apesar de ter descoberto corretamente o raciocínio por detrás de 9,9 ser maior.
Ambos os modelos demonstram uma forte capacidade de raciocínio. A capacidade do GPT-4o de se corrigir a si próprio torna-o superior e útil para tarefas mais complexas. O GPT-4o Mini, embora menos adaptável, ainda oferece um raciocínio claro e preciso para tarefas mais simples.
Se preferires explorar as capacidades de visão do GPT-4o Mini sem mergulhar no código, podes facilmente testar a API no OpenAI Playground. Nós próprios experimentámos para ver como o GPT-4o Mini é capaz de lidar com vários casos de utilização relacionados com a visão computacional.
Pedimos ao GPT-4o Mini para classificar duas imagens: uma de uma borboleta e outra de um mapa. O modelo de IA identificou com sucesso a borboleta e o mapa. Esta é uma tarefa bastante simples, uma vez que as imagens são muito diferentes.
Passámos mais duas imagens pelo modelo: uma que mostrava uma borboleta pousada numa planta e outra que mostrava uma borboleta pousada no chão. A IA voltou a fazer um excelente trabalho, identificando corretamente a borboleta na planta e a borboleta no chão. Por isso, avançámos mais um passo.
Em seguida, pedimos ao GPT-4o Mini para classificar duas imagens: uma que mostrava uma borboleta a alimentar-se nas flores de uma erva-leiteira do pântano e outra que mostrava uma borboleta a alimentar-se numa flor de Zinnia. É espantoso que o modelo tenha sido capaz de classificar um rótulo tão específico sem mais ajustes. Estes exemplos rápidos mostram que o GPT-4o Mini pode ser utilizado para tarefas de classificação de imagens sem necessitar de formação personalizada.
Atualmente, as tarefas de visão por computador, como a deteção de objectos e a segmentação de instâncias, não podem ser realizadas com o GPT-4o Mini. O GPT-4o luta pela precisão, mas pode ser usado para essas tarefas. Nesta linha, no que diz respeito à compreensão de poses, não podemos detetar ou estimar a pose na imagem, mas podemos classificar e compreender a pose.
A imagem acima mostra como o GPT-4o Mini pode classificar e compreender poses, apesar de não ser capaz de detetar ou estimar as coordenadas precisas da pose. Isto pode ser útil em diferentes aplicações. Por exemplo, na análise desportiva, pode avaliar amplamente os movimentos dos atletas e ajudar a prevenir lesões. Da mesma forma, na fisioterapia, pode ajudar a monitorizar exercícios para garantir que os pacientes fazem os movimentos correctos durante a reabilitação. Também para a vigilância, pode ajudar a identificar actividades suspeitas através da análise da linguagem corporal geral. Embora o GPT-4o Mini não consiga detetar pontos-chave específicos, a sua capacidade de classificar poses gerais torna-o útil nestes e noutros campos.
Já viste o que o GPT-4o Mini pode fazer. Agora, vamos discutir as aplicações onde é melhor usar o GPT-4o Mini.
O GPT-4o Mini é ótimo para aplicações que requerem uma compreensão avançada da linguagem natural e necessitam de uma pequena pegada computacional. Torna possível integrar a IA em aplicações onde normalmente seria demasiado dispendiosa. De facto, uma análise detalhada da Artificial Analysis mostra que o GPT-4o Mini fornece respostas de alta qualidade a velocidades extremamente rápidas em comparação com a maioria dos outros modelos.
Eis algumas áreas-chave onde poderá brilhar no futuro:
O GPT-4o Mini está a criar novas oportunidades para o futuro da IA multimodal. O custo de processamento de cada texto ou dado, conhecido como custo por token, diminuiu substancialmente - em quase 99% - desde 2022, quando o text-davinci-003, o modelo GPT-3, foi lançado. A diminuição do custo mostra uma clara tendência para tornar a IA avançada mais acessível. À medida que os modelos de IA continuam a melhorar, é cada vez mais provável que a integração da IA em todas as aplicações e sítios Web seja economicamente viável!
Queres pôr mãos à obra com a IA? Visita o nosso repositório GitHub para veres as nossas inovações e fazeres parte da nossa comunidade ativa. Descobre mais sobre aplicações de IA no fabrico e na agricultura nas nossas páginas de soluções.
Começa a tua viagem com o futuro da aprendizagem automática