Contrôle vert
Lien copié dans le presse-papiers

Une plongée en profondeur dans les capacités du GPT-4o Mini d'OpenAI

Explore les caractéristiques et les applications du GPT-4o Mini. Le dernier modèle d'OpenAI, le plus rentable, offre des capacités d'IA avancées à un prix 60 % inférieur à celui du GPT-3.5 Turbo.

En mai 2024, OpenAI a publié GPT-4o, et maintenant, à peine trois mois plus tard, ils sont de retour avec un autre modèle impressionnant : GPT-4o Mini. Le 18 juillet 2024, OpenAI a présenté GPT-4o Mini. Ils l'appellent leur "modèle le plus rentable" ! GPT-4o Mini est un modèle compact qui s'appuie sur les capacités des modèles précédents et vise à rendre l'IA avancée plus accessible et abordable.

GPT-4o Mini prend actuellement en charge les interactions textuelles et visuelles, et de futures mises à jour devraient permettre d'ajouter des capacités de traitement des images, des vidéos et de l'audio. Dans cet article, nous allons explorer ce qu'est GPT-4o Mini, ses caractéristiques principales, comment il peut être utilisé, les différences entre GPT-4 et GPT-4o Mini, et comment il peut être utilisé dans divers cas d'utilisation de la vision par ordinateur. Plongeons dans cet article et voyons ce que GPT-4o Mini a à offrir !

Qu'est-ce que GPT-4o Mini ?

GPT-4o Mini est le dernier né de la gamme de modèles d'IA d'OpenAI, conçu pour être plus rentable et plus accessible. C'est un modèle de grand langage multimodal (LLM), ce qui signifie qu'il peut traiter et générer différents types de données, comme du texte, des images, des vidéos et de l'audio. Le modèle s'appuie sur les forces des modèles précédents comme le GPT-4 et le GPT-4o pour offrir des capacités puissantes dans un ensemble compact. 

GPT-4o Mini est 60 % moins cher que GPT-3.5 Turbo, coûtant 15 cents par million de jetons d'entrée (unités de texte ou de données que le modèle traite) et 60 cents par million de jetons de sortie (unités que le modèle génère en réponse). Pour mettre cela en perspective, un million de jetons équivaut à peu près au traitement de 2 500 pages de texte. Avec une fenêtre contextuelle de 128 000 jetons et la possibilité de traiter jusqu'à 16 000 jetons de sortie par demande, GPT-4o Mini est conçu pour être à la fois efficace et abordable.

Fig 1. GPT-4o Mini est 60 % moins cher que GPT-3.5 Turbo.

Caractéristiques principales de GPT-4o Mini 

GPT-4o Mini prend en charge un éventail de tâches qui en font une excellente option pour diverses applications. Il peut être utilisé lors de l'exécution de plusieurs opérations à la fois, comme l'appel de plusieurs API, le traitement de grandes quantités de données comme des bases de code complètes ou des historiques de conversation, et la fourniture de réponses rapides et en temps réel dans les chatbots d'assistance à la clientèle.

Voici quelques autres caractéristiques clés :

  • Mise à jour de la base de connaissances : Le modèle contient des informations jusqu'en octobre 2023.
  • Tokenizer amélioré : GPT-4o Mini rend le traitement des textes nonEnglish plus rentable.
  • Des mesures de sécurité robustes : Ces mesures comprennent le filtrage des contenus nuisibles et la protection contre les problèmes de sécurité tels que les injections rapides et les manipulations du système.

Démarrer avec GPT-4o Mini 

Tu peux essayer d'utiliser GPT-4o Mini via l'interface ChatGPT . Il est accessible aux utilisateurs Free, Plus et Team, et remplace GPT-3.5 comme indiqué ci-dessous. Les utilisateurs en entreprise y auront également accès prochainement, conformément à l'objectif d'OpenAI de faire bénéficier tout le monde des avantages de l'IA. GPT-4o Mini est également disponible via l'API pour les développeurs qui souhaitent intégrer ses capacités dans leurs applications. Pour l'instant, les capacités de vision ne sont accessibles que par le biais de l'API.

Fig 2. Options des modèles sur ChatGPT.

La différence entre GPT-4o et GPT-4o Mini 

GPT-4o Mini et GPT-4o affichent tous deux des performances impressionnantes dans divers tests de référence. Bien que GPT-4o soit généralement plus performant que GPT-4o Mini, GPT-4o Mini reste une solution rentable pour les tâches quotidiennes. Les points de référence comprennent des tâches de raisonnement, la maîtrise des mathématiques et du codage, et le raisonnement multimodal. Comme le montre l'image ci-dessous, GPT-4o Mini obtient des résultats assez élevés par rapport à d'autres modèles populaires.

Fig 3. Comparaison du GPT-4o Mini avec d'autres modèles populaires.

Mise en pratique de GPT-4o et GPT-4o Mini

Une question intéressante qui a fait l'objet d'un débat en ligne concerne les LLM populaires qui comparent des nombres décimaux de façon incorrecte. Lorsque nous avons mis GPT-4o et GPT-4o Mini à l'épreuve, leurs capacités de raisonnement ont montré de nettes différences. Dans l'image ci-dessous, nous avons demandé aux deux modèles lequel est le plus grand : 9,11 ou 9,9, puis nous leur avons demandé d'expliquer leur raisonnement.

Fig 4. Test du GPT-4o et du GPT-4o Mini.

Les deux modèles répondent d'abord incorrectement et affirment que 9,11 est plus grand. Cependant, le modèle GPT-4o est capable de raisonner pour trouver la bonne réponse et affirme que 9,9 est plus grand. Il fournit une explication détaillée et compare les décimales avec précision. En revanche, GPT-4o Mini s'obstine à maintenir sa mauvaise réponse initiale bien qu'il ait correctement compris le raisonnement qui fait que 9,9 est plus grand.

Les deux modèles font preuve de solides capacités de raisonnement. La capacité de GPT-4o à se corriger lui-même le rend supérieur et utile pour les tâches plus complexes. GPT-4o Mini, bien que moins adaptable, offre tout de même un raisonnement clair et précis pour les tâches plus simples. 

Utilisation de GPT-4o Mini pour divers cas d'utilisation de la vision par ordinateur

Si tu préfères explorer les capacités de vision de GPT-4o Mini sans te plonger dans le code, tu peux facilement tester l'API sur le terrain de jeu OpenAI. Nous l'avons essayé nous-mêmes pour voir à quel point GPT-4o Mini est capable de gérer divers cas d'utilisation liés à la vision par ordinateur.

Classification d'images à l'aide de GPT-4o Mini

Nous avons demandé à GPT-4o Mini de classer deux images: celle d'un papillon et celle d'une carte. Le modèle d'IA a réussi à identifier le papillon et la carte. Il s'agit d'une tâche assez simple étant donné que les images sont très différentes.

Fig 5. Classification des images à l'aide de GPT-4o Mini.

Nous avons ensuite passé deux autres images dans le modèle : l'une montrant un papillon posé sur une plante et l'autre montrant un papillon posé sur le sol. L'IA a encore fait un excellent travail, repérant correctement le papillon sur la plante et celui sur le sol. Nous sommes donc allés un peu plus loin.

Fig 6. Classification d'images similaires à l'aide de GPT-4o Mini.

Nous avons ensuite demandé à GPT-4o Mini de classer deux images : l'une montrant un papillon se nourrissant des fleurs d'une asclépiade des marais et l'autre montrant un papillon se nourrissant d'une fleur de Zinnia. Il est étonnant que le modèle ait pu classer une étiquette aussi spécifique sans autre précision. Ces exemples rapides montrent que GPT-4o Mini pourrait éventuellement être utilisé pour des tâches de classification d'images sans nécessiter d'entraînement personnalisé.

Fig 7. Classification d'images détaillées à l'aide de GPT-4o Mini.

Comprendre les poses à l'aide de GPT-4o Mini

Pour l'instant, les tâches de vision artificielle telles que la détection d'objets et la segmentation d'instances ne peuvent pas être traitées avec GPT-4o Mini. GPT-4o a du mal à être précis, mais il peut être utilisé pour de telles tâches. Dans le même ordre d'idées, en ce qui concerne la compréhension des poses, nous ne pouvons pas détecter ou estimer la pose dans l'image, mais nous pouvons classer et comprendre la pose.

Fig 8. Utilisation de GPT-4o Mini pour comprendre les poses dans une image. 

L'image ci-dessus montre comment GPT-4o Mini peut classer et comprendre les poses, bien qu'il ne soit pas capable de détecter ou d'estimer les coordonnées précises de la pose. Cela peut être utile dans différentes applications. Par exemple, dans le domaine de l'analyse sportive, il peut évaluer de manière générale les mouvements des athlètes et aider à prévenir les blessures. De même, en thérapie physique, il peut aider à surveiller les exercices pour s'assurer que les mouvements corrects sont effectués par les patients pendant la rééducation. De même, pour la surveillance, il peut aider à identifier les activités suspectes en analysant le langage corporel général. Bien que le GPT-4o Mini ne puisse pas détecter des points clés spécifiques, sa capacité à classer les poses générales le rend utile dans ces domaines et dans d'autres.

Applications pour lesquelles GPT-4o Mini est adapté

Nous avons vu ce que GPT-4o Mini peut faire. Maintenant, discutons des applications pour lesquelles il est le plus optimal d'utiliser GPT-4o Mini.

GPT-4o Mini est parfait pour les applications qui nécessitent une compréhension avancée du langage naturel et qui ont besoin d'une petite empreinte informatique. Il permet d'intégrer l'IA dans des applications où elle serait normalement trop coûteuse. En fait, une analyse détaillée réalisée par Artificial Analysis montre que GPT-4o Mini fournit des réponses de haute qualité à des vitesses fulgurantes par rapport à la plupart des autres modèles.

Fig 9. Qualité en fonction de la vitesse de sortie du GPT-4o Mini.

Voici quelques domaines clés dans lesquels il pourrait briller à l'avenir :

  • Assistants virtuels et chatbots : GPT-4o Mini peut fournir des réponses rapides et intelligentes pour améliorer les interactions avec les utilisateurs.
  • Outils éducatifs : Le modèle peut être utilisé pour construire des outils permettant d'offrir un tutorat personnalisé et de générer du contenu.
  • Outils de productivité : Il peut améliorer des tâches comme le résumé de documents, la rédaction de courriels et la traduction de langues pour augmenter l'efficacité.
  • Traduction linguistique : La dernière version de GPT peut être utilisée pour développer des traducteurs qui fournissent une traduction linguistique précise et en temps réel pour une meilleure communication à travers différentes langues.

GPT-4o Mini ouvre de nouvelles portes

GPT-4o Mini crée de nouvelles opportunités pour l'avenir de l'IA multimodale. Les dépenses liées au traitement de chaque texte ou donnée, connues sous le nom de coût par jeton, ont considérablement diminué - de près de 99 % - depuis 2022, date à laquelle text-davinci-003, le modèle GPT-3, a été mis sur le marché. La diminution du coût montre une tendance claire à rendre l'IA avancée plus abordable. À mesure que les modèles d'IA continuent de s'améliorer, il est de plus en plus probable que l'intégration de l'IA dans chaque application et chaque site Web sera économiquement viable !

Tu veux mettre la main à la pâte avec l'IA ? Visite notre dépôt GitHub pour voir nos innovations et faire partie de notre communauté active. Découvre les applications de l'IA dans les secteurs de la fabrication et de l'agriculture sur nos pages de solutions.

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.