Contrôle vert
Lien copié dans le presse-papiers

OpenAI o1 : Une nouvelle série de modèles OpenAI pour le raisonnement en IA

Découvre les modèles OpenAI o1 récemment lancés et ce qui les rend spéciaux. Nous jetterons également un coup d'œil à leur fonctionnement et à leur impact sur l'avenir de l'IA.

La communauté de l'IA est en pleine effervescence et spécule sur la prochaine étape des modèles GPT d'OpenAI, que beaucoup appellent "Projet Fraise". La raison en est que si tu demandes à GPT-4o combien de R il y a dans le mot "fraise", il te répondra qu'il y a deux R dans le mot"fraise". Cela peut sembler étrange, compte tenu de la puissance de GPT-4o. Cependant, le modèle est conçu pour traiter le sous-texte, et non les mots exacts. La rumeur veut que le prochain modèle vise à résoudre ce problème. Sam Altman a encore alimenté ces rumeurs en postant des photos de fraises sur son compte X (anciennement connu sous le nom de Twitter).

Avec la dernière annonce d'OpenAI le jeudi 12 septembre, nous avons enfin une réponse aux spéculations ! OpenAI o1, une nouvelle série de modèles d'IA conçus pour ralentir et réfléchir avant de répondre, a été publiée. Il est intéressant de noter qu'OpenAI o1 peut mieux raisonner et répondre correctement à la question sur les fraises ! Dans cet article, nous allons discuter de ce qu'est OpenAI o1, de son fonctionnement, des endroits où il peut être utilisé et de ce qu'il signifie pour l'avenir de l'IA. C'est parti !

Fig 1. Exemple d'invite à l'OpenAI o1 à propos des fraises.

Nouvelles avancées de l'IA par OpenAI

En juillet 2024, les dirigeants d'OpenAI ont partagé le fait que les recherches d'OpenAI s'approchent d'un niveau humain de résolution de problèmes, appelé niveau 2 de l'IA. Il est clair que ce niveau se concentre sur le raisonnement, car OpenAI présente sa nouvelle série de modèles, OpenAI o1, comme réfléchissant avant de répondre. OpenAI o1 est un nouveau LLM (large language model), un modèle d'IA qui comprend et génère des textes de type humain en apprenant des modèles à partir de quantités massives de données linguistiques. Il a été conçu pour traiter des problèmes complexes nécessitant un raisonnement approfondi. 

Fig 2. Le point de vue de l'OpenAI sur les étapes de l'IA.

Le modèle a été formé à l'aide de l'apprentissage par renforcement, une technique où le modèle apprend à prendre de meilleures décisions par essais et erreurs en recevant des récompenses ou des pénalités pour ses actions. L'algorithme d'apprentissage par renforcement aide le modèle à réfléchir plus efficacement en suivant une chaîne de pensée. OpenAI a également partagé le fait que les performances de o1 continuent de s'améliorer avec plus d'apprentissage par renforcement pendant l'entraînement et avec plus de temps passé à "réfléchir" pendant la résolution des problèmes, ce qui montre qu'un entraînement prolongé et un traitement réfléchi aident à stimuler les capacités du modèle.

Bien qu'OpenAI o1 représente une avancée significative pour le raisonnement complexe, il s'agit encore d'un modèle précoce et il lui manque certaines fonctionnalités qui rendent ChatGPT utile, comme la navigation sur le Web ou le téléchargement de fichiers et d'images. Pour de nombreuses tâches courantes, GPT-4o pourrait encore être plus performant pour l'instant. Cependant, OpenAI o1 marque un grand pas en avant dans la capacité de l'IA à gérer le raisonnement complexe, c'est pourquoi OpenAI commence une nouvelle série et l'appelle OpenAI o1.

Comment les nouveaux modèles OpenAI améliorent le raisonnement de l'IA

OpenAI o1 peut être utilisé pour des tâches telles que le décodage de codes chiffrés, la résolution de défis de programmation, la réponse à des problèmes mathématiques, la résolution de mots croisés et même le traitement de sujets complexes dans les domaines de la science, de la sécurité et des soins de santé. Dans un clin d'œil amusant au nom de code du projet, OpenAI a montré les capacités de raisonnement du modèle en déchiffrant un code qui révélait le message "THERE ARE THREE R'S IN STRAWBERRY" (il y a trois R dans fraise). 

Au-delà de la résolution de codes, OpenAI o1 est également doué pour le codage. Il obtient de bons résultats dans les défis de programmation compétitifs comme ceux de Codeforces, une plateforme où les programmeurs résolvent des problèmes de codage complexes dans des conditions chronométrées. Dans ces défis, le modèle obtient des notes Elo élevées (un système de notation qui mesure les niveaux de compétence en fonction des performances par rapport à d'autres concurrents) et surpasse les modèles précédents. Il excelle également en mathématiques et obtient de bons résultats à des examens tels que l'American Invitational Mathematics Examination (AIME). 

Fig 3. Analyse comparative des capacités de codage de o1.

Ces avancées positionnent OpenAI o1 comme une mise à niveau significative par rapport aux modèles précédents tels que GPT-4o. Elle ouvre de nouvelles possibilités pour l'IA dans des domaines tels que les affaires, le développement, la recherche et les soins de santé. Par exemple, dans le domaine de la recherche génétique, OpenAI o1 peut rapidement parcourir un grand nombre d'articles de recherche et en extraire les principaux résultats et les liens entre les marqueurs génétiques et les maladies. Elle comprend le langage scientifique complexe et peut résumer les points importants, aidant ainsi les chercheurs à se concentrer sur les informations les plus pertinentes. 

Un regard plus attentif sur la chaîne de pensée

Nous avons vu précédemment qu'OpenAI o1 introduit un processus de raisonnement par "chaîne de pensée". Il permet au modèle de s'attaquer à des problèmes complexes d'une manière similaire aux stratégies cognitives humaines. Le modèle peut décomposer les défis en étapes plus petites et gérables et affiner son approche de manière itérative. Contrairement aux modèles précédents qui s'appuyaient sur une reconnaissance immédiate des formes, o1 optimise sa prise de décision en explorant plusieurs voies de raisonnement, en tirant des leçons de ses succès et de ses erreurs grâce à l'apprentissage par renforcement.

OpenAI a décidé de garder ces chaînes de pensée brutes cachées aux utilisateurs, en proposant à la place des résumés qui donnent un aperçu du raisonnement du modèle sans en exposer chaque étape. Cette décision contribue à empêcher l'utilisation abusive du processus de pensée du modèle tout en permettant aux développeurs de surveiller et d'affiner la sécurité et l'alignement de l'IA. En observant les chaînes cachées en interne, les développeurs peuvent s'assurer que o1 respecte les directives éthiques et évite les comportements nuisibles.

Benchmarking OpenAI o1

OpenAI o1 montre des améliorations majeures par rapport à GPT-4o dans plusieurs benchmarks qui testent les capacités de raisonnement et de résolution de problèmes. Sur l'American Invitational Mathematics Examination (AIME) 2024, un examen de mathématiques difficile pour les meilleurs élèves du secondaire, o1 a atteint un taux de précision de 74 % avec un seul échantillon par problème, contre 12 % pour GPT-4o. Avec un consensus sur 64 échantillons, sa précision est passée à 83 %, et en utilisant une méthode de reclassement affinée avec 1 000 échantillons, elle a atteint 93 %, ce qui la place parmi les 500 meilleurs élèves à l'échelle nationale. 

Au-delà des mathématiques, o1 a également obtenu des résultats exceptionnels lors de tests de connaissances scientifiques, comme le GPQA Diamond, qui couvre des questions de niveau doctoral en chimie, physique et biologie. Remarquablement, o1 a surpassé les experts humains titulaires d'un doctorat dans ce test, ce qui en fait le premier modèle d'IA à y parvenir. Il a également surpassé GPT-4o dans 54 des 57 catégories du test de référence MMLU, qui teste la compréhension d'un ensemble varié de sujets, dont l'histoire, le droit et la science.

Fig 4. Analyse comparative de l'OpenAI o1.

Mets la main à la pâte avec OpenAI o1

OpenAI a présenté deux nouveaux modèles d'IA dans la série o1 : o1-preview et o1-mini. Le modèle o1-preview est conçu pour réfléchir plus profondément avant de répondre, excellant dans les tâches de raisonnement complexes en sciences, en codage et en mathématiques. Il offre des capacités avancées de résolution de problèmes aux utilisateurs qui s'attaquent à des projets difficiles. En revanche, o1-mini est un modèle plus petit, plus rapide et plus rentable, optimisé spécifiquement pour le raisonnement STEM, en particulier les mathématiques et le codage. Bien que sa connaissance du monde soit moins étendue, o1-mini égale presque les performances de o1-preview lors d'évaluations clés telles que le concours de mathématiques AIME et les défis de codage Codeforces, le tout pour un coût inférieur de 80 %.

Fig 5. Comparaison des modèles OpenAI.

Tu peux essayer ces modèles par le biais de différentes plateformes OpenAI. ChatGPT Les utilisateurs des plateformes Plus et Team peuvent accéder à o1-preview et o1-mini via le sélecteur de modèles, et faire l'expérience de capacités de raisonnement améliorées directement sur ChatGPT. Les développeurs ayant accès au niveau 5 d'utilisation de l'API peuvent commencer à créer des prototypes avec ces modèles, bien que certaines fonctions avancées soient encore en cours de développement. OpenAI prévoit également de mettre o1-mini à la disposition de tous les utilisateurs de ChatGPT Free prochainement. En explorant ces modèles, tu pourras faire l'expérience directe des avancées en matière de raisonnement IA et choisir celui qui correspond le mieux à tes besoins.

Considérations éthiques sur l'IA formulées par OpenAI

OpenAI a mis l'accent sur l'éthique et la sécurité lors du développement de la série de modèles o1. Avant de publier les modèles o1-preview et o1-mini, ils ont procédé à des évaluations approfondies, y compris des tests externes et des vérifications internes pour les risques tels que les contenus non autorisés, les hallucinations et les préjugés. Les modèles sont conçus avec des capacités de raisonnement avancées pour mieux comprendre et suivre les règles de sécurité. 

OpenAI a également mis en place des mesures de protection telles que des listes de blocage et des classificateurs de sécurité pour gérer les risques. Le modèle o1 présente un risque global moyen. Il présente des risques faibles dans des domaines tels que la cybersécurité et l'autonomie du modèle et des risques moyens dans des domaines tels que le contenu CBRN (chimique, biologique, radiologique et nucléaire) et la persuasion. Le groupe consultatif sur la sécurité et le conseil d'administration d'OpenAI ont examiné ces mesures de sécurité pour s'assurer que le modèle est sûr et éthique à utiliser.

Fig 6. Fiche d'évaluation de l'OpenAI o1.

Des rumeurs à la réalité : OpenAI o1 entre en scène

OpenAI o1 est un grand pas en avant dans le raisonnement de l'IA, transformant certaines des premières rumeurs en réalité. Contrairement à GPT-4o, la série o1 réfléchit plus profondément en utilisant une approche de "chaîne de pensée", décomposant les problèmes complexes en étapes plus petites pour de meilleures réponses. Actuellement disponible en avant-première sur ChatGPT et dans l'API, OpenAI prévoit d'ajouter des fonctionnalités telles que la navigation sur le Web et le téléchargement de fichiers et d'images. OpenAI a également indiqué qu'elle prévoyait de continuer à développer et à publier des modèles de la série GPT, parallèlement à la nouvelle série OpenAI o1. Alors que l'IA continue d'évoluer, des avancées comme celles-ci ouvrent la voie à des systèmes d'IA plus puissants, plus intuitifs et plus polyvalents, capables de mieux assister et comprendre les besoins humains.

Tiens-toi au courant des dernières nouveautés en matière d'IA en rejoignant notre communauté! Dirige-toi vers notre dépôt GitHub pour voir comment nous sommes les pionniers des solutions d'IA dans des secteurs tels que la fabrication et la santé. 🚀

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.