Glossaire

GPT (Transformateur génératif pré-entraîné)

Découvre la puissance des modèles GPT : une IA avancée basée sur des transformateurs pour la génération de texte, les tâches NLP, les chatbots, le codage, et bien plus encore. Découvre les principales fonctionnalités dès maintenant !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les modèles GPT (Generative Pre-trained Transformer) représentent une avancée majeure dans le traitement du langage naturel (NLP), un sous-domaine de l'intelligence artificielle (AI) dont l'objectif est de permettre aux machines de comprendre et de générer du langage humain. Développés principalement par OpenAI, les GPT sont une classe de grands modèles de langage (LLM) construits sur l'architecture Transformer. Ils sont initialement "pré-entraînés" sur des ensembles massifs de données de texte et de code, apprenant la grammaire, les faits, les capacités de raisonnement et les structures linguistiques. Par la suite, ils peuvent être"affinés" sur des ensembles de données plus petits et spécifiques afin d'exceller dans des tâches particulières.

Qu'est-ce qu'un transformateur génératif pré-entraîné (GPT) ?

Un modèle GPT utilise une architecture de réseau neuronal appelée Transformateur, qui est particulièrement efficace pour traiter les données séquentielles comme le texte. Décomposons le nom :

  • Génératif : Cela met en évidence la capacité principale du modèle - générer un nouveau texte cohérent qui imite le style et le contenu des données sur lesquelles il a été formé. Contrairement aux modèles axés uniquement sur l'analyse ou la classification, les TPG créent un contenu original.
  • Pré-entraîné : Il s'agit de la phase de formation initiale, qui nécessite beaucoup de ressources, au cours de laquelle le modèle apprend à comprendre le langage général à partir de grandes quantités de données textuelles. Ces connaissances fondamentales permettent au modèle de s'adapter ultérieurement à diverses tâches spécifiques.
  • Transformateur : Il s'agit de l'architecture sous-jacente du réseau neuronal (NN). Les transformateurs utilisent un mécanisme d'attention qui leur permet de peser l'importance des différents mots dans la séquence d'entrée, de capturer efficacement le contexte et les dépendances à long terme dans le texte, ce qui constitue une amélioration significative par rapport aux architectures plus anciennes comme les réseaux neuronaux récurrents (RNN).

Après le pré-entraînement, les modèles GPT peuvent être affinés pour des applications spécialisées telles que la réponse aux questions, le résumé de texte ou même la génération de code logiciel.

Caractéristiques principales des modèles GPT

Les modèles GPT possèdent plusieurs caractéristiques qui contribuent à leur puissance et à leur polyvalence :

  • Évolutivité : Les modèles GPT existent en différentes tailles, des versions plus petites adaptées aux environnements à ressources limitées aux modèles extrêmement grands comme GPT-3 et GPT-4 qui offrent des performances de pointe. La taille du modèle est souvent en corrélation avec ses capacités.
  • Polyvalence : Grâce au paradigme de pré-entraînement et d'affinage, un seul GPT pré-entraîné peut être adapté à un large éventail de tâches de PNL sans qu'il soit nécessaire de former un nouveau modèle à partir de zéro pour chacune d'entre elles.
  • Apprentissage à quelques coups et à zéro coup : Les grands modèles GPT présentent souvent d'impressionnantes capacités d'apprentissage à quelques coups et à zéro coup, ce qui signifie qu'ils peuvent effectuer des tâches pour lesquelles ils n'ont pas été explicitement mis au point, parfois avec seulement quelques exemples ou pas du tout.
  • Compréhension contextuelle : L'architecture Transformer permet aux TPG de maintenir et d'utiliser le contexte sur de longs passages de texte, ce qui permet d'obtenir des résultats plus cohérents et plus pertinents.

Applications concrètes de GPT

La technologie GPT alimente de nombreuses applications dans divers domaines :

  1. Création de contenu : Les modèles GPT sont utilisés pour la génération de texte, l'aide à la rédaction d'articles, de textes marketing, de courriels, la rédaction créative et la génération de code. Des outils comme GitHub Copilot s'appuient sur des modèles de type GPT pour l'aide au codage.
  2. IA conversationnelle : ils constituent l'épine dorsale des chatbots et des assistants virtuels avancés, tels que... ChatGPTIls sont capables d'engager des dialogues complexes, de répondre à des questions et d'effectuer des tâches sur la base d'instructions en langage naturel.
  3. Résumés et analyses : Les TPG peuvent résumer rapidement de longs documents ou articles(résumé de texte) et effectuer une analyse des sentiments pour évaluer les opinions exprimées dans le texte.

GPT et concepts similaires

Il est utile de différencier le TPG des termes apparentés :

  • GPT vs. AGI : Les modèles GPT sont une forme d'intelligence artificielle étroite (ANI), conçue pour des tâches spécifiques liées au langage. Il ne s'agit pas d'une intelligence générale artificielle (AGI), qui fait référence à une IA hypothétique dotée de capacités cognitives semblables à celles des humains dans divers domaines.
  • GPT vs. Ultralytics YOLO: les modèles GPT sont spécialisés dans le traitement et la génération de texte. En revanche, les modèlesYOLO d'Ultralytics , comme YOLOv8sont des modèles de pointe qui se concentrent sur des tâches de vision par ordinateur (VA) telles que la détection d'objets, la segmentation d'images et l'estimation de la pose dans les images et les vidéos. Bien qu'ils puissent tous deux utiliser des composants Transformer (en particulier les modèles CV les plus récents), leurs domaines principaux (langage vs. vision) et leurs résultats (texte vs. boîtes de délimitation/masques) sont fondamentalement différents. Tu peux former et déployer les modèlesYOLO d'Ultralytics en utilisant des plateformes comme Ultralytics HUB.
Tout lire