Glossaire

Grand modèle linguistique (LLM)

Découvre comment les grands modèles de langage (LLM) révolutionnent l'IA avec un NLP avancé, alimentant les chatbots, la création de contenu, et bien plus encore. Apprends les concepts clés !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les grands modèles de langage (LLM) représentent une avancée significative dans le domaine de l'intelligence artificielle (IA), en particulier dans le traitement du langage naturel (NLP). Ces modèles se caractérisent par leur immense échelle, contenant souvent des milliards de paramètres, et sont entraînés sur de vastes ensembles de données comprenant du texte et du code. Cet entraînement poussé permet aux MLL de comprendre le contexte, de générer des textes cohérents et semblables à ceux des humains, de traduire des langues, de répondre à des questions et d'effectuer un large éventail de tâches basées sur le langage avec une compétence remarquable. Ils constituent un type spécifique de modèle d'apprentissage profond (DL), moteur de l'innovation dans de nombreuses applications.

Définition

Un grand modèle linguistique est fondamentalement un réseau neuronal (RN) sophistiqué, généralement basé sur l'architecture Transformer. Le terme "grand" dans LLM fait référence au nombre considérable de paramètres - variables ajustées pendant la formation - qui peuvent aller de plusieurs milliards à plusieurs milliers de milliards. Un plus grand nombre de paramètres permet généralement au modèle d'apprendre des modèles plus complexes à partir des données. Les LLM apprennent ces modèles par un apprentissage non supervisé sur des corpus de textes massifs recueillis sur Internet, dans des livres et dans d'autres sources. Ce processus les aide à saisir la grammaire, les faits, les capacités de raisonnement et même les biais présents dans les données. Les capacités de base comprennent la prédiction des mots suivants dans une phrase, ce qui constitue la base de tâches telles que la génération de texte et la réponse aux questions. Parmi les exemples bien connus, on peut citer la série GPT d'OpenAI, comme GPT-4, les modèles Llama de Meta AI, comme Llama 3, Gemini de Google DeepMind, et Claude d' Anthropic.

Applications

La polyvalence des LLM leur permet de s'appliquer à divers domaines. Voici deux exemples concrets :

  • L'IA conversationnelle: Les LLM alimentent des chatbots et des assistants virtuels sophistiqués comme... ChatGPT et Google Assistant, permettant des interactions plus naturelles et tenant compte du contexte par rapport aux anciens systèmes basés sur des règles. Ils peuvent traiter les demandes du service client, fournir des informations et engager des dialogues complexes.
  • Création de contenu et résumés: Les entreprises et les particuliers utilisent les LLM pour générer des textes marketing, rédiger des articles, créer des extraits de code et résumer de longs documents(résumé de texte). Des outils comme Microsoft Copilot intègrent les LLM pour aider les utilisateurs dans diverses tâches d'écriture et de codage.

Concepts clés

Pour comprendre les LLM, il faut se familiariser avec plusieurs concepts connexes :

  • Modèles de fondation: Les LLM sont considérés comme un type de modèle de fondation, ce qui signifie qu'il s'agit de grands modèles formés sur des données larges qui peuvent être adaptés(affinés) pour diverses tâches en aval.
  • Mécanismes d'attention: Cruciale pour l'architecture du Transformateur, l'attention permet au modèle de peser l'importance des différents mots de la séquence d'entrée lors de la génération de la sortie, ce qui permet de mieux gérer les dépendances à long terme et le contexte. L'article fondateur qui présente ce mécanisme est"Attention Is All You Need" (L'attention est tout ce dont tu as besoin).
  • Prompt Engineering: Il s'agit de la pratique consistant à concevoir des entrées efficaces (invites) pour guider le LLM vers la génération de la sortie souhaitée. La qualité de l'invite influence considérablement la réponse du modèle.
  • La tokenisation: Les LLM traitent le texte en le décomposant en unités plus petites appelées tokens (mots, sous-mots ou caractères). La façon dont le texte est tokenisé affecte les performances du modèle et le coût de calcul.

Bien que les LLM excellent dans les tâches linguistiques, ils diffèrent des modèles principalement conçus pour la vision par ordinateur (VA), tels que les modèlesYOLO d'Ultralytics utilisés pour la détection d'objets. Cependant, l'essor des modèles multimodaux et des modèles de langage de vision permet de combler ce fossé, en combinant la compréhension du langage et le traitement visuel. Des plateformes comme Ultralytics HUB facilitent la formation et le déploiement de divers modèles d'IA, y compris ceux destinés aux tâches de vision.

Tout lire