Glossaire

Traitement du langage naturel (NLP)

Découvre les concepts, les techniques et les applications du traitement du langage naturel (NLP) comme les chatbots, l'analyse des sentiments et la traduction automatique.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le traitement du langage naturel (NLP) est un domaine dynamique de l'intelligence artificielle (AI) et de l'apprentissage automatique (ML) dédié à permettre aux ordinateurs de comprendre, traiter, interpréter et générer du langage humain - à la fois du texte et de la parole. Il combine les principes de la linguistique informatique avec la modélisation statistique, le ML et les modèles d'apprentissage profond (DL) pour combler le fossé entre la communication humaine et la compréhension informatique. L'objectif ultime est de permettre aux machines d'interagir avec le langage d'une manière à la fois significative et utile, en automatisant des tâches qui nécessitent traditionnellement des capacités linguistiques humaines.

Concepts clés de la PNL

La PNL comprend plusieurs tâches essentielles qui décomposent les complexités du langage en éléments que les machines peuvent analyser et sur lesquels elles peuvent agir :

  • Tokénisation: L'étape initiale qui consiste à décomposer le texte en unités plus petites, telles que des mots ou des sous-mots (tokens).
  • Reconnaissance des entités nommées (NER) : Identification et catégorisation d'entités clés dans un texte, telles que les noms de personnes, d'organisations, de lieux, de dates et de valeurs monétaires.
  • Analyse de sentiment: Détermination du ton émotionnel ou de l'opinion subjective exprimée dans un texte (par exemple, positif, négatif, neutre).
  • Traduction automatique: Traduction automatique d'un texte ou d'un discours d'une langue à une autre, comme on le voit dans des outils tels que Google Translate.
  • Modélisation du langage: Construire des modèles qui prédisent la probabilité d'une séquence de mots, cruciale pour des tâches telles que la génération de texte et la reconnaissance vocale.

Comment fonctionne la PNL

Les systèmes NLP utilisent généralement une approche par pipeline. Les données textuelles brutes subissent d'abord un prétraitement, qui comprend des tâches telles que le nettoyage du texte (suppression des caractères non pertinents ou du formatage), la tokenisation et parfois la normalisation (conversion des mots en une forme de base). Après le prétraitement, les caractéristiques pertinentes pour la tâche sont extraites. Ces caractéristiques sont ensuite introduites dans les modèles ML ou DL pour l'analyse ou la génération.

Le NLP moderne s'appuie fortement sur les réseaux neuronaux (NN), en particulier sur des architectures sophistiquées telles que les réseaux neuronaux récurrents (RNN) pour les données séquentielles et, plus récemment, les transformateurs. Les transformateurs, qui se distinguent par leurs puissants mécanismes d'attention, se sont révélés exceptionnellement efficaces pour capturer les dépendances à long terme et le contexte au sein du langage. Cette architecture est à la base de nombreux modèles de pointe, y compris des variantes de BERT et des modèles GPT tels que GPT-4. Les plateformes de recherche telles que l'Anthologie ACL hébergent de nombreux articles détaillant ces avancées.

Applications de la PNL

La PNL alimente une vaste gamme d'applications qui transforment les industries et améliorent les interactions quotidiennes. Voici deux exemples marquants :

  1. Assistants virtuels et chatbots: Des systèmes comme Siri d'Apple et Alexa d'Amazon, ainsi que d'innombrables chatbots du service client, utilisent largement le NLP. Ils utilisent la reconnaissance vocale pour convertir les mots prononcés en texte, la compréhension du langage naturel (NLU) pour saisir l'intention de l'utilisateur, et parfois la génération de texte pour formuler des réponses.
  2. Filtrage des courriels indésirables : Les techniques NLP analysent le contenu des courriels pour identifier les schémas caractéristiques des tentatives de spam ou de phishing. Les algorithmes classent les courriels en fonction de mots-clés, de la réputation de l'expéditeur et de la structure linguistique, ce qui permet de garder les boîtes de réception propres et sécurisées.

Parmi les autres applications courantes, on peut citer le résumé de texte pour condenser de longs documents, les moteurs de recherche sémantique qui comprennent le sens de la requête au-delà de la simple correspondance des mots clés, et les outils de correction de la grammaire/du style comme Grammarly. De nombreux cas d'utilisation innovants de l 'IA s'appuient fortement sur le NLP.

La PNL et les concepts apparentés

Bien qu'elle soit apparentée, la PNL diffère de certains termes similaires :

  • Compréhension du langage naturel (NLU): Le NLU est un sous-ensemble du NLP spécifiquement axé sur l'aspect compréhension - l'extraction du sens, de l'intention et du contexte du langage. Le NLP est plus large et englobe également des tâches telles que la génération de texte et la synthèse vocale.
  • Génération de texte: Il s'agit d'une capacité ou d'une tâche spécifique au sein du NLP qui se concentre sur la production d'un texte semblable à celui d'un humain. Bien qu'il s'agisse d'un élément essentiel de nombreuses applications du NLP (comme les chatbots ou la traduction), elle ne couvre pas les aspects de compréhension ou d'analyse du NLP.
  • Vision par ordinateur (VA): CV traite de l'interprétation et de la compréhension des informations provenant d'entrées visuelles telles que les images et les vidéos, en se concentrant sur des tâches telles que la détection d'objets ou la segmentation d'images. Le NLP, à l'inverse, se concentre sur les données linguistiques. Cependant, ces domaines se recoupent de plus en plus dans des modèles multimodaux qui traitent à la fois le texte et les images, ce qui permet des applications telles que le sous-titrage automatique des images. Tu peux en savoir plus sur le rapprochement entre NLP et CV. Ultralytics se spécialise dans la CV et propose des modèles tels que Ultralytics YOLO11 pour les tâches exigeant une grande précision et une grande rapidité.

Outils et plateformes

Le développement et le déploiement d'applications NLP impliquent souvent de tirer parti de bibliothèques et de plates-formes spécialisées :

  • Bibliothèques : Les bibliothèques open-source comme spaCy et NLTK fournissent des outils pour les tâches NLP courantes comme la tokenisation, l'analyse syntaxique et la reconnaissance d'entités.
  • Plateformes: Hugging Face offre un vaste référentiel de modèles pré-entraînés (en particulier les Transformers), d'ensembles de données et d'outils qui accélèrent considérablement le développement. Pour gérer le cycle de vie de bout en bout des modèles ML, y compris ceux utilisés dans les pipelines NLP ou combinés CV-NLP, des plateformes comme Ultralytics HUB offrent de solides capacités MLOps, rationalisant l'entraînement, le déploiement et la surveillance. Explore la documentation d'Ultralytics pour obtenir plus de ressources sur le développement et le déploiement des modèles.
Tout lire