Glossaire

BERT (Bidirectional Encoder Representations from Transformers)

Découvre BERT, le modèle NLP révolutionnaire de Google. Apprends comment sa compréhension bidirectionnelle du contexte transforme les tâches d'IA comme la recherche et les chatbots.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

BERT, qui signifie Bidirectional Encoder Representations from Transformers, est une technique historique de pré-entraînement au traitement du langage naturel (NLP) développée par les chercheurs de Google AI Language. Présentée en 2018 via l'article influent"BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding", BERT a révolutionné la façon dont les machines comprennent le langage humain. Il s'agissait de l'une des premières représentations linguistiques profondément bidirectionnelles et non supervisées, pré-entraînée en utilisant uniquement un corpus de texte brut comme Wikipédia. BERT tire parti de la puissante architecture Transformer, en particulier de la partie encodeur, pour traiter les mots en relation avec tous les autres mots d'une phrase simultanément, plutôt que séquentiellement. Cela permet une compréhension plus profonde du contexte par rapport aux modèles unidirectionnels précédents.

Comment fonctionne Bert

Contrairement aux modèles précédents qui traitaient le texte dans une seule direction (soit de gauche à droite, soit de droite à gauche), BERT traite toute la séquence de mots à la fois en utilisant son encodeur Transformer et le mécanisme d'auto-attention. Cette approche bidirectionnelle lui permet de saisir le contexte d'un mot en fonction des mots qui l'entourent, qu'ils le précèdent ou le suivent. Par exemple, BERT peut différencier la signification de "banque" dans "Je dois aller à la banque pour retirer de l'argent" de celle de "La berge de la rivière était boueuse" en tenant compte du contexte complet de la phrase.

BERT apprend ces relations linguistiques complexes au cours d'une phase de préapprentissage sur de grandes quantités de données textuelles. Cela implique deux tâches non supervisées principales :

  1. Modèle de langage masqué (MLM) : Un certain pourcentage des tokens d'entrée (mots ou sous-mots) est masqué (caché) de façon aléatoire, et le modèle apprend à prédire ces tokens masqués en fonction de leur contexte.
  2. Prédiction de la phrase suivante (NSP) : le modèle reçoit des paires de phrases et apprend à prédire si la deuxième phrase est la véritable phrase qui suit la première dans le texte original, ou simplement une phrase aléatoire.

Le résultat de ce pré-entraînement est un modèle avec de riches enchâssements linguistiques qui capturent la syntaxe et la sémantique. Ce modèle BERT pré-entraîné peut ensuite être rapidement adapté ou"affiné" pour diverses tâches NLP spécifiques en aval, à l'aide d'ensembles de données plus petits et spécifiques à la tâche. Ce processus d'exploitation des connaissances pré-entraînées est une forme d'apprentissage par transfert.

Principales caractéristiques et avantages

  • Contexte bidirectionnel profond : La principale innovation de BERT est sa capacité à comprendre le contexte d'un mot en examinant simultanément les mots qui le précèdent et ceux qui le suivent. Cela permet une compréhension beaucoup plus riche et plus précise des nuances de la langue par rapport aux modèles unidirectionnels comme les premières versions de GPT.
  • Des performances de pointe : Dès sa sortie, BERT a obtenu des résultats à la pointe de la technologie sur un large éventail de critères NLP, y compris la réponse aux questions (comme l'ensemble de données SQuAD) et les tâches de compréhension du langage naturel (NLU).
  • La puissance de l'apprentissage par transfert : Les modèles pré-entraînés de BERT servent de base puissante. En affinant BERT sur des tâches spécifiques telles que l'analyse des sentiments ou la reconnaissance des entités nommées (NER), les développeurs peuvent atteindre des performances élevées avec beaucoup moins de données spécifiques à la tâche et de temps de formation par rapport à la formation d'un modèle à partir de zéro.
  • Large disponibilité : Les modèles BERT pré-entraînés sont facilement accessibles par le biais de plateformes telles que Hugging Face et peuvent être utilisés avec des frameworks populaires d'apprentissage profond (DL) tels que PyTorch et TensorFlow.

Applications dans le monde réel

La capacité de BERT à comprendre les nuances du langage a conduit à des améliorations significatives dans diverses applications d'intelligence artificielle (IA) du monde réel :

  • Moteurs de recherche : Google Search a fameusement intégré BERT pour mieux comprendre les requêtes des utilisateurs, en particulier les requêtes conversationnelles ou complexes, ce qui permet d'obtenir des résultats de recherche plus pertinents. Comme l'explique un article duGoogle AI Blog, BERT aide à saisir l'intention derrière des recherches telles que "can you get medicine for someone pharmacy" en comprenant l'importance de prépositions telles que "for" et "to".
  • Chatbots et assistants virtuels : BERT améliore la capacité des chatbots et des assistants virtuels à comprendre plus précisément les demandes des utilisateurs, à maintenir le contexte dans les conversations et à fournir des réponses plus utiles dans le cadre du service client, des systèmes de réservation et de la recherche d'informations.
  • Analyse des sentiments : Les entreprises utilisent des modèles basés sur BERT pour analyser les avis des clients, les commentaires sur les médias sociaux et les réponses aux sondages afin d'évaluer l'opinion publique et les commentaires sur les produits avec une plus grande précision.
  • Résumés de textes et réponses aux questions : BERT peut être affiné pour créer des systèmes qui résument automatiquement de longs documents(résumé de texte) ou qui répondent à des questions basées sur un passage de texte donné.

Bien que BERT soit principalement utilisé dans le domaine de la PNL, l'architecture de transformateurs qu'il a popularisée a également inspiré des progrès dans le domaine de la vision par ordinateur (VA), tels que les transformateurs de vision (ViT) utilisés dans des modèles tels que RT-DETR. Des plateformes comme Ultralytics HUB facilitent la formation et le déploiement de divers modèles d'IA, y compris ceux construits sur les principes de Transformer.

Tout lire