Découvre BERT, le modèle NLP révolutionnaire de Google. Apprends comment sa compréhension bidirectionnelle du contexte transforme les tâches d'IA comme la recherche et les chatbots.
BERT, qui signifie Bidirectional Encoder Representations from Transformers, est une technique historique de pré-entraînement du traitement du langage naturel (NLP) développée par les chercheurs de Google AI Language. Introduite en 2018, BERT a révolutionné la façon dont les machines comprennent le langage humain en étant la première représentation du langage profondément bidirectionnelle et non supervisée, pré-entraînée en utilisant uniquement un corpus de texte brut. Il tire parti de la puissante architecture Transformer, plus précisément de la partie encodeur, pour traiter les mots en relation avec tous les autres mots d'une phrase, plutôt que de manière séquentielle.
La capacité de BERT à comprendre les nuances de la langue a conduit à des améliorations significatives dans diverses applications :
D'autres applications comprennent l'amélioration des outils de résumé de texte et des systèmes de traduction automatique.
BERT se concentre principalement sur l'encodage de texte pour des tâches de compréhension. Sa nature bidirectionnelle contraste avec les modèles unidirectionnels antérieurs tels que les réseaux neuronaux récurrents de base (RNN). Bien qu'il soit également basé sur l'architecture Transformer, BERT diffère des modèles tels que GPT (Generative Pre-trained Transformer), qui sont généralement optimisés pour générer du texte plutôt que de simplement l'encoder. L'architecture Transformer elle-même a également été adaptée à des tâches de vision par ordinateur, comme le montrent des modèles tels que Vision Transformer (ViT), ce qui démontre la flexibilité de l'architecture au-delà du NLP. De nombreux modèles BERT pré-entraînés sont facilement disponibles sur des plateformes telles que Hugging Face et peuvent être intégrés dans des flux de travail à l'aide d'outils comme Ultralytics HUB.
Comment fonctionne Bert
Contrairement aux modèles précédents qui traitaient le texte dans une seule direction (soit de gauche à droite, soit de droite à gauche), BERT traite toute la séquence de mots à la fois. Cette approche bidirectionnelle lui permet de saisir le contexte d'un mot en fonction des mots qui l'entourent, qu'ils le précèdent ou le suivent. Imagine que tu essaies de comprendre la signification du mot "banque" dans "Je suis allé à la banque pour déposer de l'argent" par rapport à "Je me suis assis sur la berge de la rivière". La bidirectionnalité de BERT l'aide à différencier efficacement ces significations. Il apprend ces relations en étant pré-entraîné sur de grandes quantités de données textuelles, comme Wikipedia, en utilisant des techniques telles que la modélisation du langage masqué (prédiction des mots cachés) et la prédiction de la phrase suivante. Le modèle pré-entraîné qui en résulte, contenant de riches enchâssements linguistiques, peut ensuite être rapidement adapté ou"affiné" pour des tâches NLP spécifiques en aval avec des ensembles de données plus petits et spécifiques à la tâche.