Glossaire

Modèles de séquence à séquence

Découvre comment les modèles de séquence à séquence transforment les séquences d'entrée en séquences de sortie, alimentant les tâches d'IA telles que la traduction, les chatbots et la reconnaissance vocale.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les modèles Seq2Seq (Sequence-to-Sequence) sont une classe d'architectures d'apprentissage profond conçues pour transformer une séquence d'entrée en une séquence de sortie, où les longueurs des séquences d'entrée et de sortie peuvent différer. Initialement développés à l'aide de réseaux neuronaux récurrents (RNN), ces modèles constituent la base de nombreuses tâches impliquant des données séquentielles, notamment dans le traitement du langage naturel (NLP). L'idée de base est de faire correspondre des séquences telles que des phrases, des clips audio ou des données de séries temporelles d'un domaine à un autre.

Comment fonctionnent les modèles de séquence à séquence

Les modèles Seq2Seq se composent généralement de deux éléments principaux : un encodeur et un décodeur.

  1. Encodeur : Cette partie traite la séquence d'entrée entière (par exemple, une phrase en français) étape par étape. À chaque étape, elle met à jour son état caché interne. L'état caché final, souvent appelé "vecteur de contexte" ou "vecteur de pensée", vise à capturer un résumé ou l'essence de la séquence d'entrée. Les premiers modèles Seq2Seq utilisaient des RNN ou des LSTM à cette fin, comme indiqué dans l'article original sur l'apprentissage de séquence à séquence.
  2. Décodeur : Ce composant prend le vecteur de contexte final de l'encodeur et génère la séquence de sortie étape par étape (par exemple, la phrase traduite en English). Il utilise le vecteur de contexte comme état initial et produit un élément de la séquence de sortie à chaque pas de temps, en mettant à jour son propre état caché au fur et à mesure.

Le mécanisme d'attention est une innovation clé qui a considérablement amélioré les performances de Seq2Seq, en particulier pour les séquences plus longues. L'attention permet au décodeur de revenir sur différentes parties des états cachés de la séquence d'entrée (et pas seulement sur le vecteur de contexte final) lors de la génération de chaque élément de sortie, en pesant leur importance de façon dynamique, comme l'ont proposé Bahdanau et al.

Pertinence et évolution

Les modèles Seq2Seq ont représenté une avancée majeure, en particulier pour les tâches où les longueurs d'entrée et de sortie sont variables et où l'alignement est complexe. Ils ont fourni un cadre flexible pour traiter divers problèmes de transformation de séquences. Bien que fondamentaux, les modèles Seq2Seq originaux basés sur le RNN ont été confrontés à des défis liés aux dépendances à longue portée. Cela a conduit au développement des modèles Transformer, qui reposent entièrement sur les mécanismes d'attention et le traitement parallèle, remplaçant largement les RNN pour une performance de pointe dans de nombreuses tâches de séquence. Cependant, le concept de base de l'encodeur-décodeur reste influent. Des frameworks tels que PyTorch et TensorFlow fournissent des outils robustes pour construire des modèles Seq2Seq traditionnels et des modèles Transformer modernes.

Applications dans le domaine de l'IA et de la ML

Les modèles Seq2Seq, y compris leurs successeurs modernes basés sur Transformer, sont utilisés dans de nombreuses applications :

  • Traduction automatique: Traduire un texte d'une langue source à une langue cible (par exemple, en alimentant des services tels que Google Translate).
  • Résumés de textes: Générer des résumés plus courts à partir de longs articles ou documents.
  • Chatbots et réponses aux questions : Générer des réponses conversationnelles ou des réponses basées sur un texte d'entrée ou des questions. De nombreux chatbots modernes s'appuient sur des architectures Transformer avancées telles que GPT-4.
  • Reconnaissance de la parole: Conversion de séquences de caractéristiques audio en séquences de texte (transcription).
  • Légende d'image : Générer des descriptions textuelles (séquences de mots) pour les images d'entrée. Bien que distinctes des tâches de détection d'objets effectuées par des modèles tels que Ultralytics YOLOil s'agit d'établir une correspondance entre l'entrée visuelle et la sortie séquentielle. La recherche dans des institutions telles que le Stanford NLP Group explore souvent ces domaines.

Bien que les modèles Seq2Seq soient principalement associés au NLP, les mécanismes d'attention qui s'en inspirent sont également utilisés en vision artificielle, par exemple, dans certains composants de modèles de détection comme le RT-DETR ou dans Vision Transformers. Tu peux explorer différents modèles sur des plateformes comme Hugging Face.

Tout lire