Glossaire

Réseau neuronal récurrent (RNN)

Découvre la puissance des réseaux neuronaux récurrents (RNN) pour les données séquentielles, du NLP à l'analyse des séries temporelles. Apprends les concepts clés et les applications dès aujourd'hui !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les réseaux neuronaux récurrents (RNN) sont une classe de réseaux neuronaux (RN) spécialement conçus pour traiter des données séquentielles, où l'ordre des informations est important. Contrairement aux réseaux feedforward standard qui traitent les entrées de manière indépendante, les RNN ont des boucles internes, ce qui permet aux informations des étapes précédentes de la séquence de persister et d'influencer les étapes suivantes. Cette "mémoire" les rend bien adaptés aux tâches impliquant des séquences comme le texte, la parole ou les données de séries temporelles dans les domaines de l'intelligence artificielle (AI) et de l'apprentissage automatique (ML).

Comment fonctionnent les réseaux neuronaux récurrents

L'idée centrale d'un RNN est l'état caché, qui agit comme la mémoire du réseau. À chaque étape de la séquence, le RNN prend l'entrée actuelle et l'état caché de l'étape précédente pour produire une sortie et mettre à jour son état caché. Cet état caché mis à jour est ensuite transmis à l'étape suivante. Cette connexion récurrente permet au réseau de maintenir le contexte dans le temps. La formation des RNN implique généralement une variante de la rétropropagation appelée Backpropagation Through Time (BPTT), qui déploie le réseau sur la longueur de la séquence pour calculer les gradients. Des variantes plus avancées comme la mémoire à long terme (LSTM) et l'unité récurrente gérée (GRU) ont été développées pour remédier à certaines limites des RNN simples, en particulier le problème du gradient qui s'évanouit, ce qui leur permet d'apprendre plus efficacement les dépendances à long terme. Tu peux explorer et former différents modèles, y compris des modèles basés sur des séquences, en utilisant des plateformes comme Ultralytics HUB.

Applications des RNN

Les RNN ont joué un rôle fondamental dans l'avancement des tâches de modélisation des séquences dans divers domaines. Voici quelques exemples :

RNNs vs. autres architectures de réseaux

Pour comprendre les RNN, il faut les distinguer des autres types de réseaux neuronaux :

  • Réseaux progressifs (par exemple, MLP, CNN) : Ces réseaux traitent des entrées de taille fixe sans mémoire inhérente des entrées passées. Les informations circulent dans une seule direction, de l'entrée à la sortie. Alors que les CNN excellent dans les hiérarchies spatiales (par exemple, dans la classification d'images ou la détection d'objets), les RNN sont conçus pour les séquences temporelles. Tu peux en savoir plus sur les modèles de détection d'objets comme Ultralytics YOLO qui utilisent principalement les architectures CNN et Transformer.
  • Transformateurs: Les transformateurs, qui utilisent des mécanismes d'attention, ont largement dépassé les RNN en termes de performances de pointe pour de nombreuses tâches NLP. Ils peuvent modéliser plus efficacement les dépendances à long terme et permettent une plus grande parallélisation pendant la formation, surmontant ainsi les principales limites des RNN. Lis l'évolution de la détection d'objets pour voir comment différentes architectures ont fait progresser les capacités de l'IA.
  • LSTM et GRU: Ce sont des types spécifiques de RNN conçus avec des mécanismes de gating pour mieux contrôler le flux d'informations et atténuer le problème du gradient de disparition, ce qui les rend plus aptes à apprendre de longues séquences par rapport aux RNN vanille. Le matériel de cours CS230 de Stanford donne un bon aperçu de ces variantes.

Alors que des architectures plus récentes comme les Transformers sont devenues dominantes dans de nombreux domaines, les RNN restent des concepts fondamentaux importants de l'apprentissage profond et sont toujours pertinents dans des applications spécifiques ou en tant que composants au sein de modèles hybrides plus vastes. La compréhension de leurs mécanismes offre un aperçu précieux de l'évolution de la modélisation des séquences dans l'IA. Pour une exploration plus approfondie, des ressources comme la spécialisation DeepLearning.AI couvrent les RNN en détail.

Tout lire