Glossário

Memória longa de curto prazo (LSTM)

Descobre como as redes de Memória de Curto Prazo Longo (LSTM) se destacam no tratamento de dados sequenciais, ultrapassando as limitações das RNN e potenciando tarefas de IA como a PNL e a previsão.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

As redes de Memória de Curto Prazo Longo (LSTM) são um tipo especializado de Rede Neural Recorrente (RNN) concebida para aprender eficazmente dependências de longo alcance em dados sequenciais. Ao contrário das RNNs básicas, que se esforçam para reter informações em seqüências extensas devido a problemas como o problema do gradiente de desaparecimento, as LSTMs incorporam mecanismos internos chamados portas para regular o fluxo de informações, permitindo que elas se lembrem de detalhes relevantes e esqueçam os irrelevantes por longos períodos. Isso os torna particularmente poderosos para tarefas de Aprendizado de Máquina (ML) e Aprendizado Profundo (DL) que envolvem sequências.

Conceito principal: Portas e células de memória

A principal inovação dos LSTMs reside na sua estrutura interna, que inclui uma célula de memória e três portas primárias:

  1. Esquece a porta: Decide qual a informação que deve ser eliminada do estado da célula.
  2. Porta de entrada: Determina que nova informação deve ser armazenada no estado da célula.
  3. Porta de saída: Controla que informação do estado da célula é utilizada para gerar a saída para o passo de tempo atual.

Essas portas, implementadas usando funções como sigmoide e tanh, permitem que a rede neural (NN) LSTM atualize seletivamente sua memória, preservando o contexto importante de partes anteriores de uma seqüência enquanto processa partes posteriores. Este mecanismo é treinado através de retropropagação, semelhante a outras redes neurais. Para uma explicação visual, o post do blogue de Christopher Olah sobre LSTMs fornece uma excelente visão geral.

Relevância em IA e ML

Os LSTMs têm sido muito influentes em domínios que lidam com dados sequenciais devido à sua capacidade de captar dependências temporais. Representam um avanço significativo em relação às RNNs mais simples para muitas tarefas. Embora as arquitecturas mais recentes, como os Transformers, se tenham tornado dominantes em áreas como o Processamento de Linguagem Natural (PNL) devido a uma melhor paralelização e ao tratamento de sequências muito longas através de mecanismos de atenção, os LSTMs continuam a ser relevantes e são por vezes utilizados em arquitecturas híbridas ou para problemas específicos de modelação de sequências em que o seu estado é benéfico.

Comparação com conceitos relacionados

  • RNNs: Os LSTMs são um tipo de RNN especificamente concebido para ultrapassar as limitações de memória de curto prazo dos RNNs simples.
  • Unidades Recorrentes Gated (GRUs): As GRUs são um outro tipo de RNN com portas, semelhantes às LSTMs mas com uma estrutura mais simples (menos portas). Atingem frequentemente um desempenho comparável ao dos LSTMs em várias tarefas e podem ser computacionalmente menos dispendiosas.
  • Transformadores: Ao contrário das RNNs/LSTMs que processam sequências passo a passo, os Transformers utilizam mecanismos de auto-atenção para ponderar a importância de diferentes partes da sequência em simultâneo. Isto permite uma maior paralelização e conduziu a resultados de ponta em muitas tarefas de PNL, como se vê em modelos como o BERT e o GPT.

Aplicações no mundo real

Os LSTMs têm sido aplicados com sucesso em vários domínios:

  • Tradução automática: Sistemas como as primeiras versões do Google Translate utilizavam LSTMs para traduzir texto de uma língua para outra, processando sequencialmente as frases de entrada.
  • Reconhecimento de fala: A conversão de linguagem falada em texto, em que a compreensão do contexto ao longo do tempo é crucial para a precisão, utiliza frequentemente LSTMs ou arquitecturas semelhantes na modelação acústica. Exemplos incluem componentes de assistentes virtuais como o Amazon Alexa ou o Siri da Apple.
  • Análise de séries temporais: Prevê valores futuros com base em observações passadas, como a previsão do mercado de acções, a previsão meteorológica ou a deteção de anomalias em dados de sensores.
  • Geração de texto: Cria texto coerente para aplicações como chatbots ou criação de conteúdos.

Implementação e ferramentas

Os LSTMs podem ser facilmente implementados utilizando estruturas populares de aprendizagem profunda, tais como PyTorch (ver documentaçãoPyTorch LSTM) e TensorFlow (ver a documentaçãoTensorFlow LSTM). Embora Ultralytics se concentre principalmente em modelos de visão computacional (CV) como o Ultralytics YOLO para tarefas como a deteção de objectos e a segmentação de instâncias, é importante compreender os modelos de sequência, especialmente porque a investigação explora a ligação entre a PNL e a CV para tarefas como a compreensão de vídeos ou a legendagem de imagens. Podes explorar vários modelos e conceitos de ML na documentaçãoUltralytics . O artigo fundamental sobre LSTM de Hochreiter e Schmidhuber fornece os pormenores técnicos originais.

Lê tudo