Memória longa de curto prazo (LSTM)

Descubra como as redes de memória de curto prazo longa (LSTM) se destacam no tratamento de dados sequenciais, superando as limitações do RNN e alimentando tarefas de IA como PNL e previsão.

A Memória de Curto Prazo Longo (LSTM) é um tipo especializado de arquitetura de Rede Neuronal Recorrente (RNN) concebida para aprender e recordar padrões em longas sequências de dados. Ao contrário das RNNs padrão, que têm dificuldade em lidar com dependências de longo prazo devido ao problema do gradiente de desaparecimento, as LSTMs usam um mecanismo de bloqueio exclusivo para regular o fluxo de informações. Isto permite que a rede retenha seletivamente informações importantes durante longos períodos, enquanto descarta dados irrelevantes, tornando-a uma pedra angular da aprendizagem profunda moderna, especialmente no Processamento de Linguagem Natural (PNL). O artigo fundamental sobre LSTM de Hochreiter e Schmidhuber lançou as bases para esta poderosa tecnologia.

Como funcionam os LSTMs

A chave para a capacidade de um LSTM é a sua estrutura interna, que inclui um "estado de célula" e várias "portas". O estado da célula actua como um tapete rolante, transportando informação relevante através da sequência. As portas - entrada, esquecimento e saída - são redes neurais que controlam a informação que é adicionada, removida ou lida do estado da célula.

Porta de esquecimento: Decide que informações do estado anterior da célula devem ser descartadas.
Porta de entrada: Determina que novas informações da entrada atual devem ser armazenadas no estado da célula.
Porta de saída: Controla que informação do estado da célula é utilizada para gerar a saída para o passo de tempo atual.

Essa estrutura de gating permite que os LSTMs mantenham o contexto ao longo de muitas etapas de tempo, um recurso crítico para a compreensão de dados sequenciais, como texto ou séries temporais. Uma visualização detalhada pode ser encontrada neste popular post do blogue Understanding LSTMs.

Aplicações no mundo real

Os LSTMs têm sido aplicados com sucesso em vários domínios que envolvem dados sequenciais.

Tradução automática: Os LSTMs podem processar uma frase numa língua, palavra a palavra, construir uma representação interna (compreensão) e depois gerar uma tradução noutra língua. Para tal, é necessário recordar o contexto desde o início da frase para produzir uma tradução coerente. O Google Translate utilizou historicamente modelos baseados em LSTM para este fim antes de passar para arquitecturas Transformer.
Reconhecimento de voz: Em aplicações de fala para texto, os LSTMs podem processar sequências de caraterísticas de áudio para transcrever palavras faladas. O modelo precisa de considerar sons anteriores para interpretar corretamente o atual, demonstrando a sua capacidade de lidar com dependências temporais. Muitos assistentes virtuais modernos têm-se apoiado nesta tecnologia.

Comparação com outros modelos de sequência

Os LSTMs fazem parte de uma família mais alargada de modelos para dados sequenciais.

Unidade recorrente fechada (Gated Recurrent Unit - GRU): Uma GRU é uma versão simplificada de um LSTM. Combina as portas de esquecimento e de entrada numa única "porta de atualização" e funde o estado da célula e o estado oculto. Isto torna as GRUs computacionalmente mais eficientes e mais rápidas de treinar, embora possam ser ligeiramente menos expressivas do que as LSTMs em algumas tarefas.
Modelos de Markov ocultos (HMMs): Os HMMs são modelos probabilísticos menos complexos do que os LSTMs. Embora sejam úteis para tarefas de sequência mais simples, não conseguem captar as dependências complexas e de longo alcance que os LSTMs e outras redes neuronais conseguem.
Transformador: A arquitetura Transformer, que se baseia num mecanismo de auto-atenção, ultrapassou largamente os LSTMs como o estado da arte para muitas tarefas de PNL. Ao contrário do processamento sequencial dos LSTMs, os Transformers podem processar todos os elementos de uma sequência em paralelo, o que os torna altamente eficientes em hardware moderno , como as GPUs, e melhores na captação de dependências globais.

Implementação e ferramentas

Os LSTMs podem ser facilmente implementados utilizando estruturas populares de aprendizagem profunda, como o PyTorch (ver a documentação do PyTorch LSTM) e o TensorFlow (ver a documentação do TensorFlow LSTM). Embora o Ultralytics se concentre principalmente nos modelos de Visão por Computador (CV), como o Ultralytics YOLO, para tarefas como a deteção de objectos e a segmentação de instâncias, é importante compreender os modelos de sequência, especialmente porque a investigação explora a ligação entre a PNL e a CV para tarefas como a compreensão de vídeos ou a legendagem de imagens. Pode explorar mais aprofundadamente vários modelos e conceitos de ML na documentação do Ultralytics. O gerenciamento do treinamento e da implantação de vários modelos pode ser simplificado usando plataformas como o Ultralytics HUB. Recursos como DeepLearning.AI oferecem cursos que abrangem modelos de sequência, incluindo LSTMs.

Memória longa de curto prazo (LSTM)

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Treine modelos YOLO de forma simples com o Ultralytics HUB

Como funcionam os LSTMs

Aplicações no mundo real

Comparação com outros modelos de sequência

Implementação e ferramentas

Ler mais nesta categoria

Explorar o GPT-5 da OpenAI: um sistema unificado inteligente

O Google AlphaEarth utiliza dados de observação para cartografia global

FastVLM: Apple apresenta o seu novo modelo de linguagem de visão rápida

Junte-se à comunidade Ultralytics