Glosario

Memoria a Largo Plazo (LSTM)

Descubre cómo las redes de Memoria Larga a Corto Plazo (LSTM) destacan en el manejo de datos secuenciales, superando las limitaciones de las RNN y potenciando tareas de IA como la PNL y la previsión.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La Memoria a Corto Plazo Larga (LSTM) es un tipo especializado de arquitectura de Red Neuronal Recurrente (RNN) diseñada para superar las limitaciones de las RNN tradicionales en el aprendizaje de dependencias de largo alcance. Introducidas por Sepp Hochreiter y Jürgen Schmidhuber en 1997, las LSTM son especialmente eficaces en el procesamiento de secuencias de datos, como texto, voz y series temporales, donde el contexto de las partes anteriores de la secuencia es crucial para comprender las partes posteriores. Esta capacidad las convierte en una tecnología fundamental en diversas aplicaciones de Aprendizaje Profundo (AD).

Cómo funcionan las LSTM

Las RNN tradicionales se enfrentan al problema del gradiente evanescente, en el que la información de los primeros pasos de una secuencia se desvanece a medida que se propaga por la red, lo que dificulta el aprendizaje de dependencias en intervalos largos. Las LSTM solucionan este problema mediante una estructura única que incluye células de memoria y puertas.

El componente central es la célula de memoria, que actúa como una cinta transportadora, permitiendo que la información fluya a través de la red relativamente sin cambios. Las LSTM utilizan tres "puertas" principales para regular la información almacenada en la célula de memoria:

  1. Puerta de Olvido: Decide qué información tirar del estado de la célula.
  2. Puerta de entrada: Decide qué nueva información almacenar en el estado de la célula.
  3. Puerta de salida: Decide qué parte del estado de la célula se emite.

Estas puertas, implementadas mediante funciones de activación como sigmoide y tanh, aprenden qué información es importante conservar o descartar en cada paso temporal, lo que permite a la red mantener el contexto relevante a lo largo de secuencias extensas.

Aplicaciones en el mundo real

Los LSTM se han aplicado con éxito en numerosos dominios que requieren el modelado de secuencias:

  • Procesamiento del Lenguaje Natural (PLN): Las LSTM destacan en tareas como la traducción automática (por ejemplo, traducir frases largas conservando el significado), el análisis de sentimientos (comprender las opiniones expresadas en un texto) y el modelado del lenguaje. Por ejemplo, una LSTM puede procesar un párrafo de texto para comprender el sentimiento general, recordando frases clave del principio que influyen en el significado del final.
  • Reconocimiento del habla: Se utilizan para convertir el lenguaje hablado en texto modelando las dependencias temporales de las señales de audio. Un sistema basado en LSTM puede reconocer palabras y frases teniendo en cuenta la secuencia de sonidos a lo largo del tiempo, lo que mejora la precisión en comparación con los modelos que no capturan el contexto de largo alcance. Los sistemas de reconocimiento de voz deGoogle han utilizado históricamente LSTM.
  • Análisis de series temporales: Las LSTM se aplican para predecir valores futuros basándose en datos históricos, como los precios de las acciones, los patrones meteorológicos o el consumo de energía. Su capacidad para recordar tendencias a largo plazo las hace adecuadas para el modelado predictivo complejo.
  • Análisis de vídeo: Las LSTM pueden procesar secuencias de fotogramas de vídeo para comprender acciones o acontecimientos que ocurren a lo largo del tiempo, contribuyendo a aplicaciones como el reconocimiento de actividades.

LSTM frente a arquitecturas relacionadas

Aunque potentes, las LSTM forman parte de una familia más amplia de modelos de secuencias:

  • RNNs: Las LSTM son un tipo de RNN diseñadas específicamente para evitar los problemas de memoria a corto plazo de las RNN simples.
  • Unidades Recurrentes Controladas (GRU): Las GRU son una variación de las LSTM con una arquitectura más sencilla (menos puertas). A menudo tienen un rendimiento comparable al de las LSTM en determinadas tareas, pero son menos intensivas desde el punto de vista computacional.
  • Transformadores: Introducidos más tarde, los Transformadores se basan en mecanismos de atención en lugar de en la recurrencia. Han superado ampliamente a los LSTM en el rendimiento de vanguardia para muchas tareas de PNL, sobre todo en los Grandes Modelos del Lenguaje (LLM ) como el GPT-4. Arquitecturas como Longformer amplían aún más las capacidades de los Transformadores para secuencias muy largas.

Aplicación y herramientas

Los LSTM pueden implementarse fácilmente utilizando marcos de aprendizaje profundo populares como PyTorch (véase la documentación sobrePyTorch LSTM) y TensorFlow (consulta la documentación sobreTensorFlow LSTM). Aunque Ultralytics se centra principalmente en modelos de visión por ordenador (CV) como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de instancias, comprender los modelos de secuencia es valioso, especialmente a medida que la investigación explora la posibilidad de tender puentes entre la PLN y la CV para tareas como la comprensión de vídeos o la subtitulación de imágenes. Puedes explorar más a fondo diversos modelos y conceptos de ML en la documentaciónUltralytics . La gestión de la formación y el despliegue de varios modelos puede agilizarse utilizando plataformas como Ultralytics HUB. El artículo fundacional LSTM de Hochreiter y Schmidhuber proporciona los detalles técnicos originales. Recursos como DeepLearning.AI ofrecen cursos sobre modelos secuenciales, incluidos los LSTM.

Leer todo