Thuật ngữ

Bộ nhớ dài hạn ngắn hạn (LSTM)

Khám phá cách mạng Bộ nhớ dài hạn ngắn hạn (LSTM) xử lý dữ liệu tuần tự, khắc phục hạn chế của RNN và hỗ trợ các tác vụ AI như NLP và dự báo.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Mạng bộ nhớ dài hạn ngắn hạn (LSTM) là một loại chuyên biệt của Mạng nơ-ron hồi quy (RNN) được thiết kế để học hiệu quả các phụ thuộc tầm xa trong dữ liệu tuần tự. Không giống như RNN cơ bản, vốn gặp khó khăn trong việc lưu giữ thông tin trên các chuỗi mở rộng do các vấn đề như vấn đề biến mất gradient , LSTM kết hợp các cơ chế nội bộ được gọi là cổng để điều chỉnh luồng thông tin, cho phép chúng ghi nhớ các chi tiết có liên quan và quên đi các chi tiết không liên quan trong thời gian dài. Điều này khiến chúng đặc biệt mạnh mẽ đối với các tác vụ trong Học máy (ML)Học sâu (DL) liên quan đến chuỗi.

Khái niệm cốt lõi: Cổng và ô nhớ

Sự đổi mới chính của LSTM nằm ở cấu trúc bên trong của chúng, bao gồm một ô nhớ và ba cổng chính:

  1. Cổng quên: Quyết định thông tin nào sẽ bị loại bỏ khỏi trạng thái tế bào.
  2. Cổng đầu vào: Xác định thông tin mới nào sẽ được lưu trữ trong trạng thái ô.
  3. Cổng đầu ra: Kiểm soát thông tin nào từ trạng thái tế bào được sử dụng để tạo đầu ra cho bước thời gian hiện tại.

Các cổng này, được triển khai bằng các hàm như sigmoidtanh , cho phép Mạng nơ-ron LSTM (NN) cập nhật bộ nhớ của nó một cách có chọn lọc, bảo toàn ngữ cảnh quan trọng từ các phần trước của chuỗi trong khi xử lý các phần sau. Cơ chế này được đào tạo thông qua truyền ngược , tương tự như các mạng nơ-ron khác. Để giải thích trực quan, bài đăng trên blog của Christopher Olah về LSTM cung cấp tổng quan tuyệt vời.

Sự liên quan trong AI và ML

LSTM có ảnh hưởng lớn trong các lĩnh vực xử lý dữ liệu tuần tự do khả năng nắm bắt các phụ thuộc về thời gian. Chúng đại diện cho một bước tiến đáng kể so với RNN đơn giản hơn cho nhiều tác vụ. Trong khi các kiến trúc mới hơn như Transformers đã trở nên thống trị trong các lĩnh vực như Xử lý ngôn ngữ tự nhiên (NLP) do song song hóa và xử lý tốt hơn các chuỗi rất dài thông qua các cơ chế chú ý , LSTM vẫn có liên quan và đôi khi được sử dụng trong các kiến trúc lai hoặc cho các vấn đề mô hình hóa chuỗi cụ thể mà trạng thái của chúng có lợi.

So sánh với các khái niệm liên quan

  • RNN: LSTM là một loại RNN được thiết kế đặc biệt để khắc phục những hạn chế về bộ nhớ ngắn hạn của RNN đơn giản.
  • Gated Recurrent Units (GRU) : GRU là một loại RNN có cổng khác, tương tự như LSTM nhưng có cấu trúc đơn giản hơn (ít cổng hơn). Chúng thường đạt hiệu suất tương đương với LSTM trên nhiều tác vụ khác nhau và có thể ít tốn kém hơn về mặt tính toán.
  • Transformers: Không giống như RNN/LSTM xử lý chuỗi từng bước, Transformers sử dụng cơ chế tự chú ý để cân nhắc tầm quan trọng của các phần khác nhau của chuỗi cùng một lúc. Điều này cho phép song song hóa nhiều hơn và đã dẫn đến kết quả tiên tiến trong nhiều tác vụ NLP, như được thấy trong các mô hình như BERTGPT .

Ứng dụng trong thế giới thực

LSTM đã được áp dụng thành công trong nhiều lĩnh vực:

  • Dịch máy : Các hệ thống như phiên bản đầu của Google Dịch sử dụng LSTM để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác bằng cách xử lý các câu đầu vào theo trình tự.
  • Nhận dạng giọng nói : Chuyển đổi ngôn ngữ nói thành văn bản, trong đó việc hiểu ngữ cảnh theo thời gian là rất quan trọng để có độ chính xác, thường sử dụng LSTM hoặc các kiến trúc tương tự trong mô hình âm thanh. Ví dụ bao gồm các thành phần trong trợ lý ảo như Amazon Alexa hoặc Siri của Apple.
  • Phân tích chuỗi thời gian : Dự đoán các giá trị tương lai dựa trên các quan sát trong quá khứ, chẳng hạn như dự báo thị trường chứng khoán, dự báo thời tiết hoặc phát hiện bất thường trong dữ liệu cảm biến.
  • Tạo văn bản : Tạo văn bản mạch lạc cho các ứng dụng như chatbot hoặc tạo nội dung.

Triển khai và Công cụ

LSTM có thể được triển khai dễ dàng bằng cách sử dụng các khuôn khổ học sâu phổ biến như PyTorch (xem tài liệu LSTM PyTorch ) và TensorFlow (xem tài liệu LSTM TensorFlow ). Trong khi Ultralytics chủ yếu tập trung vào các mô hình Computer Vision (CV) như Ultralytics YOLO cho các tác vụ như phát hiện đối tượngphân đoạn thể hiện , việc hiểu các mô hình trình tự rất có giá trị, đặc biệt là khi nghiên cứu khám phá việc kết nối NLP và CV cho các tác vụ như hiểu video hoặc chú thích hình ảnh. Bạn có thể khám phá thêm nhiều mô hình và khái niệm ML khác nhau trong tài liệu Ultralytics . Bài báo LSTM cơ bản của Hochreiter và Schmidhuber cung cấp các chi tiết kỹ thuật ban đầu.

Đọc tất cả