Thuật ngữ

Bộ nhớ dài hạn ngắn hạn (LSTM)

Khám phá cách mạng Bộ nhớ dài hạn ngắn hạn (LSTM) xử lý dữ liệu tuần tự, khắc phục hạn chế của RNN và hỗ trợ các tác vụ AI như NLP và dự báo.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Long Short-Term Memory (LSTM) là một loại kiến trúc Mạng nơ-ron hồi quy (RNN) chuyên biệt được thiết kế để khắc phục những hạn chế của RNN truyền thống trong việc học các phụ thuộc tầm xa. Được Sepp Hochreiter và Jürgen Schmidhuber giới thiệu vào năm 1997, LSTM đặc biệt hiệu quả trong việc xử lý các chuỗi dữ liệu, chẳng hạn như văn bản, lời nói và chuỗi thời gian , trong đó ngữ cảnh từ các phần trước của chuỗi là rất quan trọng để hiểu các phần sau. Khả năng này khiến chúng trở thành công nghệ nền tảng trong nhiều ứng dụng Học sâu (DL) .

LSTM hoạt động như thế nào

RNN truyền thống gặp khó khăn với vấn đề gradient biến mất , trong đó thông tin từ các bước đầu tiên trong một chuỗi mờ dần khi nó lan truyền qua mạng, khiến việc học các mối phụ thuộc trong các khoảng thời gian dài trở nên khó khăn. LSTM giải quyết vấn đề này bằng cách sử dụng một cấu trúc độc đáo bao gồm các ô nhớ và cổng.

Thành phần cốt lõi là ô nhớ, hoạt động như một băng chuyền, cho phép thông tin chảy qua mạng tương đối không thay đổi. LSTM sử dụng ba "cổng" chính để điều chỉnh thông tin được lưu trữ trong ô nhớ:

  1. Cổng quên: Quyết định thông tin nào sẽ bị loại bỏ khỏi trạng thái tế bào.
  2. Cổng đầu vào: Quyết định thông tin mới nào sẽ được lưu trữ trong trạng thái tế bào.
  3. Cổng đầu ra: Quyết định phần nào của trạng thái tế bào sẽ được đưa ra.

Các cổng này, được triển khai bằng cách sử dụng các hàm kích hoạt như sigmoidtanh , tìm hiểu thông tin nào là quan trọng để giữ lại hoặc loại bỏ tại mỗi bước thời gian, cho phép mạng duy trì bối cảnh có liên quan trên các chuỗi mở rộng.

Ứng dụng trong thế giới thực

LSTM đã được áp dụng thành công trong nhiều lĩnh vực đòi hỏi mô hình hóa trình tự:

  • Xử lý ngôn ngữ tự nhiên (NLP) : LSTM vượt trội trong các nhiệm vụ như dịch máy (ví dụ, dịch các câu dài trong khi vẫn giữ nguyên ý nghĩa), phân tích tình cảm (hiểu ý kiến thể hiện trong văn bản) và mô hình hóa ngôn ngữ . Ví dụ, LSTM có thể xử lý một đoạn văn bản để hiểu tình cảm chung, ghi nhớ các cụm từ chính từ đầu ảnh hưởng đến ý nghĩa ở cuối.
  • Nhận dạng giọng nói : Chúng được sử dụng để chuyển đổi ngôn ngữ nói thành văn bản bằng cách mô hình hóa các phụ thuộc thời gian trong tín hiệu âm thanh. Một hệ thống dựa trên LSTM có thể nhận dạng các từ và cụm từ bằng cách xem xét trình tự âm thanh theo thời gian, cải thiện độ chính xác so với các mô hình không nắm bắt được ngữ cảnh tầm xa. Các hệ thống nhận dạng giọng nói của Google trước đây đã sử dụng LSTM.
  • Phân tích chuỗi thời gian : LSTM được áp dụng để dự báo các giá trị tương lai dựa trên dữ liệu lịch sử, chẳng hạn như giá cổ phiếu, mô hình thời tiết hoặc mức tiêu thụ năng lượng. Khả năng ghi nhớ các xu hướng dài hạn của chúng khiến chúng phù hợp với mô hình dự đoán phức tạp.
  • Phân tích video: LSTM có thể xử lý chuỗi khung hình video để hiểu các hành động hoặc sự kiện diễn ra theo thời gian, góp phần vào các ứng dụng như nhận dạng hoạt động.

LSTM so với các kiến trúc liên quan

Mặc dù mạnh mẽ, LSTM chỉ là một phần của họ mô hình trình tự rộng hơn:

  • RNN : LSTM là một loại RNN được thiết kế đặc biệt để tránh các vấn đề về bộ nhớ ngắn hạn của RNN đơn giản.
  • Gated Recurrent Units (GRU) : GRU là một biến thể của LSTM với kiến trúc đơn giản hơn (ít cổng hơn). Chúng thường hoạt động tương đương với LSTM trong một số tác vụ nhất định trong khi ít tốn kém hơn về mặt tính toán.
  • Transformers : Được giới thiệu sau này, Transformers dựa vào cơ chế chú ý hơn là sự tái diễn. Chúng đã vượt trội hơn nhiều so với LSTM về hiệu suất tiên tiến cho nhiều tác vụ NLP, đặc biệt là trong các Mô hình ngôn ngữ lớn (LLM) như GPT-4 . Các kiến trúc như Longformer mở rộng thêm khả năng của Transformer cho các chuỗi rất dài.

Triển khai và Công cụ

LSTM có thể được triển khai dễ dàng bằng cách sử dụng các khuôn khổ học sâu phổ biến như PyTorch (xem tài liệu LSTM PyTorch ) và TensorFlow (xem tài liệu LSTM TensorFlow ). Trong khi Ultralytics chủ yếu tập trung vào các mô hình Thị giác máy tính (CV) như Ultralytics YOLO cho các tác vụ như phát hiện đối tượngphân đoạn thể hiện , việc hiểu các mô hình trình tự rất có giá trị, đặc biệt là khi nghiên cứu khám phá việc kết nối NLP và CV cho các tác vụ như hiểu video hoặc chú thích hình ảnh. Bạn có thể khám phá thêm nhiều mô hình và khái niệm ML khác nhau trong tài liệu Ultralytics . Việc quản lý đào tạotriển khai nhiều mô hình khác nhau có thể được sắp xếp hợp lý bằng các nền tảng như Ultralytics HUB . Bài báo LSTM cơ bản của Hochreiter và Schmidhuber cung cấp các chi tiết kỹ thuật ban đầu. Các nguồn như DeepLearning.AI cung cấp các khóa học bao gồm các mô hình trình tự, bao gồm LSTM.

Đọc tất cả