Khám phá cách mạng Bộ nhớ dài hạn ngắn hạn (LSTM) xử lý dữ liệu tuần tự, khắc phục hạn chế của RNN và hỗ trợ các tác vụ AI như NLP và dự báo.
Mạng bộ nhớ dài hạn ngắn hạn (LSTM) là một loại chuyên biệt của Mạng nơ-ron hồi quy (RNN) được thiết kế để học hiệu quả các phụ thuộc tầm xa trong dữ liệu tuần tự. Không giống như RNN cơ bản, vốn gặp khó khăn trong việc lưu giữ thông tin trên các chuỗi mở rộng do các vấn đề như vấn đề biến mất gradient , LSTM kết hợp các cơ chế nội bộ được gọi là cổng để điều chỉnh luồng thông tin, cho phép chúng ghi nhớ các chi tiết có liên quan và quên đi các chi tiết không liên quan trong thời gian dài. Điều này khiến chúng đặc biệt mạnh mẽ đối với các tác vụ trong Học máy (ML) và Học sâu (DL) liên quan đến chuỗi.
Sự đổi mới chính của LSTM nằm ở cấu trúc bên trong của chúng, bao gồm một ô nhớ và ba cổng chính:
Các cổng này, được triển khai bằng các hàm như sigmoid và tanh , cho phép Mạng nơ-ron LSTM (NN) cập nhật bộ nhớ của nó một cách có chọn lọc, bảo toàn ngữ cảnh quan trọng từ các phần trước của chuỗi trong khi xử lý các phần sau. Cơ chế này được đào tạo thông qua truyền ngược , tương tự như các mạng nơ-ron khác. Để giải thích trực quan, bài đăng trên blog của Christopher Olah về LSTM cung cấp tổng quan tuyệt vời.
LSTM có ảnh hưởng lớn trong các lĩnh vực xử lý dữ liệu tuần tự do khả năng nắm bắt các phụ thuộc về thời gian. Chúng đại diện cho một bước tiến đáng kể so với RNN đơn giản hơn cho nhiều tác vụ. Trong khi các kiến trúc mới hơn như Transformers đã trở nên thống trị trong các lĩnh vực như Xử lý ngôn ngữ tự nhiên (NLP) do song song hóa và xử lý tốt hơn các chuỗi rất dài thông qua các cơ chế chú ý , LSTM vẫn có liên quan và đôi khi được sử dụng trong các kiến trúc lai hoặc cho các vấn đề mô hình hóa chuỗi cụ thể mà trạng thái của chúng có lợi.
LSTM đã được áp dụng thành công trong nhiều lĩnh vực:
LSTM có thể được triển khai dễ dàng bằng cách sử dụng các khuôn khổ học sâu phổ biến như PyTorch (xem tài liệu LSTM PyTorch ) và TensorFlow (xem tài liệu LSTM TensorFlow ). Trong khi Ultralytics chủ yếu tập trung vào các mô hình Computer Vision (CV) như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng và phân đoạn thể hiện , việc hiểu các mô hình trình tự rất có giá trị, đặc biệt là khi nghiên cứu khám phá việc kết nối NLP và CV cho các tác vụ như hiểu video hoặc chú thích hình ảnh. Bạn có thể khám phá thêm nhiều mô hình và khái niệm ML khác nhau trong tài liệu Ultralytics . Bài báo LSTM cơ bản của Hochreiter và Schmidhuber cung cấp các chi tiết kỹ thuật ban đầu.