Khám phá cách mạng Bộ nhớ dài hạn ngắn hạn (LSTM) xử lý dữ liệu tuần tự, khắc phục hạn chế của RNN và hỗ trợ các tác vụ AI như NLP và dự báo.
Long Short-Term Memory (LSTM) là một loại kiến trúc Mạng nơ-ron hồi quy (RNN) chuyên biệt được thiết kế để khắc phục những hạn chế của RNN truyền thống trong việc học các phụ thuộc tầm xa. Được Sepp Hochreiter và Jürgen Schmidhuber giới thiệu vào năm 1997, LSTM đặc biệt hiệu quả trong việc xử lý các chuỗi dữ liệu, chẳng hạn như văn bản, lời nói và chuỗi thời gian , trong đó ngữ cảnh từ các phần trước của chuỗi là rất quan trọng để hiểu các phần sau. Khả năng này khiến chúng trở thành công nghệ nền tảng trong nhiều ứng dụng Học sâu (DL) .
RNN truyền thống gặp khó khăn với vấn đề gradient biến mất , trong đó thông tin từ các bước đầu tiên trong một chuỗi mờ dần khi nó lan truyền qua mạng, khiến việc học các mối phụ thuộc trong các khoảng thời gian dài trở nên khó khăn. LSTM giải quyết vấn đề này bằng cách sử dụng một cấu trúc độc đáo bao gồm các ô nhớ và cổng.
Thành phần cốt lõi là ô nhớ, hoạt động như một băng chuyền, cho phép thông tin chảy qua mạng tương đối không thay đổi. LSTM sử dụng ba "cổng" chính để điều chỉnh thông tin được lưu trữ trong ô nhớ:
Các cổng này, được triển khai bằng cách sử dụng các hàm kích hoạt như sigmoid và tanh , tìm hiểu thông tin nào là quan trọng để giữ lại hoặc loại bỏ tại mỗi bước thời gian, cho phép mạng duy trì bối cảnh có liên quan trên các chuỗi mở rộng.
LSTM đã được áp dụng thành công trong nhiều lĩnh vực đòi hỏi mô hình hóa trình tự:
Mặc dù mạnh mẽ, LSTM chỉ là một phần của họ mô hình trình tự rộng hơn:
LSTM có thể được triển khai dễ dàng bằng cách sử dụng các khuôn khổ học sâu phổ biến như PyTorch (xem tài liệu LSTM PyTorch ) và TensorFlow (xem tài liệu LSTM TensorFlow ). Trong khi Ultralytics chủ yếu tập trung vào các mô hình Thị giác máy tính (CV) như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng và phân đoạn thể hiện , việc hiểu các mô hình trình tự rất có giá trị, đặc biệt là khi nghiên cứu khám phá việc kết nối NLP và CV cho các tác vụ như hiểu video hoặc chú thích hình ảnh. Bạn có thể khám phá thêm nhiều mô hình và khái niệm ML khác nhau trong tài liệu Ultralytics . Việc quản lý đào tạo và triển khai nhiều mô hình khác nhau có thể được sắp xếp hợp lý bằng các nền tảng như Ultralytics HUB . Bài báo LSTM cơ bản của Hochreiter và Schmidhuber cung cấp các chi tiết kỹ thuật ban đầu. Các nguồn như DeepLearning.AI cung cấp các khóa học bao gồm các mô hình trình tự, bao gồm LSTM.