Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Longformer

Khám phá kiến ​​trúc Longformer để xử lý hiệu quả các chuỗi dữ liệu dài. Tìm hiểu cách cơ chế chú ý thưa thớt khắc phục giới hạn bộ nhớ trong xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính.

Longformer là một loại kiến ​​trúc Học sâu chuyên biệt được thiết kế để xử lý hiệu quả các chuỗi dữ liệu dài, khắc phục những hạn chế của các mô hình truyền thống. Ban đầu được giới thiệu để giải quyết các hạn chế của Transformer tiêu chuẩn, vốn thường gặp khó khăn với các chuỗi dài hơn 512 token do hạn chế về bộ nhớ, Longformer sử dụng cơ chế chú ý được sửa đổi. Bằng cách giảm độ phức tạp tính toán từ bậc hai xuống bậc nhất, kiến ​​trúc này cho phép các hệ thống AI phân tích toàn bộ tài liệu, bản ghi dài hoặc chuỗi gen phức tạp chỉ trong một lần xử lý mà không cần cắt bớt dữ liệu đầu vào.

Vấn đề tắc nghẽn sự chú ý

Để hiểu được tầm quan trọng của Longformer, điều cần thiết là phải xem xét những hạn chế của các mô hình tiền nhiệm như BERT và các mô hình GPT-3 đời đầu. Các mô hình transformer tiêu chuẩn sử dụng cơ chế "tự chú ý", trong đó mỗi token (từ hoặc một phần của từ) chú ý đến mọi token khác trong chuỗi. Điều này tạo ra chi phí tính toán theo bậc hai; việc tăng gấp đôi độ dài chuỗi sẽ làm tăng gấp bốn lần bộ nhớ cần thiết trên GPU . Do đó, hầu hết các mô hình tiêu chuẩn đều đặt ra giới hạn nghiêm ngặt về kích thước đầu vào, thường buộc các nhà khoa học dữ liệu phải chia tài liệu thành các đoạn nhỏ hơn, không liên kết, dẫn đến mất ngữ cảnh.

Longformer giải quyết vấn đề này bằng cách giới thiệu Sparse Attention . Thay vì kết nối toàn diện, nó sử dụng sự kết hợp giữa cơ chế chú ý cục bộ theo cửa sổ và chú ý toàn cục:

  • Cơ chế chú ý cửa sổ trượt: Mỗi token chỉ chú ý đến các token lân cận trực tiếp của nó. Điều này giúp nắm bắt ngữ cảnh cục bộ và cấu trúc cú pháp, tương tự như cách mạng nơ-ron tích chập (CNN) xử lý hình ảnh.
  • Cửa sổ trượt giãn nở: Để tăng trường tiếp nhận mà không làm tăng khả năng tính toán, cửa sổ có thể tích hợp các khoảng trống, cho phép mô hình nhìn thấy "xa hơn" trong văn bản.
  • Chú trọng toàn cầu: Các mã thông báo được chọn trước cụ thể (như mã thông báo phân loại). [CLS]) chú ý đến tất cả các token khác trong chuỗi, và tất cả các token đều chú ý đến chúng. Điều này đảm bảo mô hình duy trì sự hiểu biết cấp cao về toàn bộ đầu vào cho các nhiệm vụ như tóm tắt văn bản.

Các Ứng dụng Thực tế

Khả năng xử lý hàng ngàn mã thông báo cùng lúc mở ra những khả năng mới cho Xử lý ngôn ngữ tự nhiên (NLP) và nhiều lĩnh vực khác.

1. Phân tích tài liệu pháp lý và y tế

Trong các ngành như luật và y tế, tài liệu hiếm khi ngắn. Một hợp đồng pháp lý hoặc bệnh án của bệnh nhân có thể dài hàng chục trang. Các mô hình ngôn ngữ lớn (LLM) truyền thống yêu cầu các tài liệu này phải được phân mảnh, có khả năng bỏ sót các mối liên hệ quan trọng giữa một điều khoản ở trang 1 và một định nghĩa ở trang 30. Longformer cho phép nhận dạng thực thể được đặt tên (NER) và phân loại trên toàn bộ tài liệu cùng một lúc, đảm bảo rằng ngữ cảnh toàn cục ảnh hưởng đến việc diễn giải các thuật ngữ cụ thể.

2. Hỏi đáp dạng câu hỏi dài (QA)

Các hệ thống trả lời câu hỏi tiêu chuẩn thường gặp khó khăn khi câu trả lời yêu cầu tổng hợp thông tin phân tán trong một bài viết dài. Bằng cách lưu trữ toàn bộ văn bản trong bộ nhớ, các mô hình dựa trên Longformer có thể thực hiện suy luận đa bước, kết nối các sự kiện được tìm thấy trong các đoạn văn khác nhau để tạo ra một câu trả lời toàn diện. Điều này rất quan trọng đối với các hệ thống hỗ trợ kỹ thuật tự động và các công cụ nghiên cứu học thuật.

Phân biệt các thuật ngữ chính

  • So sánh Longformer và Transformer : Transformer tiêu chuẩn sử dụng cơ chế chú ý đầy đủ $N^2$, giúp nó chính xác nhưng tốn kém về mặt tính toán đối với các đầu vào dài. Longformer sử dụng cơ chế chú ý thưa $N$, đánh đổi một lượng nhỏ dung lượng lý thuyết để đạt được hiệu quả vượt trội, cho phép đầu vào từ 4.096 token trở lên.
  • So sánh Longformer và Transformer-XL : Cả hai đều xử lý được các chuỗi dài, nhưng Transformer-XL dựa vào cơ chế lặp lại (lưu trữ trạng thái trước đó) để ghi nhớ các phân đoạn trong quá khứ. Longformer xử lý chuỗi dài một cách trực tiếp trong một lần, điều này đơn giản hóa việc huấn luyện song song trên các nền tảng như Ultralytics Platform .
  • Longformer so với BigBird : Đây là hai kiến ​​trúc rất giống nhau được phát triển cùng thời điểm. Cả hai đều sử dụng cơ chế chú ý thưa để đạt được khả năng mở rộng tuyến tính. BigBird giới thiệu thêm một thành phần chú ý ngẫu nhiên cụ thể bên cạnh các cửa sổ trượt.

Khái niệm triển khai

Mặc dù Longformer là một kiến ​​trúc chứ không phải là một hàm cụ thể, việc hiểu cách chuẩn bị dữ liệu cho các mô hình ngữ cảnh dài là rất quan trọng. Trong các framework hiện đại như PyTorch , điều này thường liên quan đến việc quản lý các embedding vượt quá giới hạn tiêu chuẩn.

Ví dụ sau đây minh họa cách tạo một đầu vào giả lập. tensor trong trường hợp ngữ cảnh dài, hãy so sánh nó với kích thước điển hình được sử dụng trong các mô hình phát hiện tiêu chuẩn như YOLO26 .

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

Sự liên quan đến thị giác máy tính

Mặc dù ban đầu được thiết kế cho văn bản, các nguyên tắc đằng sau Longformer đã ảnh hưởng đến Thị giác máy tính . Khái niệm giới hạn sự chú ý vào một vùng lân cận cục bộ tương tự như các thao tác cục bộ trong các tác vụ thị giác. Vision Transformers (ViT) cũng gặp phải các vấn đề về khả năng mở rộng tương tự với hình ảnh độ phân giải cao vì số lượng pixel (hoặc mảng) có thể rất lớn. Các kỹ thuật được phát triển từ cơ chế chú ý thưa thớt của Longformer được sử dụng để cải thiện hiệu quả phân loại hình ảnhphát hiện đối tượng , giúp các mô hình như YOLO26 duy trì tốc độ cao trong khi xử lý dữ liệu hình ảnh chi tiết.

Để tìm hiểu thêm về các chi tiết kiến ​​trúc, bài báo gốc Longformer của AllenAI cung cấp các tiêu chuẩn đánh giá chuyên sâu và các lý giải lý thuyết. Ngoài ra, việc huấn luyện hiệu quả các mô hình lớn như vậy thường được hưởng lợi từ các kỹ thuật như độ chính xác hỗn hợpcác thuật toán tối ưu hóa nâng cao.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay