Khám phá Longformer, mô hình biến đổi được tối ưu hóa cho các chuỗi dài, mang lại hiệu quả có thể mở rộng cho NLP, nghiên cứu bộ gen và phân tích video.
Longformer là một mô hình chuyên biệt dựa trên Transformer được thiết kế để xử lý hiệu quả các chuỗi văn bản rất dài, khắc phục những hạn chế được tìm thấy trong các mô hình trước đó như BERT (Bidirectional Encoder Representations from Transformers) . Được phát triển bởi các nhà nghiên cứu tại Viện Allen về AI (AI2) , Longformer giải quyết thách thức mà các mô hình Transformer tiêu chuẩn phải đối mặt với độ phức tạp về mặt tính toán khi xử lý hàng nghìn mã thông báo, khiến nó phù hợp với các tác vụ liên quan đến các tài liệu dài. Khả năng này rất quan trọng để thúc đẩy các ứng dụng Xử lý ngôn ngữ tự nhiên (NLP) đòi hỏi phải hiểu ngữ cảnh trên các khoảng văn bản rộng lớn.
Các mô hình Standard Transformer sử dụng cơ chế tự chú ý đầy đủ, trong đó mọi token đều chú ý đến mọi token khác. Mặc dù mạnh mẽ, nhưng yêu cầu về bộ nhớ và tính toán của cơ chế này tăng theo cấp số nhân với độ dài chuỗi, khiến nó không thực tế đối với các chuỗi dài hơn vài trăm token. Longformer giới thiệu một mô hình chú ý hiệu quả có tỷ lệ tuyến tính với độ dài chuỗi. Nó chủ yếu sử dụng sự kết hợp của:
[CLS]
mã thông báo trong nhiệm vụ phân loại.Cơ chế chú ý được sửa đổi này cho phép Longformer xử lý đầu vào lên đến hàng chục nghìn mã thông báo, dài hơn đáng kể so với giới hạn 512 mã thông báo thông thường của các mô hình như BERT, trong khi vẫn duy trì hiệu suất mạnh mẽ. Hiệu quả này rất quan trọng đối với nhiều tác vụ học máy (ML) trong thế giới thực.
Sự khác biệt chính giữa Longformer và các mô hình như BERT hoặc GPT-2 nằm ở độ dài chuỗi tối đa mà chúng có thể xử lý hiệu quả. Trong khi BERT bị giới hạn ở 512 mã thông báo, Longformer có thể quản lý các chuỗi dài hơn gấp nhiều lần. Các mô hình khác được thiết kế cho các chuỗi dài, chẳng hạn như Reformer hoặc Transformer-XL , sử dụng các kỹ thuật khác nhau như băm nhạy cảm với vị trí hoặc cơ chế lặp lại để đạt được hiệu quả. Phương pháp tiếp cận của Longformer, được trình bày chi tiết trong bài báo nghiên cứu ban đầu của mình, cung cấp sự kết hợp linh hoạt giữa sự chú ý cục bộ và toàn cục phù hợp với nhiều tác vụ hạ nguồn khác nhau sau khi tinh chỉnh .
Khả năng xử lý các tài liệu dài của Longformer mở ra khả năng thực hiện nhiều tác vụ NLP trước đây rất khó khăn hoặc đòi hỏi các giải pháp phức tạp như chia nhỏ tài liệu.
Longformer đại diện cho một bước tiến đáng kể trong việc cho phép các mô hình học sâu hiểu và lý luận trên văn bản dài. Bằng cách khắc phục tình trạng tắc nghẽn phức tạp bậc hai của các Transformers chuẩn, nó cho phép các Mô hình ngôn ngữ lớn (LLM) giải quyết các nhiệm vụ liên quan đến tài liệu, sách và các cuộc đối thoại mở rộng hiệu quả hơn. Khả năng này rất cần thiết cho các ứng dụng đòi hỏi sự hiểu biết sâu sắc về ngữ cảnh, mở rộng ranh giới của những gì AI có thể đạt được trong việc xử lý ngôn ngữ của con người được tìm thấy ở các định dạng dài. Trong khi các mô hình như Ultralytics YOLO excel trong các tác vụ thị giác máy tính như phát hiện đối tượng , Longformer cung cấp những tiến bộ tương tự để xử lý dữ liệu văn bản dài, phức tạp. Các công cụ như Ultralytics HUB hợp lý hóa việc triển khai và quản lý nhiều mô hình AI khác nhau, bao gồm cả những mô hình có khả năng được tinh chỉnh cho các tác vụ NLP cụ thể.