Thuật ngữ

Người dài

Khám phá Longformer, mô hình biến đổi được tối ưu hóa cho các chuỗi dài, mang lại hiệu quả có thể mở rộng cho NLP, nghiên cứu bộ gen và phân tích video.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Longformer là một mô hình chuyên biệt dựa trên Transformer được thiết kế để xử lý hiệu quả các chuỗi văn bản rất dài, khắc phục những hạn chế được tìm thấy trong các mô hình trước đó như BERT (Bidirectional Encoder Representations from Transformers) . Được phát triển bởi các nhà nghiên cứu tại Viện Allen về AI (AI2) , Longformer giải quyết thách thức mà các mô hình Transformer tiêu chuẩn phải đối mặt với độ phức tạp về mặt tính toán khi xử lý hàng nghìn mã thông báo, khiến nó phù hợp với các tác vụ liên quan đến các tài liệu dài. Khả năng này rất quan trọng để thúc đẩy các ứng dụng Xử lý ngôn ngữ tự nhiên (NLP) đòi hỏi phải hiểu ngữ cảnh trên các khoảng văn bản rộng lớn.

Longformer hoạt động như thế nào

Các mô hình Standard Transformer sử dụng cơ chế tự chú ý đầy đủ, trong đó mọi token đều chú ý đến mọi token khác. Mặc dù mạnh mẽ, nhưng yêu cầu về bộ nhớ và tính toán của cơ chế này tăng theo cấp số nhân với độ dài chuỗi, khiến nó không thực tế đối với các chuỗi dài hơn vài trăm token. Longformer giới thiệu một mô hình chú ý hiệu quả có tỷ lệ tuyến tính với độ dài chuỗi. Nó chủ yếu sử dụng sự kết hợp của:

  • Cửa sổ trượt Lưu ý: Mỗi mã thông báo chỉ liên quan đến một số lượng cố định các mã thông báo lân cận ở mỗi bên, tạo ra một cửa sổ ngữ cảnh cục bộ.
  • Cửa sổ trượt giãn nở: Để tăng trường tiếp nhận mà không làm tăng đáng kể khả năng tính toán, một số lớp chú ý có cửa sổ sử dụng khoảng trống (giãn nở), cho phép các mã thông báo chú ý đến các mã thông báo ở xa hơn một cách gián tiếp.
  • Sự chú ý toàn cầu: Một số lượng nhỏ các mã thông báo được chọn trước được phép tham gia vào toàn bộ chuỗi và toàn bộ chuỗi có thể tham gia vào chúng. Điều này thường được sử dụng cho các mã thông báo cụ thể quan trọng đối với nhiệm vụ, như [CLS] mã thông báo trong nhiệm vụ phân loại.

Cơ chế chú ý được sửa đổi này cho phép Longformer xử lý đầu vào lên đến hàng chục nghìn mã thông báo, dài hơn đáng kể so với giới hạn 512 mã thông báo thông thường của các mô hình như BERT, trong khi vẫn duy trì hiệu suất mạnh mẽ. Hiệu quả này rất quan trọng đối với nhiều tác vụ học máy (ML) trong thế giới thực.

Sự khác biệt chính so với các mô hình khác

Sự khác biệt chính giữa Longformer và các mô hình như BERT hoặc GPT-2 nằm ở độ dài chuỗi tối đa mà chúng có thể xử lý hiệu quả. Trong khi BERT bị giới hạn ở 512 mã thông báo, Longformer có thể quản lý các chuỗi dài hơn gấp nhiều lần. Các mô hình khác được thiết kế cho các chuỗi dài, chẳng hạn như Reformer hoặc Transformer-XL , sử dụng các kỹ thuật khác nhau như băm nhạy cảm với vị trí hoặc cơ chế lặp lại để đạt được hiệu quả. Phương pháp tiếp cận của Longformer, được trình bày chi tiết trong bài báo nghiên cứu ban đầu của mình, cung cấp sự kết hợp linh hoạt giữa sự chú ý cục bộ và toàn cục phù hợp với nhiều tác vụ hạ nguồn khác nhau sau khi tinh chỉnh .

Ứng dụng và trường hợp sử dụng

Khả năng xử lý các tài liệu dài của Longformer mở ra khả năng thực hiện nhiều tác vụ NLP trước đây rất khó khăn hoặc đòi hỏi các giải pháp phức tạp như chia nhỏ tài liệu.

  • Trả lời câu hỏi ở cấp độ tài liệu : Tìm câu trả lời trong các tài liệu mở rộng, chẳng hạn như văn bản pháp lý, hướng dẫn kỹ thuật hoặc báo cáo dài, trong đó câu trả lời có thể phụ thuộc vào thông tin trải dài trên các đoạn văn hoặc trang.
  • Tóm tắt tài liệu dài : Tạo bản tóm tắt ngắn gọn cho toàn bộ bài viết, bài nghiên cứu hoặc chương sách bằng cách hiểu bối cảnh của toàn bộ tài liệu.
  • Giải quyết đồng tham chiếu: Xác định các đề cập đến cùng một thực thể trên các đoạn văn bản dài.
  • Phân tích tài liệu khoa học: Xử lý và trích xuất thông tin từ các bài báo học thuật dày đặc. Các nền tảng như Hugging Face cung cấp quyền truy cập dễ dàng vào các mô hình Longformer được đào tạo trước cho các ứng dụng này thông qua thư viện Transformers của họ.

Ý nghĩa trong AI/ML

Longformer đại diện cho một bước tiến đáng kể trong việc cho phép các mô hình học sâu hiểu và lý luận trên văn bản dài. Bằng cách khắc phục tình trạng tắc nghẽn phức tạp bậc hai của các Transformers chuẩn, nó cho phép các Mô hình ngôn ngữ lớn (LLM) giải quyết các nhiệm vụ liên quan đến tài liệu, sách và các cuộc đối thoại mở rộng hiệu quả hơn. Khả năng này rất cần thiết cho các ứng dụng đòi hỏi sự hiểu biết sâu sắc về ngữ cảnh, mở rộng ranh giới của những gì AI có thể đạt được trong việc xử lý ngôn ngữ của con người được tìm thấy ở các định dạng dài. Trong khi các mô hình như Ultralytics YOLO excel trong các tác vụ thị giác máy tính như phát hiện đối tượng , Longformer cung cấp những tiến bộ tương tự để xử lý dữ liệu văn bản dài, phức tạp. Các công cụ như Ultralytics HUB hợp lý hóa việc triển khai và quản lý nhiều mô hình AI khác nhau, bao gồm cả những mô hình có khả năng được tinh chỉnh cho các tác vụ NLP cụ thể.

Đọc tất cả