Thuật ngữ

Người dài

Khám phá Longformer, mô hình biến đổi được tối ưu hóa cho các chuỗi dài, mang lại hiệu quả có thể mở rộng cho NLP, nghiên cứu bộ gen và phân tích video.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Longformer là một loại kiến trúc mô hình máy biến áp được thiết kế để xử lý các chuỗi dữ liệu cực dài hiệu quả hơn so với máy biến áp truyền thống. Cải tiến này giải quyết một hạn chế chính của các mô hình máy biến áp tiêu chuẩn, vốn gặp khó khăn với các đầu vào dài do các ràng buộc tính toán tỷ lệ thuận với độ dài chuỗi.

Hiểu về Longformer

Các mô hình biến đổi truyền thống, mặc dù mạnh mẽ, nhưng phải đối mặt với những thách thức khi xử lý các chuỗi văn bản, âm thanh hoặc video dài. Độ phức tạp về mặt tính toán của cơ chế chú ý của chúng tăng theo cấp số nhân với độ dài chuỗi đầu vào, khiến chúng trở nên không thực tế đối với các tài liệu dài hoặc đầu vào có độ phân giải cao. Longformer giải quyết vấn đề này bằng cách giới thiệu một cơ chế chú ý có thể mở rộng tuyến tính theo độ dài chuỗi. Sự đổi mới này cho phép mô hình xử lý các đầu vào là hàng nghìn hoặc thậm chí hàng chục nghìn mã thông báo, mở ra những khả năng mới để xử lý các ngữ cảnh dài hơn trong nhiều tác vụ AI khác nhau.

Chìa khóa cho hiệu quả của Longformer là cơ chế chú ý kết hợp, kết hợp nhiều loại chú ý khác nhau:

  • Cửa sổ trượt Chú ý : Mỗi mã thông báo sẽ xử lý một số lượng mã thông báo cố định xung quanh nó, tạo ra một ngữ cảnh cục bộ. Điều này hiệu quả về mặt tính toán và nắm bắt các phụ thuộc cục bộ một cách hiệu quả.
  • Global Attention : Một số token được xác định trước sẽ chú ý đến tất cả các token khác và tất cả các token sẽ chú ý đến các token toàn cầu này. Điều này cho phép mô hình học các biểu diễn toàn cầu và duy trì ngữ cảnh tổng thể trong toàn bộ chuỗi dài.
  • Sự chú ý của cửa sổ trượt giãn nở : Tương tự như sự chú ý của cửa sổ trượt nhưng có khoảng trống (sự giãn nở) trong cửa sổ, cho phép trường tiếp nhận hiệu quả lớn hơn với chi phí tính toán tương tự.

Bằng cách kết hợp chiến lược các cơ chế chú ý này, Longformer giảm đáng kể gánh nặng tính toán trong khi vẫn giữ được khả năng mô hình hóa các phụ thuộc tầm xa quan trọng để hiểu các đầu vào dài. Điều này làm cho Longformer đặc biệt có giá trị trong các tác vụ xử lý ngôn ngữ tự nhiên (NLP) xử lý tài liệu, bài viết hoặc cuộc hội thoại và trong các tác vụ thị giác máy tính liên quan đến hình ảnh hoặc video có độ phân giải cao.

Ứng dụng của Longformer

Khả năng xử lý chuỗi dài của Longformer khiến nó phù hợp với nhiều ứng dụng mà độ dài ngữ cảnh là rất quan trọng:

  • Tóm tắt tài liệu : Trong các tác vụ đòi hỏi phải hiểu toàn bộ tài liệu để tạo ra các bản tóm tắt mạch lạc, Longformer vượt trội khi xử lý đầu vào toàn văn bản. Ví dụ, trong phân tích hình ảnh pháp lý hoặc y tế , trong đó bối cảnh từ các báo cáo dài là điều cần thiết, Longformer có thể cung cấp các bản tóm tắt toàn diện và chính xác hơn so với các mô hình có cửa sổ bối cảnh hạn chế.
  • Trả lời câu hỏi trên các tài liệu dài : Longformer rất hiệu quả trong các hệ thống trả lời câu hỏi cần lấy thông tin từ các tài liệu dài. Ví dụ, trong các ứng dụng AI pháp lý, Longformer có thể được sử dụng để trả lời các câu hỏi pháp lý cụ thể dựa trên các tài liệu vụ án dài hoặc luật lệ, mang lại lợi thế đáng kể so với các mô hình chỉ có thể xử lý các đoạn văn bản tại một thời điểm.
  • Xử lý dữ liệu bộ gen : Ngoài văn bản, kiến trúc của Longformer có thể thích ứng với các loại dữ liệu tuần tự khác, bao gồm trình tự bộ gen. Trong tin sinh học, việc phân tích trình tự DNA hoặc RNA dài là rất quan trọng để hiểu các quá trình sinh học và bệnh tật. Longformer có thể xử lý các trình tự dài này để xác định các mẫu và mối quan hệ có thể bị bỏ sót bởi các mô hình có khả năng ngữ cảnh ngắn hơn.
  • Phân tích video dài : Trong các tác vụ thị giác máy tính liên quan đến video, đặc biệt là những tác vụ đòi hỏi phải hiểu các sự kiện trong thời gian dài, Longformer có thể được áp dụng để xử lý các chuỗi khung hình dài. Điều này có lợi trong các ứng dụng như giám sát hoặc phân tích các quy trình phẫu thuật dài, trong đó bối cảnh thời gian là rất quan trọng.

Các mô hình Longformer và Transformer

Longformer là sự phát triển của kiến trúc Transformer ban đầu, được thiết kế đặc biệt để khắc phục những hạn chế về mặt tính toán của các transformer tiêu chuẩn khi xử lý các chuỗi dài. Trong khi các transformer truyền thống sử dụng sự tự chú ý hoàn toàn, vốn phức tạp theo phương pháp bậc hai, Longformer đưa ra các mẫu chú ý thưa thớt để đạt được độ phức tạp tuyến tính. Điều này khiến Longformer trở thành một tùy chọn có khả năng mở rộng và hiệu quả hơn cho các tác vụ liên quan đến các phụ thuộc tầm xa, đồng thời vẫn giữ được các điểm mạnh cốt lõi của kiến trúc transformer trong việc nắm bắt các mối quan hệ theo ngữ cảnh. Đối với các tác vụ có chuỗi đầu vào ngắn hơn, các transformer tiêu chuẩn có thể đủ, nhưng đối với các ứng dụng đòi hỏi phải xử lý ngữ cảnh mở rộng, Longformer cung cấp một lợi thế đáng kể. Bạn có thể khám phá các kiến trúc mô hình khác như YOLO -NAS hoặc RT-DETR trong Ultralytics hệ sinh thái được thiết kế cho các nhiệm vụ phát hiện đối tượng hiệu quả và chính xác, thể hiện bối cảnh đa dạng của các kiến trúc mô hình trong AI.

Đọc tất cả