Thuật ngữ

Tự chú ý

Khám phá sức mạnh của sự tự chú ý trong AI, cách mạng hóa NLP, thị giác máy tính và nhận dạng giọng nói với độ chính xác theo ngữ cảnh.

Tự chú ý là một cơ chế then chốt trong trí tuệ nhân tạo (AI) hiện đại, đặc biệt nổi bật trong kiến trúc Transformer được giới thiệu trong bài báo có ảnh hưởng " Attention Is All You Need ". Nó cho phép các mô hình cân nhắc tầm quan trọng của các phần khác nhau của một chuỗi đầu vào duy nhất khi xử lý thông tin, cho phép hiểu sâu hơn về bối cảnh và các mối quan hệ trong chính dữ liệu. Điều này trái ngược với các phương pháp chú ý trước đây chủ yếu tập trung vào việc liên hệ các chuỗi đầu vào và đầu ra khác nhau. Tác động của nó đã mang tính chuyển đổi trong xử lý ngôn ngữ tự nhiên (NLP) và ngày càng có ý nghĩa quan trọng trong thị giác máy tính (CV) .

Sự chú ý bản thân hoạt động như thế nào

Ý tưởng cốt lõi đằng sau sự tự chú ý là mô phỏng khả năng tập trung vào các phần thông tin cụ thể của con người trong khi xem xét ngữ cảnh của chúng. Ví dụ, khi đọc một câu, nghĩa của một từ thường phụ thuộc vào các từ xung quanh nó. Sự tự chú ý cho phép mô hình AI đánh giá mối quan hệ giữa tất cả các yếu tố (như các từ hoặc các mảng hình ảnh) trong một chuỗi đầu vào. Nó tính toán 'điểm chú ý' cho từng yếu tố so với mọi yếu tố khác trong chuỗi. Các điểm này xác định mức độ 'chú ý' hoặc trọng số mà mỗi yếu tố nên nhận được khi tạo biểu diễn đầu ra cho một yếu tố cụ thể, cho phép mô hình tập trung vào các phần có liên quan nhất của đầu vào để hiểu ngữ cảnh và các phụ thuộc tầm xa. Quá trình này bao gồm việc tạo các biểu diễn truy vấn, khóa và giá trị cho từng yếu tố đầu vào, thường bắt nguồn từ các nhúng đầu vào bằng cách sử dụng các khuôn khổ như PyTorch hoặc TensorFlow .

Lợi ích chính

Tự chú ý mang lại một số lợi thế so với các kỹ thuật xử lý chuỗi cũ hơn như Mạng nơ-ron hồi quy (RNN) và một số khía cạnh của Mạng nơ-ron tích chập (CNN) :

Nắm bắt các mối phụ thuộc tầm xa: Nó rất hiệu quả trong việc liên hệ các phần tử cách xa nhau trong một chuỗi, khắc phục những hạn chế như độ dốc biến mất thường gặp trong RNN.
Song song hóa: Điểm chú ý giữa tất cả các cặp phần tử có thể được tính toán đồng thời, rất phù hợp để xử lý song song trên phần cứng như GPU và tăng tốc đáng kể quá trình đào tạo mô hình .
Khả năng diễn giải: Phân tích trọng số chú ý có thể cung cấp thông tin chi tiết về quá trình ra quyết định của mô hình, góp phần vào AI có thể giải thích được (XAI) .
Hiểu biết ngữ cảnh được cải thiện: Bằng cách cân nhắc mức độ liên quan của tất cả các phần đầu vào, các mô hình có được sự hiểu biết phong phú hơn về ngữ cảnh, dẫn đến hiệu suất tốt hơn trong các tác vụ phức tạp trong quá trình suy luận . Điều này rất quan trọng đối với các tác vụ được đánh giá trên các tập dữ liệu lớn như ImageNet .

Sự chú ý bản thân so với sự chú ý truyền thống

Mặc dù cả hai đều nằm trong phạm vi của cơ chế chú ý , sự chú ý tự thân khác đáng kể so với sự chú ý truyền thống. Sự chú ý truyền thống thường tính điểm chú ý giữa các yếu tố của hai chuỗi khác nhau , chẳng hạn như liên hệ các từ trong câu nguồn với các từ trong câu đích trong quá trình dịch máy (ví dụ: English Tuy nhiên, sự chú ý tự thân tính toán điểm chú ý trong một chuỗi duy nhất, liên hệ các yếu tố của đầu vào với các yếu tố khác của cùng một đầu vào. Sự tập trung nội tại này là chìa khóa cho hiệu quả của nó trong các nhiệm vụ đòi hỏi sự hiểu biết sâu sắc về cấu trúc và ngữ cảnh của đầu vào, không giống như các phương pháp chỉ tập trung vào các tính năng cục bộ thông qua phép tích chập .

Ứng dụng trong AI

Sự tự chú ý là nền tảng của nhiều mô hình tiên tiến trên nhiều lĩnh vực khác nhau:

Xử lý ngôn ngữ tự nhiên (NLP) : Nó cung cấp năng lượng cho các mô hình như BERT và GPT-4 từ các tổ chức như MởAI.
- Ví dụ 1 (Tóm tắt văn bản): Khi tóm tắt một tài liệu dài, tính năng tự chú ý giúp mô hình xác định các câu nổi bật nhất và hiểu cách các phần khác nhau của văn bản liên quan đến chủ đề chính, dẫn đến các bản tóm tắt mạch lạc và nhiều thông tin hơn được sử dụng bởi các công cụ như SummarizeBot .
- Ví dụ 2 (Dịch máy): Khi dịch "Con mèo ngồi trên tấm thảm. Nó rất mềm mại", sự tự chú ý giúp mô hình liên kết chính xác "Nó" với "Con mèo" thay vì "tấm thảm", đảm bảo bản dịch chính xác, như được thấy trong các dịch vụ như Google Dịch . Điều này rất quan trọng đối với mô hình ngôn ngữ .
Tầm nhìn máy tính : Kiến trúc như Máy biến đổi tầm nhìn (ViT) áp dụng sự chú ý vào các mảng hình ảnh.
- Ví dụ 1 ( Phát hiện đối tượng ): Các mô hình như Ultralytics YOLO12 và RT-DETR sử dụng các cơ chế dựa trên sự chú ý để tập trung vào các vùng hình ảnh có liên quan, cải thiện độ chính xác của việc phát hiện đối tượng ngay cả trong các cảnh lộn xộn. Điều này hữu ích trong các ứng dụng như lái xe tự động để xác định người đi bộ và các phương tiện khác. So sánh kỹ thuật làm nổi bật sự khác biệt về hiệu suất .
- Ví dụ 2 ( Phân loại hình ảnh ): Để phân loại hình ảnh chứa nhiều đối tượng, tính năng tự chú ý cho phép mô hình cân nhắc tầm quan trọng của các đối tượng hoặc đặc điểm khác nhau để xác định danh mục cảnh tổng thể (ví dụ: tập trung vào động vật trong ảnh động vật hoang dã từ tập dữ liệu Động vật hoang dã châu Phi ).
Các lĩnh vực khác: Nó cũng được ứng dụng trong phân đoạn hình ảnh , phân tích hình ảnh y tế và nhận dạng giọng nói .

Hướng đi trong tương lai

Nghiên cứu tiếp tục tinh chỉnh các cơ chế tự chú ý, hướng đến hiệu quả tính toán cao hơn (ví dụ, các phương pháp như FlashAttention và các biến thể chú ý thưa thớt) và khả năng ứng dụng rộng hơn. Khi các mô hình AI ngày càng phức tạp, tự chú ý được kỳ vọng sẽ vẫn là công nghệ nền tảng, thúc đẩy tiến bộ trong các lĩnh vực từ các ứng dụng AI chuyên biệt như robot đến việc theo đuổi Trí tuệ nhân tạo tổng quát (AGI) . Các công cụ và nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho việc đào tạo và triển khai các mô hình kết hợp các kỹ thuật tiên tiến này, thường có sẵn thông qua các kho lưu trữ như Hugging Face .

Tự chú ý

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Sự chú ý bản thân hoạt động như thế nào

Lợi ích chính

Sự chú ý bản thân so với sự chú ý truyền thống

Ứng dụng trong AI

Hướng đi trong tương lai

Đọc thêm blog

Tham gia Ultralytics cộng đồng