Khám phá cách Transformers cách mạng hóa NLP và CV với sự tự chú ý, xử lý song song và các ứng dụng thực tế như YOLO và ViT.
Transformer là một kiến trúc mô hình học sâu được Vaswani và cộng sự giới thiệu vào năm 2017 trong bài báo có tính đột phá "Attention is All You Need" . Nó đã cách mạng hóa lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) và ngày càng được áp dụng nhiều hơn vào các tác vụ Thị giác máy tính (CV) . Không giống như các mô hình trước đây dựa trên Mạng nơ-ron hồi quy (RNN) hoặc Mạng nơ-ron tích chập (CNN) , Transformer chỉ dựa vào cơ chế chú ý để rút ra các mối phụ thuộc toàn cục giữa đầu vào và đầu ra.
Kiến trúc Transformer dựa trên cấu trúc mã hóa-giải mã. Bộ mã hóa xử lý chuỗi đầu vào và tạo ra biểu diễn ngữ cảnh, trong khi bộ giải mã sử dụng biểu diễn này để tạo ra chuỗi đầu ra. Đổi mới chính là cơ chế tự chú ý , cho phép mô hình cân nhắc tầm quan trọng của từng phần của chuỗi đầu vào liên quan đến tất cả các phần khác. Cơ chế này cho phép mô hình nắm bắt các phụ thuộc tầm xa hiệu quả hơn RNN.
Transformer xử lý dữ liệu đầu vào song song, không giống như RNN, xử lý dữ liệu theo trình tự. Quá trình xử lý song song này có thể thực hiện được nhờ cơ chế tự chú ý, cơ chế này tính toán mối quan hệ giữa tất cả các từ trong một câu cùng một lúc. Mô hình cũng kết hợp mã hóa vị trí để lưu giữ thông tin về thứ tự các từ trong chuỗi đầu vào. Bộ mã hóa và giải mã bao gồm nhiều lớp, mỗi lớp chứa mạng nơ-ron tự chú ý và mạng nơ-ron truyền thẳng. Cấu trúc phân lớp này cho phép mô hình học các mẫu và biểu diễn phức tạp từ dữ liệu.
Transformers cung cấp một số lợi thế so với các kiến trúc trước đây. Khả năng xử lý dữ liệu song song của chúng làm giảm đáng kể thời gian đào tạo. Cơ chế tự chú ý cho phép chúng nắm bắt các phụ thuộc tầm xa hiệu quả hơn, dẫn đến hiệu suất được cải thiện đối với các tác vụ đòi hỏi phải hiểu ngữ cảnh. Hơn nữa, Transformers có khả năng mở rộng cao và có thể được đào tạo trên các tập dữ liệu lớn, khiến chúng phù hợp với nhiều ứng dụng khác nhau. Các mô hình YOLO Ultralytics hỗ trợ mô hình transformer được thiết kế để phát hiện đối tượng.
Transformers đã được áp dụng thành công vào nhiều tác vụ NLP khác nhau, bao gồm dịch máy, tóm tắt văn bản và trả lời câu hỏi. Ví dụ, BERT (Bidirectional Encoder Representations from Transformers) của Google và GPT (Generative Pre-trained Transformers) của OpenAI đều dựa trên kiến trúc Transformer và đã đạt được kết quả tiên tiến trong nhiều chuẩn NLP. Trong thị giác máy tính, các mô hình như Vision Transformer (ViT) đã chỉ ra rằng Transformers có thể vượt trội hơn CNN trong các tác vụ phân loại hình ảnh bằng cách xử lý hình ảnh như các chuỗi bản vá.
So với RNN, Transformers vượt trội trong việc nắm bắt các phụ thuộc tầm xa và có thể được đào tạo nhanh hơn nhiều do khả năng xử lý song song của chúng. Trong khi CNN hiệu quả trong việc xử lý dữ liệu dạng lưới như hình ảnh, Transformers linh hoạt hơn và có thể xử lý các chuỗi có độ dài thay đổi, khiến chúng phù hợp cho cả tác vụ NLP và CV. Không giống như Mô hình ngôn ngữ lớn (LLM) , chủ yếu tập trung vào việc tạo và hiểu văn bản, Transformers có phạm vi ứng dụng rộng hơn, bao gồm cả tác vụ ngôn ngữ và thị giác.
Kiến trúc Transformer tiếp tục phát triển, với các nghiên cứu đang diễn ra nhằm cải thiện hiệu quả và mở rộng các ứng dụng của nó. Những cải tiến như sự chú ý thưa thớt và sự chú ý tuyến tính nhằm mục đích giảm chi phí tính toán của sự tự chú ý, giúp khả thi khi áp dụng Transformers cho các chuỗi thậm chí còn dài hơn. Các nhà nghiên cứu cũng đang khám phá các cách kết hợp thế mạnh của Transformers với các kiến trúc khác, chẳng hạn như CNN, để tạo ra các mô hình lai vượt trội trong nhiều tác vụ khác nhau. Khi lĩnh vực này tiến triển, Transformers được kỳ vọng sẽ đóng vai trò ngày càng quan trọng trong việc thúc đẩy Trí tuệ nhân tạo (AI) và Học máy (ML) . Bạn có thể khám phá thêm về những tiến bộ này trên Blog Ultralytics .