Khám phá sức mạnh của Vision Transformers (ViTs) trong thị giác máy tính. Tìm hiểu cách chúng vượt trội hơn CNN bằng cách nắm bắt bối cảnh hình ảnh toàn cầu.
Vision Transformer (ViT) đánh dấu bước phát triển then chốt trong lĩnh vực thị giác máy tính (CV) , áp dụng kiến trúc Transformer cực kỳ thành công, ban đầu được thiết kế cho xử lý ngôn ngữ tự nhiên (NLP), vào các tác vụ dựa trên hình ảnh. Không giống như Mạng nơ-ron tích chập (CNN) truyền thống xử lý hình ảnh bằng các lớp bộ lọc cục bộ theo từng lớp, ViT chia hình ảnh thành các bản vá có kích thước cố định, coi chúng như một chuỗi mã thông báo (tương tự như các từ trong câu) và xử lý chúng bằng cơ chế tự chú ý của Transformer. Điều này cho phép ViT nắm bắt ngữ cảnh toàn cầu và các phụ thuộc tầm xa trong hình ảnh hiệu quả hơn nhiều kiến trúc CNN, dẫn đến kết quả tiên tiến trên nhiều điểm chuẩn khác nhau, đặc biệt là khi được đào tạo trên các tập dữ liệu lớn như ImageNet .
Ý tưởng cốt lõi đằng sau ViT liên quan đến việc định hình lại mô hình xử lý hình ảnh. Một hình ảnh đầu vào đầu tiên được chia thành một lưới các bản vá không chồng chéo. Mỗi bản vá được làm phẳng thành một vectơ và sau đó được chiếu tuyến tính vào một không gian nhúng. Để giữ lại thông tin không gian, các nhúng vị trí được thêm vào các nhúng bản vá này. Chuỗi các vectơ này, hiện biểu diễn các bản vá hình ảnh với vị trí của chúng, được đưa vào một bộ mã hóa Transformer chuẩn, như được mô tả chi tiết trong bài báo gốc "Một hình ảnh có giá trị bằng 16x16 từ" .
Bộ mã hóa Transformer, bao gồm nhiều lớp, phụ thuộc rất nhiều vào cơ chế tự chú ý . Cơ chế này cho phép mô hình cân nhắc tầm quan trọng của các bản vá khác nhau so với nhau một cách động, cho phép nó tìm hiểu mối quan hệ giữa các phần xa nhau của hình ảnh. Trường tiếp nhận toàn cục này trái ngược với trường tiếp nhận cục bộ thông thường của CNN, mang lại cho ViT lợi thế trong việc hiểu bối cảnh tổng thể của cảnh. Các nguồn như The Illustrated Transformer cung cấp các giải thích trực quan về các khái niệm Transformer cơ bản. Các khuôn khổ như PyTorch và TensorFlow cung cấp các triển khai của các thành phần này.
Vision Transformers đã trở nên cực kỳ quan trọng trong học sâu hiện đại do khả năng mở rộng và hiệu suất ấn tượng của chúng, đặc biệt là với quá trình đào tạo trước quy mô lớn. Khả năng mô hình hóa bối cảnh toàn cầu của chúng khiến chúng phù hợp với nhiều tác vụ CV ngoài phân loại hình ảnh cơ bản, bao gồm:
ViTs ngày càng được tích hợp vào các nền tảng như Ultralytics HUB và các thư viện như Hugging Face Transformers , giúp chúng có thể truy cập được để nghiên cứu và triển khai. Chúng cũng có thể được tối ưu hóa để triển khai Edge AI trên các thiết bị như NVIDIA Jetson .
Mặc dù cả ViT và CNN đều là những kiến trúc nền tảng trong thị giác máy tính (xem Lịch sử các mô hình thị giác ), nhưng chúng có cách tiếp cận khác nhau đáng kể:
Sự lựa chọn giữa ViT và CNN thường phụ thuộc vào nhiệm vụ cụ thể, dữ liệu có sẵn và tài nguyên tính toán. ViT thường vượt trội khi có sẵn lượng lớn dữ liệu đào tạo, trong khi CNN như trong họ Ultralytics YOLO vẫn có hiệu quả cao và hiệu suất cao, đặc biệt là đối với việc phát hiện đối tượng theo thời gian thực trên các thiết bị hạn chế.