Thuật ngữ

Máy biến đổi tầm nhìn (ViT)

Khám phá sức mạnh của Vision Transformers (ViTs) trong thị giác máy tính. Tìm hiểu cách chúng vượt trội hơn CNN bằng cách nắm bắt bối cảnh hình ảnh toàn cầu.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Vision Transformer (ViT) đánh dấu bước phát triển then chốt trong lĩnh vực thị giác máy tính (CV) , áp dụng kiến trúc Transformer cực kỳ thành công, ban đầu được thiết kế cho xử lý ngôn ngữ tự nhiên (NLP), vào các tác vụ dựa trên hình ảnh. Không giống như Mạng nơ-ron tích chập (CNN) truyền thống xử lý hình ảnh bằng các lớp bộ lọc cục bộ theo từng lớp, ViT chia hình ảnh thành các bản vá có kích thước cố định, coi chúng như một chuỗi mã thông báo (tương tự như các từ trong câu) và xử lý chúng bằng cơ chế tự chú ý của Transformer. Điều này cho phép ViT nắm bắt ngữ cảnh toàn cầu và các phụ thuộc tầm xa trong hình ảnh hiệu quả hơn nhiều kiến trúc CNN, dẫn đến kết quả tiên tiến trên nhiều điểm chuẩn khác nhau, đặc biệt là khi được đào tạo trên các tập dữ liệu lớn như ImageNet .

Cách thức hoạt động của Vision Transformers

Ý tưởng cốt lõi đằng sau ViT liên quan đến việc định hình lại mô hình xử lý hình ảnh. Một hình ảnh đầu vào đầu tiên được chia thành một lưới các bản vá không chồng chéo. Mỗi bản vá được làm phẳng thành một vectơ và sau đó được chiếu tuyến tính vào một không gian nhúng. Để giữ lại thông tin không gian, các nhúng vị trí được thêm vào các nhúng bản vá này. Chuỗi các vectơ này, hiện biểu diễn các bản vá hình ảnh với vị trí của chúng, được đưa vào một bộ mã hóa Transformer chuẩn, như được mô tả chi tiết trong bài báo gốc "Một hình ảnh có giá trị bằng 16x16 từ" .

Bộ mã hóa Transformer, bao gồm nhiều lớp, phụ thuộc rất nhiều vào cơ chế tự chú ý . Cơ chế này cho phép mô hình cân nhắc tầm quan trọng của các bản vá khác nhau so với nhau một cách động, cho phép nó tìm hiểu mối quan hệ giữa các phần xa nhau của hình ảnh. Trường tiếp nhận toàn cục này trái ngược với trường tiếp nhận cục bộ thông thường của CNN, mang lại cho ViT lợi thế trong việc hiểu bối cảnh tổng thể của cảnh. Các nguồn như The Illustrated Transformer cung cấp các giải thích trực quan về các khái niệm Transformer cơ bản. Các khuôn khổ như PyTorchTensorFlow cung cấp các triển khai của các thành phần này.

Sự liên quan và ứng dụng

Vision Transformers đã trở nên cực kỳ quan trọng trong học sâu hiện đại do khả năng mở rộng và hiệu suất ấn tượng của chúng, đặc biệt là với quá trình đào tạo trước quy mô lớn. Khả năng mô hình hóa bối cảnh toàn cầu của chúng khiến chúng phù hợp với nhiều tác vụ CV ngoài phân loại hình ảnh cơ bản, bao gồm:

  • Phát hiện đối tượng : Các mô hình như RT-DETR , thường sử dụng các thành phần biến áp, đạt được độ chính xác cao trong việc xác định vị trí đối tượng.
  • Phân đoạn hình ảnh : ViT có thể được điều chỉnh cho các tác vụ dự đoán dày đặc như phân đoạn các đối tượng hoặc vùng khác nhau trong một hình ảnh, như được thấy trong các mô hình như Mô hình phân đoạn bất kỳ ( SAM ) .
  • Phân tích hình ảnh y tế : ViT giúp phát hiện các mẫu tinh tế chỉ ra bệnh tật trong các lần quét như chụp X-quang hoặc MRI, có khả năng cải thiện độ chính xác chẩn đoán trong AI trong chăm sóc sức khỏe . Ví dụ, chúng có thể xác định hình dạng khối u phức tạp hoặc phân bố có thể là thách thức đối với các mô hình tập trung tại địa phương.
  • Xe tự hành : Hiểu toàn bộ bối cảnh giao thông, bao gồm xe ở xa, người đi bộ và tín hiệu giao thông, là rất quan trọng để điều hướng an toàn. Mô hình hóa bối cảnh toàn cầu của ViTs hỗ trợ hiểu toàn diện bối cảnh cho AI trong các ứng dụng ô tô .

ViTs ngày càng được tích hợp vào các nền tảng như Ultralytics HUB và các thư viện như Hugging Face Transformers , giúp chúng có thể truy cập được để nghiên cứu và triển khai. Chúng cũng có thể được tối ưu hóa để triển khai Edge AI trên các thiết bị như NVIDIA Jetson .

ViT so với CNN

Mặc dù cả ViT và CNN đều là những kiến trúc nền tảng trong thị giác máy tính (xem Lịch sử các mô hình thị giác ), nhưng chúng có cách tiếp cận khác nhau đáng kể:

  • Xử lý: CNN sử dụng các phép toán tích chập với các hạt nhân trượt, tập trung vào các mẫu cục bộ và xây dựng các tính năng phân cấp. ViT sử dụng sự tự chú ý trên các mảng hình ảnh, tập trung vào các mối quan hệ toàn cầu ngay từ đầu.
  • Độ lệch quy nạp: CNN có độ lệch quy nạp tích hợp mạnh (như tính cục bộ và độ tương đương dịch chuyển) phù hợp với hình ảnh, thường khiến chúng hiệu quả hơn về dữ liệu trong các tập dữ liệu nhỏ hơn. ViT có độ lệch quy nạp yếu hơn và thường yêu cầu các tập dữ liệu lớn hơn (hoặc các chiến lược tiền đào tạo tinh vi như những chiến lược được CLIP sử dụng) để khái quát hóa tốt.
  • Kiến trúc: CNN bao gồm các lớp tích chập, các lớp gộp và các lớp được kết nối đầy đủ. ViT áp dụng cấu trúc mã hóa Transformer chuẩn. Các mô hình lai, kết hợp xương sống tích chập với đầu/cổ Transformer (ví dụ: các biến thể RT-DETR ), nhằm mục đích tận dụng thế mạnh của cả hai.

Sự lựa chọn giữa ViT và CNN thường phụ thuộc vào nhiệm vụ cụ thể, dữ liệu có sẵn và tài nguyên tính toán. ViT thường vượt trội khi có sẵn lượng lớn dữ liệu đào tạo, trong khi CNN như trong họ Ultralytics YOLO vẫn có hiệu quả cao và hiệu suất cao, đặc biệt là đối với việc phát hiện đối tượng theo thời gian thực trên các thiết bị hạn chế.

Đọc tất cả