Khám phá sức mạnh của Vision Transformers (ViT). Tìm hiểu cách cơ chế tự chú ý và mã hóa vùng ảnh (patch tokenization) cách mạng hóa thị giác máy tính vượt xa các mạng nơ-ron tích chập (CNN) với Ultralytics .
Vision Transformer (ViT) là một kiến trúc học sâu thích ứng các cơ chế tự chú ý ban đầu được thiết kế cho Xử lý Ngôn ngữ Tự nhiên (NLP) để giải quyết các tác vụ thị giác. Không giống như Mạng nơ-ron tích chập (CNN) truyền thống, xử lý hình ảnh thông qua hệ thống phân cấp các lưới pixel cục bộ, ViT coi hình ảnh như một chuỗi các mảng nhỏ rời rạc. Cách tiếp cận này đã được phổ biến bởi bài báo nghiên cứu mang tính bước ngoặt "Một hình ảnh đáng giá 16x16 từ" , chứng minh rằng các kiến trúc transformer thuần túy có thể đạt được hiệu suất hàng đầu trong thị giác máy tính (CV) mà không cần dựa vào các lớp tích chập. Bằng cách tận dụng sự chú ý toàn cục, ViT có thể nắm bắt các phụ thuộc tầm xa trên toàn bộ hình ảnh ngay từ lớp đầu tiên.
Sự đổi mới cơ bản của ViT nằm ở cách nó cấu trúc dữ liệu đầu vào. Để làm cho một hình ảnh tương thích với một Transformer tiêu chuẩn, mô hình này phân tích thông tin hình ảnh thành một chuỗi các vectơ, mô phỏng cách một mô hình ngôn ngữ xử lý một câu gồm các từ.
Mặc dù cả hai kiến trúc đều hướng đến việc hiểu dữ liệu hình ảnh, nhưng chúng khác biệt đáng kể về triết lý hoạt động. Mạng nơ-ron tích chập (CNN) sở hữu một "thiên kiến quy nạp" mạnh mẽ được gọi là tính bất biến dịch chuyển, có nghĩa là chúng vốn dĩ giả định rằng các đặc điểm cục bộ (như cạnh và kết cấu) là quan trọng bất kể vị trí của chúng. Điều này làm cho CNN có hiệu quả cao về mặt dữ liệu và hoạt động tốt trên các tập dữ liệu nhỏ.
Ngược lại, Vision Transformers ít bị ảnh hưởng bởi đặc điểm hình ảnh cụ thể. Chúng phải học các mối quan hệ không gian từ đầu bằng cách sử dụng lượng dữ liệu huấn luyện khổng lồ, chẳng hạn như tập dữ liệu JFT-300M hoặc toàn bộ tập dữ liệu ImageNet . Mặc dù điều này làm cho quá trình huấn luyện tốn nhiều tài nguyên tính toán hơn, nhưng nó cho phép Vision Transformers mở rộng quy mô một cách đáng kể; với đủ dữ liệu và sức mạnh tính toán , chúng có thể vượt trội hơn CNN bằng cách nắm bắt các cấu trúc toàn cục phức tạp mà các phép tích chập cục bộ có thể bỏ sót.
Khả năng hiểu bối cảnh toàn cầu khiến ViTs đặc biệt hữu ích trong các môi trường phức tạp, có tính rủi ro cao.
Các ultralytics Thư viện hỗ trợ các kiến trúc dựa trên Transformer, đáng chú ý nhất là...
RT-DETR (Bộ chuyển đổi phát hiện thời gian thực)Trong khi đó, sản phẩm chủ lực YOLO26 Nó thường được ưa chuộng vì sự cân bằng giữa tốc độ và độ chính xác trên các thiết bị biên. RT-DETR Cung cấp một giải pháp thay thế mạnh mẽ cho các kịch bản ưu tiên bối cảnh toàn cầu.
Ví dụ Python sau đây minh họa cách tải mô hình dựa trên Transformer đã được huấn luyện trước và chạy suy luận:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Nghiên cứu đang phát triển nhanh chóng để giải quyết chi phí tính toán cao của ViT (Virtual Informed Techniques). Các kỹ thuật như FlashAttention đang giúp các mô hình này nhanh hơn và tiết kiệm bộ nhớ hơn. Hơn nữa, các kiến trúc lai kết hợp hiệu quả của mạng nơ-ron tích chập (CNN) với cơ chế chú ý của Transformer đang trở nên phổ biến. Đối với các nhóm muốn quản lý các quy trình làm việc tiên tiến này, Nền tảng Ultralytics cung cấp một môi trường thống nhất để chú thích dữ liệu, huấn luyện các mô hình phức tạp thông qua đám mây và triển khai chúng đến nhiều thiết bị đầu cuối khác nhau.