Khám phá sức mạnh của Vision Transformers (ViTs) trong thị giác máy tính. Tìm hiểu cách chúng vượt trội hơn CNN bằng cách nắm bắt bối cảnh hình ảnh toàn cầu.
Vision Transformer (ViT) là một loại kiến trúc mạng nơ-ron áp dụng mô hình Transformer rất thành công, ban đầu được thiết kế cho xử lý ngôn ngữ tự nhiên (NLP) , vào các tác vụ thị giác máy tính (CV) . Được các nhà nghiên cứu của Google giới thiệu trong bài báo "An Image is Worth 16x16 Words" , ViT đại diện cho một sự thay đổi đáng kể so với các kiến trúc Mạng Nơ-ron Tích chập (CNN) đang thịnh hành. Thay vì xử lý hình ảnh bằng các bộ lọc trượt, ViT xử lý hình ảnh như một chuỗi các mảng, cho phép nó nắm bắt mối quan hệ toàn cục giữa các phần khác nhau của hình ảnh bằng cơ chế tự chú ý .
Ý tưởng cốt lõi đằng sau ViT là xử lý hình ảnh theo cách mô phỏng cách Transformer xử lý văn bản. Quá trình này bao gồm một vài bước chính:
Mặc dù cả ViT và CNN đều là kiến trúc nền tảng trong thị giác máy tính , nhưng cách tiếp cận của chúng lại khác nhau đáng kể:
ViT đã thể hiện hiệu suất vượt trội trong nhiều ứng dụng khác nhau, đặc biệt là khi việc hiểu bối cảnh toàn cầu là chìa khóa.
Thành công của ViT cũng đã truyền cảm hứng cho các kiến trúc lai. Các mô hình như RT-DETR kết hợp xương sống CNN để trích xuất đặc điểm hiệu quả với bộ mã hóa-giải mã dựa trên Transformer để mô hình hóa các mối quan hệ đối tượng. Cách tiếp cận này nhằm mục đích tận dụng tối đa cả hai yếu tố: hiệu quả của CNN và nhận thức ngữ cảnh toàn cục của Transformer.
Đối với nhiều ứng dụng thời gian thực, đặc biệt là trên các thiết bị biên bị hạn chế về tài nguyên, các mô hình dựa trên CNN được tối ưu hóa cao như dòng Ultralytics YOLO (ví dụ: YOLOv8 và YOLO11 ) thường mang lại sự cân bằng tốt hơn giữa tốc độ và độ chính xác. Bạn có thể xem so sánh chi tiết giữa RT-DETR và YOLO11 để hiểu rõ hơn về những điểm cần cân nhắc. Việc lựa chọn giữa ViT và CNN cuối cùng phụ thuộc vào nhiệm vụ cụ thể, dữ liệu khả dụng và ngân sách tính toán.