Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Vision Transformer (ViT)

Khám phá sức mạnh của Vision Transformers (ViT). Tìm hiểu cách cơ chế tự chú ý và mã hóa vùng ảnh (patch tokenization) cách mạng hóa thị giác máy tính vượt xa các mạng nơ-ron tích chập (CNN) với Ultralytics .

Vision Transformer (ViT) là một kiến ​​trúc học sâu thích ứng các cơ chế tự chú ý ban đầu được thiết kế cho Xử lý Ngôn ngữ Tự nhiên (NLP) để giải quyết các tác vụ thị giác. Không giống như Mạng nơ-ron tích chập (CNN) truyền thống, xử lý hình ảnh thông qua hệ thống phân cấp các lưới pixel cục bộ, ViT coi hình ảnh như một chuỗi các mảng nhỏ rời rạc. Cách tiếp cận này đã được phổ biến bởi bài báo nghiên cứu mang tính bước ngoặt "Một hình ảnh đáng giá 16x16 từ" , chứng minh rằng các kiến ​​trúc transformer thuần túy có thể đạt được hiệu suất hàng đầu trong thị giác máy tính (CV) mà không cần dựa vào các lớp tích chập. Bằng cách tận dụng sự chú ý toàn cục, ViT có thể nắm bắt các phụ thuộc tầm xa trên toàn bộ hình ảnh ngay từ lớp đầu tiên.

Cách Vision Transformer hoạt động

Sự đổi mới cơ bản của ViT nằm ở cách nó cấu trúc dữ liệu đầu vào. Để làm cho một hình ảnh tương thích với một Transformer tiêu chuẩn, mô hình này phân tích thông tin hình ảnh thành một chuỗi các vectơ, mô phỏng cách một mô hình ngôn ngữ xử lý một câu gồm các từ.

  1. Phân tách ảnh thành các token: Ảnh đầu vào được chia thành một lưới các ô vuông có kích thước cố định, thường là 16x16 pixel. Mỗi ô vuông được làm phẳng thành một vectơ, về cơ bản trở thành một token hình ảnh.
  2. Phép chiếu tuyến tính: Các mảng ảnh đã được làm phẳng này được truyền qua một lớp tuyến tính có thể huấn luyện để tạo ra các embedding dày đặc. Bước này ánh xạ các giá trị pixel thô vào không gian đa chiều mà mô hình có thể xử lý.
  3. Mã hóa vị trí: Vì kiến ​​trúc này xử lý các chuỗi song song và thiếu khả năng hiểu biết về thứ tự hoặc không gian, nên các mã hóa vị trí có thể học được được thêm vào các embedding của các mảng ảnh nhỏ. Điều này cho phép mô hình giữ lại thông tin không gian về vị trí của mỗi mảng ảnh nhỏ trong ảnh gốc.
  4. Cơ chế tự chú ý: Chuỗi hình ảnh đi vào bộ mã hóa Transformer, nơi cơ chế tự chú ý cho phép mỗi mảng ảnh tương tác đồng thời với mọi mảng ảnh khác. Điều này cho phép mạng học được ngữ cảnh toàn cục, hiểu được mối liên hệ giữa một pixel ở góc trên bên trái với một pixel ở góc dưới bên phải.
  5. Đầu phân loại: Đối với các tác vụ như phân loại hình ảnh , một "mã lớp" đặc biệt thường được thêm vào đầu chuỗi. Trạng thái đầu ra cuối cùng của mã này đóng vai trò là biểu diễn tổng hợp của hình ảnh, sau đó được đưa vào bộ phân loại, chẳng hạn như mạng perceptron đa lớp (MLP) .

Vision Transformers so với CNNs

Mặc dù cả hai kiến ​​trúc đều hướng đến việc hiểu dữ liệu hình ảnh, nhưng chúng khác biệt đáng kể về triết lý hoạt động. Mạng nơ-ron tích chập (CNN) sở hữu một "thiên kiến ​​quy nạp" mạnh mẽ được gọi là tính bất biến dịch chuyển, có nghĩa là chúng vốn dĩ giả định rằng các đặc điểm cục bộ (như cạnh và kết cấu) là quan trọng bất kể vị trí của chúng. Điều này làm cho CNN có hiệu quả cao về mặt dữ liệu và hoạt động tốt trên các tập dữ liệu nhỏ.

Ngược lại, Vision Transformers ít bị ảnh hưởng bởi đặc điểm hình ảnh cụ thể. Chúng phải học các mối quan hệ không gian từ đầu bằng cách sử dụng lượng dữ liệu huấn luyện khổng lồ, chẳng hạn như tập dữ liệu JFT-300M hoặc toàn bộ tập dữ liệu ImageNet . Mặc dù điều này làm cho quá trình huấn luyện tốn nhiều tài nguyên tính toán hơn, nhưng nó cho phép Vision Transformers mở rộng quy mô một cách đáng kể; với đủ dữ liệu và sức mạnh tính toán , chúng có thể vượt trội hơn CNN bằng cách nắm bắt các cấu trúc toàn cục phức tạp mà các phép tích chập cục bộ có thể bỏ sót.

Các Ứng dụng Thực tế

Khả năng hiểu bối cảnh toàn cầu khiến ViTs đặc biệt hữu ích trong các môi trường phức tạp, có tính rủi ro cao.

  • Phân tích hình ảnh y tế: Trong lĩnh vực trí tuệ nhân tạo y tế , ViT (Visual Technology) được sử dụng để phân tích các hình ảnh quét độ phân giải cao như MRI hoặc các tiêu bản mô học. Ví dụ, trong phát hiện khối u , ViT có thể liên hệ những bất thường nhỏ về cấu trúc mô với những thay đổi cấu trúc rộng hơn trên toàn bộ tiêu bản, xác định các mô hình ác tính mà quá trình xử lý cục bộ có thể bỏ sót.
  • Ảnh vệ tinh và viễn thám: ViT (Virtual Informed Technique) vượt trội trong việc phân tích ảnh vệ tinh khi mối quan hệ giữa các đối tượng trải rộng trên khoảng cách lớn. Ví dụ, việc kết nối một khu vực phá rừng với một con đường khai thác gỗ ở xa đòi hỏi phải hiểu được "bức tranh toàn cảnh" của một khu vực, một nhiệm vụ mà khả năng tập trung toàn cục của ViT vượt trội hơn so với phạm vi tiếp nhận hạn chế của các mạng CNN tiêu chuẩn.

Sử dụng máy biến áp với Ultralytics

Các ultralytics Thư viện hỗ trợ các kiến ​​trúc dựa trên Transformer, đáng chú ý nhất là... RT-DETR (Bộ chuyển đổi phát hiện thời gian thực)Trong khi đó, sản phẩm chủ lực YOLO26 Nó thường được ưa chuộng vì sự cân bằng giữa tốc độ và độ chính xác trên các thiết bị biên. RT-DETR Cung cấp một giải pháp thay thế mạnh mẽ cho các kịch bản ưu tiên bối cảnh toàn cầu.

Ví dụ Python sau đây minh họa cách tải mô hình dựa trên Transformer đã được huấn luyện trước và chạy suy luận:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Triển vọng tương lai

Nghiên cứu đang phát triển nhanh chóng để giải quyết chi phí tính toán cao của ViT (Virtual Informed Techniques). Các kỹ thuật như FlashAttention đang giúp các mô hình này nhanh hơn và tiết kiệm bộ nhớ hơn. Hơn nữa, các kiến ​​trúc lai kết hợp hiệu quả của mạng nơ-ron tích chập (CNN) với cơ chế chú ý của Transformer đang trở nên phổ biến. Đối với các nhóm muốn quản lý các quy trình làm việc tiên tiến này, Nền tảng Ultralytics cung cấp một môi trường thống nhất để chú thích dữ liệu, huấn luyện các mô hình phức tạp thông qua đám mây và triển khai chúng đến nhiều thiết bị đầu cuối khác nhau.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay