Thuật ngữ

Máy biến đổi tầm nhìn (ViT)

Khám phá sức mạnh của Vision Transformers (ViTs) trong thị giác máy tính. Tìm hiểu cách chúng vượt trội hơn CNN bằng cách nắm bắt bối cảnh hình ảnh toàn cầu.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Vision Transformer (ViT) đại diện cho một sự thay đổi đáng kể trong lĩnh vực thị giác máy tính, điều chỉnh kiến trúc Transformer, ban đầu được phát triển để xử lý ngôn ngữ tự nhiên, thành các tác vụ nhận dạng hình ảnh. Không giống như các Mạng nơ-ron tích chập (CNN) truyền thống xử lý hình ảnh theo từng lớp, ViT chia nhỏ hình ảnh thành các mảng nhỏ hơn và xử lý các mảng này như các mã thông báo theo trình tự, giống như các từ trong một câu. Phương pháp tiếp cận mới lạ này cho phép ViT tận dụng cơ chế tự chú ý mạnh mẽ của Transformer để nắm bắt các mối quan hệ toàn cục trong một hình ảnh, dẫn đến hiệu suất tiên tiến trong nhiều tác vụ thị giác máy tính khác nhau.

Cách thức hoạt động của Vision Transformers

Về cơ bản, Vision Transformer xử lý hình ảnh bằng cách đầu tiên chia chúng thành một lưới các bản vá có kích thước cố định. Các bản vá này sau đó được làm phẳng và chuyển đổi tuyến tính thành các nhúng, về cơ bản là các biểu diễn vectơ. Các nhúng vị trí được thêm vào các nhúng bản vá này để giữ lại thông tin không gian, rất quan trọng để hiểu cấu trúc hình ảnh. Chuỗi các bản vá nhúng này sau đó được đưa vào bộ mã hóa Transformer tiêu chuẩn.

Bộ mã hóa Transformer bao gồm nhiều lớp mạng tự chú ý nhiều đầu và mạng truyền thẳng. Thành phần chính ở đây là cơ chế tự chú ý , cho phép mô hình cân nhắc tầm quan trọng của từng bản vá so với tất cả các bản vá khác khi xử lý hình ảnh. Điều này cho phép ViT hiểu được bối cảnh toàn cục của hình ảnh, nắm bắt các phụ thuộc tầm xa có thể bị CNN bỏ qua khi tập trung vào các đặc điểm cục bộ. Hiểu được bối cảnh toàn cục này là điểm mạnh chính của Vision Transformers. Để tìm hiểu sâu hơn về các nguyên tắc cơ bản, các nguồn như "The Illustrated Transformer" của Jay Allammar cung cấp các giải thích trực quan tuyệt vời về kiến trúc Transformer.

Sự liên quan và ứng dụng

Vision Transformers đã nhanh chóng trở nên nổi bật nhờ hiệu suất và khả năng mở rộng ấn tượng của chúng. Khả năng nắm bắt bối cảnh toàn cầu và khả năng hưởng lợi từ các tập dữ liệu lớn đã khiến chúng trở nên cực kỳ phù hợp trong các ứng dụng học sâu hiện đại. Các ứng dụng chính của ViT bao gồm:

  • Phân loại hình ảnh : ViTs đã đạt được kết quả cao nhất về điểm chuẩn phân loại hình ảnh, thường vượt qua hiệu suất của các mô hình dựa trên CNN truyền thống. Kiến trúc của chúng đặc biệt hiệu quả khi được đào tạo trên các tập dữ liệu lớn như ImageNet .
  • Phát hiện đối tượng : Vision Transformers ngày càng được sử dụng như xương sống trong các khuôn khổ phát hiện đối tượng . Các mô hình như RT-DETR của Ultralytics tận dụng Vision Transformers để đạt được hiệu suất thời gian thực với độ chính xác cao.
  • Phân đoạn hình ảnh : ViT cũng hiệu quả trong các tác vụ phân đoạn hình ảnh , cho phép phân loại chính xác ở cấp độ pixel cho các ứng dụng như phân tích hình ảnh y tế và lái xe tự động. Ví dụ, Mô hình phân đoạn bất kỳ ( SAM ) sử dụng xương sống ViT cho khả năng phân đoạn mạnh mẽ của nó.

Các ứng dụng trong thế giới thực trải dài trên nhiều ngành công nghiệp khác nhau. Trong chăm sóc sức khỏe, ViT hỗ trợ phân tích hình ảnh y tế để cải thiện chẩn đoán. Trong nông nghiệp , chúng tăng cường giám sát cây trồng và phát hiện bệnh. Hơn nữa, hiệu quả và độ chính xác của chúng khiến chúng phù hợp để triển khai trên các thiết bị biên, như đã khám phá trong hướng dẫn về NVIDIA JetsonRaspberry Pi .

Vision Transformers so với CNN

Trong khi CNN từ lâu đã là kiến trúc thống trị trong thị giác máy tính, Vision Transformers cung cấp một cách tiếp cận hoàn toàn khác. CNN xuất sắc trong việc nắm bắt các mẫu cục bộ thông qua các lớp tích chập, khiến chúng trở nên hiệu quả đối với các tác vụ mà các đặc điểm cục bộ là rất quan trọng. Tuy nhiên, đôi khi chúng có thể gặp khó khăn khi nắm bắt các phụ thuộc tầm xa và bối cảnh toàn cầu. Mặt khác, ViTs vốn nắm bắt bối cảnh toàn cầu thông qua các cơ chế tự chú ý của chúng, mang lại lợi thế trong các tác vụ đòi hỏi sự hiểu biết toàn diện về bối cảnh.

Mặc dù có nhiều điểm mạnh, ViT thường yêu cầu các tập dữ liệu lớn hơn đáng kể để đào tạo so với CNN để đạt được hiệu suất tối ưu. CNN có thể hiệu quả hơn về mặt tính toán đối với các tập dữ liệu nhỏ hơn và các tác vụ tập trung vào việc trích xuất tính năng cục bộ. Sự lựa chọn giữa ViT và CNN thường phụ thuộc vào ứng dụng cụ thể, kích thước tập dữ liệu và tài nguyên tính toán có sẵn. Vision Transformers đại diện cho một sự tiến hóa đáng kể trong thị giác máy tính, chứng minh sức mạnh của các cơ chế chú ý và mở đường cho những tiến bộ trong tương lai trong lĩnh vực này.

Đọc tất cả