Khám phá cách Vision Transformers (ViT) cách mạng hóa thị giác máy tính với khả năng tự chú ý, vượt trội trong các nhiệm vụ phân loại, phát hiện và phân đoạn.
Vision Transformers (ViT) đã cách mạng hóa thị giác máy tính bằng cách đưa kiến trúc dựa trên transformer thường được sử dụng trong xử lý ngôn ngữ tự nhiên (NLP) vào các tác vụ thị giác. Không giống như Convolutional Neural Networks (CNN), dựa trên các hoạt động tích chập, ViTs sử dụng các cơ chế tự chú ý để phân tích và xử lý dữ liệu hình ảnh, cung cấp một cách tiếp cận linh hoạt và có khả năng mở rộng hơn cho các thách thức về thị giác khác nhau.
ViT chia một hình ảnh đầu vào thành các bản vá có kích thước cố định nhỏ hơn, làm phẳng chúng và xử lý từng bản vá như một "mã thông báo", tương tự như các từ trong NLP. Các mã thông báo này sau đó được nhúng vào các vectơ có chiều cao và được truyền qua nhiều lớp bộ mã hóa biến áp, tại đó các cơ chế tự chú ý cho phép mô hình tập trung vào các phần có liên quan của hình ảnh. Cấu trúc này cho phép ViT nắm bắt hiệu quả cả các phụ thuộc cục bộ và toàn cục.
ViT dựa vào mã hóa vị trí để lưu giữ thông tin không gian, một khía cạnh quan trọng của dữ liệu hình ảnh mà các bộ chuyển đổi truyền thống không có. Bằng cách tìm hiểu mối quan hệ giữa các bản vá, ViT có thể đạt được hiệu suất tiên tiến trong các tác vụ như phân loại hình ảnh, phát hiện đối tượng và phân đoạn.
Tìm hiểu thêm về cách hoạt động của máy biến áp trong mục từ điển máy biến áp .
ViTs xuất sắc trong các nhiệm vụ phân loại hình ảnh bằng cách sử dụng khả năng chụp các đặc điểm hình ảnh toàn cầu của chúng. Các ViT được đào tạo trước như Google 's Vision Transformer đã đạt được độ chính xác tiên tiến trên các chuẩn mực như ImageNet. Ví dụ, ViT được áp dụng trong chăm sóc sức khỏe để phân loại hình ảnh y tế, hỗ trợ chẩn đoán bệnh.
Khám phá các tác vụ phân loại hình ảnh với mô hình YOLO Ultralytics .
ViT ngày càng được sử dụng nhiều hơn trong các đường ống phát hiện đối tượng, thay thế các xương sống dựa trên tích chập truyền thống. Các mô hình như DETR (DEtection TRansformer) chứng minh hiệu quả của ViT trong việc phát hiện và định vị đối tượng mà không cần dựa vào mạng đề xuất vùng.
Khám phá các giải pháp phát hiện đối tượng với Ultralytics YOLO .
Bằng cách tận dụng sự tự chú ý, ViT cung cấp các giải pháp chính xác và hiệu quả cho phân đoạn ngữ nghĩa và phân đoạn thể hiện. Các ứng dụng bao gồm lái xe tự động, trong đó phân đoạn chính xác ở cấp độ pixel là rất quan trọng để phát hiện biển báo đường bộ, người đi bộ và phương tiện.
Tìm hiểu thêm về tác vụ phân đoạn trong phân đoạn hình ảnh .
Chăm sóc sức khỏe : ViT được sử dụng trong hình ảnh y tế cho các nhiệm vụ như phát hiện khối u và phân đoạn cơ quan. Khả năng phân tích hình ảnh có độ phân giải cao của chúng giúp chẩn đoán sớm và lập kế hoạch điều trị. Ví dụ, khả năng hình ảnh y tế của Ultralytics YOLO11 có thể được tăng cường bằng xương sống dựa trên ViT để cải thiện độ chính xác.
Xe tự hành : ViTs cung cấp hệ thống thị giác trong xe tự hành, cho phép phát hiện chướng ngại vật, vạch kẻ đường và biển báo giao thông theo thời gian thực. Nhận thức về bối cảnh toàn cầu của chúng giúp tăng cường sự an toàn và khả năng ra quyết định.
Khám phá thêm nhiều ứng dụng của AI trong xe tự lái với các giải pháp AI về thị giác .
Mặc dù ViTs mang lại những lợi thế đáng kể nhưng chúng cũng đi kèm với những thách thức:
Để giải quyết những vấn đề này, các phương pháp như mô hình lai kết hợp ViT với CNN và các kỹ thuật như hợp nhất bản vá đã được đưa ra để làm cho ViT hiệu quả hơn.
ViTs tiếp tục mở rộng ranh giới của thị giác máy tính, cung cấp các giải pháp sáng tạo trên khắp các ngành. Với các công cụ như Ultralytics HUB , các nhà phát triển có thể khám phá tiềm năng của ViTs trong các ứng dụng thực tế, đơn giản hóa việc triển khai và mở rộng các giải pháp AI.