Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Transformer

Khám phá kiến ​​trúc Transformer và cơ chế tự chú ý. Tìm hiểu cách chúng vận hành các mô hình AI như... RT-DETR Và Ultralytics YOLO26 cho độ chính xác vượt trội.

Transformer là một kiến ​​trúc học sâu dựa trên cơ chế tự chú ý (self-attention) để xử lý dữ liệu đầu vào theo trình tự, chẳng hạn như ngôn ngữ tự nhiên hoặc các đặc điểm hình ảnh. Ban đầu được giới thiệu bởi Google Trong bài báo mang tính bước ngoặt "Attention Is All You Need" , các nhà nghiên cứu đã chỉ ra rằng Transformer đã cách mạng hóa lĩnh vực trí tuệ nhân tạo (AI) bằng cách loại bỏ những hạn chế về xử lý tuần tự của các mạng thần kinh hồi quy (RNN) trước đó. Thay vào đó, Transformer phân tích toàn bộ chuỗi dữ liệu đồng thời, cho phép song song hóa mạnh mẽ và thời gian huấn luyện nhanh hơn đáng kể trên phần cứng hiện đại như GPU .

Cách Transformers Hoạt Động

Điểm đột phá cốt lõi của Transformer là cơ chế tự chú ý . Điều này cho phép mô hình đánh giá tầm quan trọng của các phần khác nhau trong dữ liệu đầu vào so với nhau. Ví dụ, trong một câu, mô hình có thể học được rằng từ "bank" liên quan chặt chẽ hơn đến "money" hơn là đến "river" dựa trên ngữ cảnh xung quanh.

Kiến trúc này thường bao gồm hai thành phần chính:

  • Bộ mã hóa: Xử lý dữ liệu đầu vào thành dạng biểu diễn số phong phú hoặc dạng nhúng .
  • Bộ giải mã: Sử dụng đầu ra của bộ mã hóa để tạo ra kết quả cuối cùng, chẳng hạn như câu đã dịch hoặc khung giới hạn dự đoán.

Trong lĩnh vực thị giác máy tính (CV) , các mô hình thường sử dụng một biến thể gọi là Vision Transformer (ViT) . Thay vì xử lý các token văn bản, hình ảnh được chia thành các mảng có kích thước cố định (ví dụ: 16x16 pixel). Các mảng này được làm phẳng và xử lý như một chuỗi, cho phép mô hình nắm bắt "ngữ cảnh toàn cục" - hiểu được mối quan hệ giữa các phần xa nhau của hình ảnh - hiệu quả hơn so với Mạng nơ-ron tích chập (CNN) tiêu chuẩn.

Máy biến áp so với các khái niệm liên quan

Điều quan trọng là phải phân biệt kiến ​​trúc Transformer với các thuật ngữ liên quan:

  • Cơ chế chú ý : Đây là khái niệm chung về việc tập trung vào các phần dữ liệu cụ thể. Transformer là một kiến ​​trúc đặc thù được xây dựng hoàn toàn dựa trên các lớp chú ý, trong khi các mô hình khác có thể chỉ sử dụng cơ chế chú ý như một phần bổ sung nhỏ.
  • Mô hình ngôn ngữ quy mô lớn (LLM) : Các thuật ngữ như "GPT" đề cập đến các mô hình cụ thể được huấn luyện trên lượng văn bản khổng lồ. Hầu hết các LLM hiện đại đều sử dụng kiến ​​trúc Transformer làm nền tảng cơ bản.

Các Ứng dụng Thực tế

Tính linh hoạt của Transformer đã dẫn đến việc chúng được ứng dụng rộng rãi trong nhiều ngành công nghiệp khác nhau:

  1. Hình ảnh y tế: Trong lĩnh vực Trí tuệ nhân tạo ứng dụng trong chăm sóc sức khỏe , Transformer được sử dụng cho các tác vụ phức tạp như phân tích hình ảnh y tế . Khả năng hiểu các mối quan hệ không gian toàn cục giúp phát hiện những bất thường nhỏ trong ảnh chụp MRI hoặc CT độ phân giải cao mà các mạng CNN tập trung vào đặc điểm cục bộ có thể bỏ sót.
  2. Hệ thống tự hành: Đối với xe tự hành , việc hiểu được quỹ đạo di chuyển của người đi bộ và các phương tiện khác là rất quan trọng. Transformer vượt trội trong việc hiểu video bằng cách theo dõi các đối tượng trong nhiều khung thời gian, dự đoán chuyển động trong tương lai để đảm bảo điều hướng an toàn.

Phát hiện đối tượng bằng Transformer

Mặc dù mạng nơ-ron tích chập (CNN) theo truyền thống thống trị lĩnh vực phát hiện đối tượng, các mô hình dựa trên Transformer như Real-Time Detection Transformer ( RT-DETR ) đã nổi lên như những lựa chọn thay thế mạnh mẽ. RT-DETR Kết hợp tốc độ của các kiến ​​trúc mạng nơ-ron tích chập (CNN) với độ chính xác của các bộ giải mã Transformer.

Tuy nhiên, các mô hình Transformer thuần túy có thể tốn nhiều tài nguyên tính toán. Đối với nhiều ứng dụng biên, các mô hình lai được tối ưu hóa cao như YOLO26 — tích hợp các cơ chế chú ý hiệu quả với xử lý tích chập nhanh — mang lại sự cân bằng vượt trội giữa tốc độ và độ chính xác. Bạn có thể dễ dàng quản lý việc huấn luyện và triển khai các mô hình này thông qua Nền tảng Ultralytics , giúp đơn giản hóa quy trình làm việc từ chú thích tập dữ liệu đến xuất mô hình.

Python Ví dụ: Sử dụng RT-DETR

Ví dụ sau đây minh họa cách thực hiện suy luận bằng cách sử dụng mô hình dựa trên Transformer trong... ultralytics Gói này tải một mô hình đã được huấn luyện trước. Đoạn mã này tải một mô hình đã được huấn luyện trước. RT-DETR Mô hình này phát hiện và nhận diện các đối tượng trong ảnh.

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

Để tìm hiểu thêm về nền tảng toán học, tài liệu PyTorch về các lớp Transformer cung cấp kiến ​​thức chuyên sâu về kỹ thuật, trong khi hướng dẫn về Transformer của IBM đưa ra cái nhìn tổng quan về khía cạnh kinh doanh.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay