Khám phá cách kiến trúc Transformer cách mạng hóa AI, thúc đẩy đột phá trong NLP, thị giác máy tính và các tác vụ ML tiên tiến.
Transformers đại diện cho một kiến trúc mạng nơ-ron quan trọng đã thúc đẩy đáng kể các lĩnh vực trí tuệ nhân tạo (AI) và học máy (ML) , đặc biệt là trong xử lý ngôn ngữ tự nhiên (NLP) và ngày càng phát triển trong thị giác máy tính (CV) . Được giới thiệu trong bài báo có ảnh hưởng " Attention Is All You Need ", chúng xử lý dữ liệu tuần tự, như văn bản hoặc chuỗi thời gian, bằng cách sử dụng một cơ chế gọi là self-attention . Điều này cho phép mô hình cân nhắc động tầm quan trọng của các phần khác nhau của đầu vào, khắc phục những hạn chế chính của các kiến trúc cũ hơn như Mạng nơ-ron hồi quy (RNN) .
Cải tiến cốt lõi của Transformers là cơ chế tự chú ý . Không giống như RNN, xử lý đầu vào theo trình tự (phần tử này sau phần tử khác) và có thể gặp khó khăn với các chuỗi dài do các vấn đề như biến mất gradient , Transformers có thể xem xét tất cả các phần của chuỗi đầu vào cùng một lúc. Khả năng xử lý song song này tăng tốc đáng kể quá trình đào tạo trên phần cứng hiện đại như GPU từ các công ty như NVIDIA .
Trong khi các Mạng nơ-ron tích chập (CNN) điển hình tập trung vào các đặc điểm cục bộ thông qua các bộ lọc có kích thước cố định thực hiện tích chập , cơ chế chú ý cho phép Transformers nắm bắt các mối quan hệ phụ thuộc tầm xa và các mối quan hệ theo ngữ cảnh trên toàn bộ đầu vào. Khả năng hiểu ngữ cảnh toàn cục này rất quan trọng đối với các tác vụ liên quan đến các mối quan hệ phức tạp, cho dù trong các bản vá văn bản hay hình ảnh được sử dụng trong Vision Transformers (ViTs) .
Transformers đã trở thành nền tảng cho nhiều mô hình AI tiên tiến do tính hiệu quả của chúng trong việc nắm bắt ngữ cảnh và xử lý các chuỗi dài. Bản chất song song hóa của chúng đã cho phép đào tạo các mô hình khổng lồ với hàng tỷ tham số, chẳng hạn như GPT-3 và GPT-4 do OpenAI phát triển, dẫn đến những đột phá trong AI tạo sinh . Khả năng mở rộng và hiệu suất này đã khiến Transformers trở thành trung tâm cho sự tiến bộ trong nhiều tác vụ AI khác nhau, thúc đẩy sự đổi mới trong nghiên cứu và ngành công nghiệp. Nhiều mô hình Transformer phổ biến, như BERT , có sẵn thông qua các nền tảng như Hugging Face và được triển khai bằng các khuôn khổ như PyTorch và TensorFlow , thường được tích hợp vào các nền tảng MLOps như Ultralytics HUB .
Máy biến áp có tính linh hoạt cao và cung cấp năng lượng cho nhiều ứng dụng AI:
Sẽ rất hữu ích khi phân biệt Transformers với các kiến trúc mạng nơ-ron phổ biến khác: