Thuật ngữ

Máy biến áp

Khám phá cách kiến trúc Transformer cách mạng hóa AI, thúc đẩy đột phá trong NLP, thị giác máy tính và các tác vụ ML tiên tiến.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Transformers đại diện cho một kiến trúc mạng nơ-ron quan trọng đã thúc đẩy đáng kể các lĩnh vực trí tuệ nhân tạo (AI)học máy (ML) , đặc biệt là trong xử lý ngôn ngữ tự nhiên (NLP) và ngày càng phát triển trong thị giác máy tính (CV) . Được giới thiệu trong bài báo có ảnh hưởng " Attention Is All You Need ", chúng xử lý dữ liệu tuần tự, như văn bản hoặc chuỗi thời gian, bằng cách sử dụng một cơ chế gọi là self-attention . Điều này cho phép mô hình cân nhắc động tầm quan trọng của các phần khác nhau của đầu vào, khắc phục những hạn chế chính của các kiến trúc cũ hơn như Mạng nơ-ron hồi quy (RNN) .

Máy biến áp hoạt động như thế nào

Cải tiến cốt lõi của Transformers là cơ chế tự chú ý . Không giống như RNN, xử lý đầu vào theo trình tự (phần tử này sau phần tử khác) và có thể gặp khó khăn với các chuỗi dài do các vấn đề như biến mất gradient , Transformers có thể xem xét tất cả các phần của chuỗi đầu vào cùng một lúc. Khả năng xử lý song song này tăng tốc đáng kể quá trình đào tạo trên phần cứng hiện đại như GPU từ các công ty như NVIDIA .

Trong khi các Mạng nơ-ron tích chập (CNN) điển hình tập trung vào các đặc điểm cục bộ thông qua các bộ lọc có kích thước cố định thực hiện tích chập , cơ chế chú ý cho phép Transformers nắm bắt các mối quan hệ phụ thuộc tầm xa và các mối quan hệ theo ngữ cảnh trên toàn bộ đầu vào. Khả năng hiểu ngữ cảnh toàn cục này rất quan trọng đối với các tác vụ liên quan đến các mối quan hệ phức tạp, cho dù trong các bản vá văn bản hay hình ảnh được sử dụng trong Vision Transformers (ViTs) .

Sự liên quan và tác động

Transformers đã trở thành nền tảng cho nhiều mô hình AI tiên tiến do tính hiệu quả của chúng trong việc nắm bắt ngữ cảnh và xử lý các chuỗi dài. Bản chất song song hóa của chúng đã cho phép đào tạo các mô hình khổng lồ với hàng tỷ tham số, chẳng hạn như GPT-3GPT-4 do OpenAI phát triển, dẫn đến những đột phá trong AI tạo sinh . Khả năng mở rộng và hiệu suất này đã khiến Transformers trở thành trung tâm cho sự tiến bộ trong nhiều tác vụ AI khác nhau, thúc đẩy sự đổi mới trong nghiên cứu và ngành công nghiệp. Nhiều mô hình Transformer phổ biến, như BERT , có sẵn thông qua các nền tảng như Hugging Face và được triển khai bằng các khuôn khổ như PyTorchTensorFlow , thường được tích hợp vào các nền tảng MLOps như Ultralytics HUB .

Ứng dụng trong AI và ML

Máy biến áp có tính linh hoạt cao và cung cấp năng lượng cho nhiều ứng dụng AI:

Transformer so với các kiến trúc khác

Sẽ rất hữu ích khi phân biệt Transformers với các kiến trúc mạng nơ-ron phổ biến khác:

  • Transformers so với RNN: RNN xử lý dữ liệu theo trình tự, khiến chúng phù hợp với dữ liệu chuỗi thời gian nhưng dễ quên thông tin trước đó trong các chuỗi dài ( vấn đề gradient biến mất ). Transformers xử lý các chuỗi song song bằng cách tự chú ý, nắm bắt các phụ thuộc tầm xa hiệu quả hơn và đào tạo nhanh hơn trên phần cứng song song ( GPU ).
  • Transformers so với CNN: CNN rất giỏi trong việc xác định các mẫu cục bộ trong dữ liệu dạng lưới (ví dụ: pixel trong hình ảnh) bằng cách sử dụng các bộ lọc tích chập. Chúng cực kỳ hiệu quả đối với nhiều tác vụ thị giác như những tác vụ được giải quyết bởi các mô hình YOLO Ultralytics . Transformers, đặc biệt là ViTs, chia hình ảnh thành các mảng và sử dụng sự chú ý tự thân để mô hình hóa các mối quan hệ giữa chúng, nắm bắt bối cảnh toàn cầu có khả năng tốt hơn nhưng thường đòi hỏi nhiều dữ liệu và tài nguyên tính toán hơn, đặc biệt là trong quá trình đào tạo mô hình . Kiến trúc lai, kết hợp các tính năng CNN với các lớp Transformer, nhằm mục đích tận dụng thế mạnh của cả hai, như được thấy trong một số biến thể RT-DETR . Sự lựa chọn thường phụ thuộc vào tác vụ cụ thể, kích thước tập dữ liệu và tài nguyên tính toán khả dụng.
Đọc tất cả