Thuật ngữ

Máy biến áp

Khám phá cách kiến trúc Transformer cách mạng hóa AI, thúc đẩy đột phá trong NLP, thị giác máy tính và các tác vụ ML tiên tiến.

Transformers đại diện cho một kiến trúc mạng nơ-ron quan trọng đã thúc đẩy đáng kể các lĩnh vực trí tuệ nhân tạo (AI) và học máy (ML) , đặc biệt là trong xử lý ngôn ngữ tự nhiên (NLP) và ngày càng phát triển trong thị giác máy tính (CV) . Được giới thiệu trong bài báo có ảnh hưởng " Attention Is All You Need ", chúng xử lý dữ liệu tuần tự, như văn bản hoặc chuỗi thời gian, bằng cách sử dụng một cơ chế gọi là self-attention . Điều này cho phép mô hình cân nhắc động tầm quan trọng của các phần khác nhau của đầu vào, khắc phục những hạn chế chính của các kiến trúc cũ hơn như Mạng nơ-ron hồi quy (RNN) .

Máy biến áp hoạt động như thế nào

Cải tiến cốt lõi của Transformers là cơ chế tự chú ý . Không giống như RNN, xử lý đầu vào theo trình tự (phần tử này sau phần tử khác) và có thể gặp khó khăn với các chuỗi dài do các vấn đề như biến mất gradient , Transformers có thể xem xét tất cả các phần của chuỗi đầu vào cùng một lúc. Khả năng xử lý song song này tăng tốc đáng kể quá trình đào tạo trên phần cứng hiện đại như GPU từ các công ty như NVIDIA .

Trong khi các Mạng nơ-ron tích chập (CNN) điển hình tập trung vào các đặc điểm cục bộ thông qua các bộ lọc có kích thước cố định thực hiện tích chập , cơ chế chú ý cho phép Transformers nắm bắt các mối quan hệ phụ thuộc tầm xa và các mối quan hệ theo ngữ cảnh trên toàn bộ đầu vào. Khả năng hiểu ngữ cảnh toàn cục này rất quan trọng đối với các tác vụ liên quan đến các mối quan hệ phức tạp, cho dù trong các bản vá văn bản hay hình ảnh được sử dụng trong Vision Transformers (ViTs) .

Sự liên quan và tác động

Transformers đã trở thành nền tảng cho nhiều mô hình AI tiên tiến do tính hiệu quả của chúng trong việc nắm bắt ngữ cảnh và xử lý các chuỗi dài. Bản chất song song hóa của chúng đã cho phép đào tạo các mô hình khổng lồ với hàng tỷ tham số, chẳng hạn như GPT-3 và GPT-4 do OpenAI phát triển, dẫn đến những đột phá trong AI tạo sinh . Khả năng mở rộng và hiệu suất này đã khiến Transformers trở thành trung tâm cho sự tiến bộ trong nhiều tác vụ AI khác nhau, thúc đẩy sự đổi mới trong nghiên cứu và ngành công nghiệp. Nhiều mô hình Transformer phổ biến, như BERT , có sẵn thông qua các nền tảng như Hugging Face và được triển khai bằng các khuôn khổ như PyTorch và TensorFlow , thường được tích hợp vào các nền tảng MLOps như Ultralytics HUB .

Ứng dụng trong AI và ML

Máy biến áp có tính linh hoạt cao và cung cấp năng lượng cho nhiều ứng dụng AI:

Mô hình ngôn ngữ lớn (LLM) : Cung cấp năng lượng cho các mô hình như ChatGPT để hiểu ngôn ngữ phức tạp và thực hiện nhiệm vụ tạo ra ngôn ngữ.
Dịch máy : Các dịch vụ như Google Dịch sử dụng mô hình dựa trên Transformer để dịch chất lượng cao giữa các ngôn ngữ.
Tóm tắt văn bản : Thu gọn các tài liệu lớn thành các bản tóm tắt ngắn gọn.
Phân tích tình cảm : Xác định tông cảm xúc đằng sau dữ liệu văn bản.
Chatbot và Trợ lý ảo : Cho phép các cuộc trò chuyện tự nhiên hơn và phù hợp với ngữ cảnh hơn.
Vision Transformers (ViTs) : Áp dụng kiến trúc Transformer vào các tác vụ trực quan.
Phân loại hình ảnh : Phân loại hình ảnh dựa trên nội dung của chúng bằng các tính năng toàn cục.
Phát hiện đối tượng : Xác định và định vị đối tượng trong hình ảnh, như được thấy trong các mô hình như RT-DETR . Một số mô hình cung cấp xương sống dựa trên Transformer. Bạn có thể khám phá các so sánh kỹ thuật như RTDETRv2 so với YOLOv5 .
Phân tích hình ảnh y tế : Hỗ trợ phát hiện các bất thường trong quá trình quét, góp phần vào sự tiến bộ của AI trong chăm sóc sức khỏe .
Tạo trình tự trong sinh học : Mô hình hóa cấu trúc protein và trình tự bộ gen.

Transformer so với các kiến trúc khác

Sẽ rất hữu ích khi phân biệt Transformers với các kiến trúc mạng nơ-ron phổ biến khác:

Transformers so với RNN: RNN xử lý dữ liệu theo trình tự, khiến chúng phù hợp với dữ liệu chuỗi thời gian nhưng dễ quên thông tin trước đó trong các chuỗi dài ( vấn đề gradient biến mất ). Transformers xử lý các chuỗi song song bằng cách tự chú ý, nắm bắt các phụ thuộc tầm xa hiệu quả hơn và đào tạo nhanh hơn trên phần cứng song song ( GPU ).
Transformers so với CNN: CNN rất giỏi trong việc xác định các mẫu cục bộ trong dữ liệu dạng lưới (ví dụ: pixel trong hình ảnh) bằng cách sử dụng các bộ lọc tích chập. Chúng cực kỳ hiệu quả đối với nhiều tác vụ thị giác như những tác vụ được giải quyết bởi các mô hình YOLO Ultralytics . Transformers, đặc biệt là ViTs, chia hình ảnh thành các mảng và sử dụng sự chú ý tự thân để mô hình hóa các mối quan hệ giữa chúng, nắm bắt bối cảnh toàn cầu có khả năng tốt hơn nhưng thường đòi hỏi nhiều dữ liệu và tài nguyên tính toán hơn, đặc biệt là trong quá trình đào tạo mô hình . Kiến trúc lai, kết hợp các tính năng CNN với các lớp Transformer, nhằm mục đích tận dụng thế mạnh của cả hai, như được thấy trong một số biến thể RT-DETR . Sự lựa chọn thường phụ thuộc vào tác vụ cụ thể, kích thước tập dữ liệu và tài nguyên tính toán khả dụng.

Máy biến áp

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Máy biến áp hoạt động như thế nào

Sự liên quan và tác động

Ứng dụng trong AI và ML

Transformer so với các kiến trúc khác

Đọc thêm blog

Tham gia Ultralytics cộng đồng