Thuật ngữ

TPU ( Tensor Đơn vị xử lý)

Khám phá cách Tensor Đơn vị xử lý (TPU) tăng tốc các tác vụ học máy như đào tạo, suy luận và phát hiện đối tượng với hiệu quả vô song.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

MỘT Tensor Đơn vị xử lý ( TPU ) là một bộ tăng tốc học máy được thiết kế riêng do Google phát triển dành riêng cho khối lượng công việc mạng nơ-ron. Các bộ xử lý chuyên dụng này, một loại mạch tích hợp dành riêng cho ứng dụng (ASIC) , được thiết kế để tăng tốc và mở rộng đáng kể các hoạt động học máy, đặc biệt là đối với các tác vụ suy luận và đào tạo. TPU được thiết kế để xử lý các phép tính toán học phức tạp liên quan đến trí tuệ nhân tạo, mang lại những cải tiến hiệu suất đáng kể so với CPU và thường là GPU cho một số loại mô hình học máy nhất định.

Cái gì là một TPU ?

MỘT TPU được xây dựng từ đầu cho các nhu cầu độc đáo của máy học (ML) , đặc biệt là học sâu . Không giống như các bộ xử lý đa năng như CPU hoặc thậm chí GPU xử lý nhiều tác vụ hơn, TPU được xây dựng có mục đích để vượt trội trong tensor tính toán—các hoạt động toán học cơ bản trong mạng nơ-ron . Tenxơ là các mảng đa chiều biểu diễn dữ liệu trong các mô hình ML và TPU được tối ưu hóa để thực hiện phép nhân ma trận quy mô lớn và các tensor đại số ở tốc độ cao và hiệu quả năng lượng. Chuyên môn hóa này cho phép TPU thực hiện các tác vụ ML nhanh hơn nhiều so với CPU và trong nhiều trường hợp, hiệu quả hơn GPU, đặc biệt là khi làm việc với các khuôn khổ như TensorFlow mà chúng được tối ưu hóa ban đầu, mặc dù hỗ trợ cho các khuôn khổ khác như PyTorch cũng khả dụng. Bạn có thể tìm hiểu thêm về các thông số cụ thể từ Giới thiệu về TPU của Google Cloud .

Ứng dụng của TPU

TPU được sử dụng rộng rãi trong nhiều ứng dụng khác nhau, đặc biệt là những ứng dụng được cung cấp năng lượng bởi Google dịch vụ và ngày càng mở rộng hơn trong các lĩnh vực AI và ML có thể truy cập thông qua các nền tảng như Google Cloud . Các ứng dụng chính bao gồm:

  • Đào tạo mô hình quy mô lớn: TPU rất giỏi trong việc đào tạo các mô hình rất lớn và phức tạp, chẳng hạn như các mô hình được sử dụng trong xử lý ngôn ngữ tự nhiên (NLP) (như các biến thể BERT hoặc GPT) và các tác vụ thị giác máy tính nâng cao. Kiến trúc của chúng rất phù hợp với các phép tính song song lớn cần thiết, thường sử dụng các kỹ thuật như đào tạo phân tán . Các nhà nghiên cứu và nhà phát triển có thể tận dụng TPU vỏ để tăng tốc đáng kể. Nhiều mô hình lớn hỗ trợ Google Tìm kiếm và Dịch dựa vào TPU để đào tạo.
  • Suy luận khối lượng lớn: Đối với các ứng dụng yêu cầu dự đoán nhanh trên các tập dữ liệu lớn, TPU cung cấp thông lượng cao và độ trễ thấp. Google sử dụng TPU để cung cấp năng lượng cho các tính năng AI thời gian thực trong các sản phẩm như Google Ảnh (để phân tích hình ảnh và phát hiện đối tượng ) và Google Trợ lý (để nhận dạng giọng nói). TPU cũng có sẵn trên các nền tảng như Kaggle , cho phép truy cập rộng hơn để thử nghiệm, như đã thảo luận trong hướng dẫn tích hợp Kaggle của Ultralytics . TPU Edge nhỏ hơn mang lại khả năng tăng tốc này cho các thiết bị điện toán biên .

TPU so với GPU

Mặc dù cả TPU và GPU đều tăng tốc khối lượng công việc ML, nhưng chúng có sự khác biệt đáng kể:

  • Kiến trúc: GPU được thiết kế để xử lý song song, ban đầu là đồ họa, khiến chúng trở nên linh hoạt cho nhiều tác vụ song song khác nhau bao gồm ML. TPU có kiến trúc chuyên biệt hơn (Matrix Multiply Units) được tối ưu hóa đặc biệt cho tensor /hoạt động ma trận chiếm ưu thế trong mạng nơ-ron.
  • Tính linh hoạt: GPU cung cấp tính linh hoạt cao hơn do hỗ trợ phần mềm rộng hơn ( CUDA , nhiều khuôn khổ ML khác nhau) và khả năng áp dụng cho các tác vụ ngoài ML. TPU được tối ưu hóa cao cho ML, đặc biệt là đào tạo và suy luận học sâu, và hoạt động tốt nhất với các khuôn khổ như TensorFlow hoặc JAX, mặc dù PyTorch sự hỗ trợ đang được cải thiện.
  • Hiệu quả: Đối với khối lượng công việc ML tương thích, quy mô lớn, TPU có thể cung cấp hiệu suất trên mỗi watt cao hơn so với GPU. Tuy nhiên, GPU có thể tiết kiệm chi phí hơn hoặc hiệu suất cao hơn đối với các tác vụ nhỏ hơn hoặc các tác vụ liên quan đến các hoạt động ít phù hợp hơn với TPU ngành kiến trúc.

Tóm lại, TPU đại diện cho một bước tiến đáng kể trong phần cứng được thiết kế riêng cho nhu cầu học máy hiện đại, mang lại hiệu suất và hiệu quả nâng cao cho các ứng dụng AI cụ thể, đặc biệt là các công việc đào tạo và suy luận quy mô lớn. Chúng bổ sung cho các bộ tăng tốc khác như GPU, cung cấp các tùy chọn tùy thuộc vào khối lượng công việc, quy mô và hệ sinh thái phần mềm cụ thể. Bạn có thể khám phá các tùy chọn đào tạo, bao gồm tài nguyên đám mây, thông qua các nền tảng như Ultralytics HUB .

Đọc tất cả