术语表

TPU (Tensor Processing Unit)

了解Tensor Processing Units (TPU) 如何以无与伦比的效率加速机器学习任务,如训练、推理和对象检测。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

Tensor 处理单元TPU)是一种定制设计的机器学习加速器,由 Google专门为神经网络工作负载开发的定制机器学习加速器。这些专用处理器是一种特定应用集成电路(ASIC),设计用于显著加快和扩展机器学习操作,特别是推理和训练任务。TPU 专为处理人工智能中的复杂数学计算而设计,在某些类型的机器学习模型中,其性能明显优于 CPU 和GPU

什么是TPU?

TPU 是针对机器学习 (ML),尤其是深度学习的独特需求从底层开始构建的。CPU 甚至 GPU 等通用处理器可以处理更广泛的任务,而 TPU 则不同,它是专门为擅长tensor 计算(神经网络中的基本数学运算)而设计的。张量是代表 ML 模型中数据的多维数组,TPU 经过优化,可以高速、高能效地执行大规模矩阵乘法和其他tensor 代数运算。这种专业化使 TPU 执行 ML 任务的速度比 CPU 快得多,在许多情况下,比 GPU 更有效率,尤其是在使用以下框架时 TensorFlow等框架时尤其如此。 PyTorch等框架的支持。您可以Google TPU 简介中了解更多具体信息。

热塑性聚氨酯的应用

TPU 广泛应用于各种应用,特别是由Google 服务提供支持的应用,并越来越多地应用于通过Google 等平台访问的更广泛的人工智能和 ML 领域。主要应用包括

  • 大规模模型训练:TPU 擅长训练大型复杂模型,如自然语言处理(NLP)(如 BERT 或 GPT 变体)和高级计算机视觉任务中使用的模型。它们的架构非常适合所需的大规模并行计算,通常采用分布式训练等技术。研究人员和开发人员可以利用TPU pods 显著提高速度。支持Google 搜索和翻译的许多大型模型都依靠 TPU 进行训练。
  • 大容量推理:对于需要在大型数据集上进行快速预测的应用,TPU 可提供高吞吐量和低延迟。Google 在Google 照片(用于图像分析和物体检测)和Google 助手(用于语音识别)等产品中使用 TPU 支持实时人工智能功能。如Ultralytics Kaggle 集成指南所述,TPU 还可用于Kaggle 等平台,从而为实验提供更广泛的访问权限。小型边缘 TPU将这种加速功能带到了边缘计算设备上。

TPU 与 GPU

虽然 TPU 和 GPU 都能加速 ML 工作负载,但它们之间存在显著差异:

  • 架构:GPU 设计用于并行处理,最初用于图形处理,因此可用于包括 ML 在内的各种并行任务。TPU 具有更专业的架构(矩阵乘法单元),专门针对神经网络中占主导地位的tensor运算进行了优化。
  • 灵活性:GPU 具有更广泛的软件支持CUDA、各种 ML 框架),适用于 ML 以外的任务,因此灵活性更高。TPU 针对 ML(尤其是深度学习训练和推理)进行了高度优化,在使用TensorFlow 或 JAX 等框架时表现最佳,不过对PyTorch 的支持也在不断改进。
  • 效率:对于大规模、兼容的 ML 工作负载,TPU 可以提供比 GPU 更优越的每瓦性能。不过,对于小型任务或涉及不太适合TPU 架构的操作的任务,GPU 可能更具成本效益或性能更强。

总之,TPU 代表了专为满足现代机器学习需求而设计的硬件的重大进步,为特定的人工智能应用,尤其是大规模训练和推理工作提供了更高的性能和效率。它们是对 GPU 等其他加速器的补充,可根据特定的工作负载、规模和软件生态系统提供各种选择。您可以通过Ultralytics HUB 等平台探索培训选项,包括云资源。

阅读全部