术语表

混合精度

通过混合精度训练提高深度学习效率！在不牺牲精度的前提下，实现更快的速度、更少的内存使用和更低的能耗。

混合精度是深度学习中用于加快模型训练和减少内存消耗的一种技术。它包括在计算过程中结合使用低精度数字格式（如 16 位浮点（FP16））和高精度格式（如 32 位浮点（FP32））。通过有策略地对模型的某些部分（如权重乘法）使用较低精度的数字，并将权重更新等关键部分保持在较高精度，混合精度训练可以显著提高现代GPU的性能，而不会大幅降低模型精度。

混合精度如何工作

混合精度背后的核心理念是利用低精度数据类型的速度和内存效率。现代硬件，尤其是带有张量核的英伟达™（NVIDIA®）图形处理器，对 16 位数执行操作的速度比对 32 位数执行操作的速度快得多。这一过程通常包括三个关键步骤：

向低精度转换：模型的大部分运算，尤其是计算密集型的矩阵乘法和卷积，都采用半精度（FP16）算术。这样可以减少内存占用并加快计算速度。
保存权重主副本：为保持模型的准确性和稳定性，模型权重的主副本以标准的 32 位浮点（FP32）格式保存。该主副本用于在训练过程中积累梯度和更新权重。
损耗缩放为了防止数值下溢，即小的梯度值在转换为 FP16 时变为零，我们使用了一种称为损耗缩放的技术。它包括在反向传播前将损失乘以一个缩放因子，以将梯度值保持在 FP16 的可表示范围内。在权重更新之前，梯度会被缩减。

PyTorch和TensorFlow等深度学习框架内置了对自动混合精度的支持，因此很容易实现。

应用与实例

混合精度被广泛应用于训练大规模机器学习（ML）模型，在这种情况下，效率至关重要。

训练大型语言模型 (LLM)： GPT-3和BERT等模型有数十亿个参数。仅使用 FP32 对其进行训练需要大量 GPU 内存和时间，令人望而却步。混合精度可显著减少内存需求并加快计算速度，从而使此类基础模型的训练变得可行。这样，研究人员就能更快地进行迭代，建立更强大的语言模型。
加速计算机视觉模型：在计算机视觉（CV）领域，混合精度加快了卷积神经网络（CNN）和视觉转换器（ViT）等复杂模型的训练速度。对于物体检测和图像分割等任务，Ultralytics YOLO 模型（包括最新的Ultralytics YOLO11）利用混合精度加快收敛速度。这对于在Ultralytics HUB 等平台上进行超参数调整和快速开发特别有用。更快的训练还有助于在COCO 等大型数据集上更快地进行实验。在推理过程中也可以使用混合精度来加速模型部署，尤其是在导出到TensorRT 等格式时，因为TensorRT 针对较低精度进行了大量优化。

混合精度

灵活的企业许可解决方案为您的创新提供动力

使用 Ultralytics YOLO 在数秒内训练人工智能模型

使用 Ultralytics HUB 简单训练 YOLO 模型

混合精度如何工作

应用与实例

相关概念

在此类别中阅读更多内容

制造企业资源规划指南

制造执行系统（MES）：人工智能驱动的生产

了解快速成型制造：技术和使用案例

加入 Ultralytics 社区