了解 Adam 优化器如何通过自适应学习率、动力和人工智能中的实际应用为高效的神经网络训练提供动力。
Adam(自适应矩估计)是机器学习(ML)和深度学习(DL)中使用的一种流行而强大的优化算法。它旨在根据训练数据迭代更新模型参数(权重和偏置),从而高效地找到模型参数的最优值。Adam 因其收敛速度快、对各种问题都很有效而备受推崇,因此成为许多从业者在训练自定义模型时的默认选择。Adam 的开发是使大型复杂模型的训练更加实用的重要一步。
Adam 的关键创新之处在于它能够调整每个参数的学习率。Adam 不对网络中的所有权重使用单一、固定的学习率,而是计算随着训练进展而调整的单个学习率。它结合了其他两种优化方法的优点,从而实现了这一目标:RMSProp 和 Momentum。Adam 会跟踪两个主要部分:第一矩(梯度的平均值,类似于动量)和第二矩(梯度的非中心方差)。这样的组合使它能做出更明智的更新,对梯度一致的参数采取较大的步长,而对噪声或稀疏梯度的参数采取较小的步长。Kingma 和 Ba 的亚当研究论文原文中详细介绍了这种方法。
将 Adam 与其他常见优化器进行比较,有助于了解其优势。
Adam 的高效性和坚固性使其适用于广泛的应用领域。
在 Ultralytics 生态系统中,Adam 及其变体 AdamW 是用于训练 Ultralytics YOLO 模型的优化器。利用 Adam 的自适应学习率,可以在训练对象检测、实例分割或姿态估计模型(如YOLO11或YOLOv10)的过程中加快收敛速度。 虽然 SGD 通常是某些 YOLO 模型的默认和推荐优化器,因为它可能具有更好的最终泛化效果,但 Adam 提供了一个稳健的替代方案,在初始实验中尤其有用。您可以轻松配置优化器和其他训练设置。Ultralytics HUB等工具简化了这一过程,允许用户在本地或通过云训练使用包括 Adam 在内的各种优化器训练模型。PyTorch和TensorFlow等框架提供了 Adam 的标准实现,Ultralytics 框架也使用了这些实现。