术语表

激活功能

了解激活函数在神经网络中的作用、类型以及在人工智能和机器学习中的实际应用。

激活函数是神经网络（NN）的基本组成部分，在使这些网络学习复杂模式和进行复杂预测方面发挥着至关重要的作用。受生物神经元发射方式的启发，激活函数通过计算神经元输入的加权和并添加偏置来决定是否激活神经元。它的主要目的是在神经元的输出中引入非线性，这对深度学习（DL）模型处理简单线性关系之外的复杂任务至关重要。如果没有非线性激活函数，深度神经网络的行为将与单层线性模型无异，从而严重限制其学习能力。

非线性为何重要

现实世界的数据，如图像、文本和声音，本质上是复杂和非线性的。仅由线性变换组成的模型无法有效捕捉这些错综复杂的关系。激活函数引入了必要的非线性，使神经网络能够逼近任意复杂的函数。这种能力是现代人工智能（AI）的基石，使计算机视觉（CV）和自然语言处理（NLP）等领域取得了突破性进展。学习过程包括通过反向传播和梯度下降等方法调整网络权重，这些方法都依赖于这些函数所引入的特性。

激活功能的常见类型

激活函数种类繁多，各有特点，适用于不同的场景。一些常见的类型包括

西格玛函数该函数将输入值压缩到 0 和 1 之间的范围内。它在历史上很流行，但由于梯度消失等问题，如今已较少用于隐藏层，因为这可能会减慢或停止学习。参见维基百科上的数学定义。
Tanh（双曲切线）：与 Sigmoid 类似，但输出值介于-1 和 1 之间。与 Sigmoid 相比，以零为中心的特性通常有助于学习，但它仍然存在梯度消失的问题。在Wolfram MathWorld 上探索其特性。
ReLU（整流线性单元）：如果输入为正，则直接输出，否则输出为零。它的计算效率很高，被广泛应用于卷积神经网络（CNN）。然而，它可能会出现 "垂死的 ReLU "问题，即神经元变得不活跃。阅读ReLU 论文原文。
Leaky ReLU：ReLU 的一种变体，当输入为负数时，允许有一个小的、非零的梯度，从而解决了 ReLU 垂死的问题。更多详情，请访问论文与代码。
SiLU（西格玛线性单元）/ Swish：一种自门控激活函数，性能通常优于 ReLU。它被用于多种现代架构，包括一些 Ultralytics YOLO模型。请参阅SiLU 研究论文及其在 PyTorch.
GELU（高斯误差线性单元）：GELU 常用于变压器模型，它根据输入的幅度而不仅仅是符号来加权。详情请参见GELU 论文。
软最大：通常用于多类分类任务的网络输出层。它将原始分数向量转换为概率分布，其中每个值介于 0 和 1 之间，所有值的总和为 1。有关Softmax 函数的更多信息，请访问维基百科。

选择正确的激活功能

激活函数的选择取决于问题类型（如分类、回归）、特定层（隐藏层与输出层）、网络架构以及所需的性能特征（如准确性和推理速度）等因素。ReLU 及其变体（Leaky ReLU、SiLU）是 CNN 隐藏层的常见选择，这是因为它们具有高效性和缓解梯度消失的能力。Sigmoid 和 Tanh 通常用于递归神经网络 (RNN)，而 Softmax 则是多类分类输出的标准。要为特定模型和数据集找到最佳激活函数，通常需要进行实验并使用超参数调整等技术。您可以探索各种模型训练技巧，以获得指导。

实际应用

激活功能在各种人工智能应用中至关重要：

物体检测：在诸如 YOLO11等模型中，SiLU 或 ReLU 等激活函数被用于骨干卷积层，以从图像中提取特征（如边缘、纹理、形状）。在检测头中，激活函数有助于预测类别概率，并完善检测到的物体周围边界框的坐标。这项技术在自动驾驶汽车识别行人和其他车辆以及安全监控系统等领域至关重要。
语音识别：在将口语转换为文本的系统中，通常采用 RNN 或 Transformers，在网络层中使用 Tanh 或 GELU 等激活函数。它们有助于模型捕捉音频信号中的时间依赖性和模式，从而实现准确的转录。这为虚拟助手（如 Siri、Alexa）和听写软件等应用提供了动力。了解更多领先研究机构的语音识别技术。

与相关术语的比较

必须将激活函数与神经网络中的其他概念区分开来：

损失函数：损失函数量化模型预测值与实际目标值之间的差异（"误差"）。其目的是通过衡量模型的表现来指导训练过程。激活函数在前向传递过程中决定神经元的输出，而损失函数则在传递结束时评估模型的整体输出，以计算用于在反向传播过程中更新权重的误差。
优化算法：这些算法（如亚当优化算法、随机梯度下降算法（SGD））定义了如何根据计算的损失更新模型权重。它们使用从损失函数中得出的梯度来调整参数并最小化误差。激活函数会影响梯度的计算，但并不是优化方法本身。请参阅优化算法概述。
归一化技术： 批量归一化（Batch Normalization）等方法旨在通过归一化层的输入（使其均值为零，方差为单位）来稳定和加速训练过程。归一化发生在激活函数应用于转换层输入之前，有助于在整个网络中保持一致的数据分布。详情请阅读批量归一化论文。

了解激活函数对于设计、训练和优化各种领域的有效机器学习（ML）模型至关重要。正确的选择会对模型性能和训练动态产生重大影响。您可以使用Ultralytics HUB 等工具探索不同的模型及其组件，这些工具有助于构建、训练和部署人工智能模型。

激活功能

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO