Softmax 函数是机器学习和深度学习中常用的一种数学运算,用于将原始模型输出(对数)转换为概率。它在多类分类任务中尤为常见,在这种任务中,目标是将单个输入分配到多个类别中的一个。通过将对数转换为概率分布,Softmax 可以确保所有类别的输出总和为 1,从而使它们可以解释为概率。
Softmax 采用神经网络输出层的原始分数(logits)向量,并将其缩放至 [0, 1] 的范围内。这种转换放大了对数之间的差异,从而更容易识别出最可能的类别。由此得出的概率表示每个类别的相对可能性。
例如,考虑训练一个神经网络,将动物图像分为三类:猫、狗和鸟。如果网络输出的对数是 [2.0, 1.0, 0.1]
,Softmax 会将其转换为概率,例如 [0.65, 0.24, 0.11]
表示对 "猫 "类的信任度最高。
Softmax 是神经网络输出层的标准激活函数,用于多类分类任务。例如,在图像分类中,Ultralytics YOLO 等模型使用 Softmax 来确定图像最可能的标签。进一步了解它在图像识别中的作用。
在文本分类或语言建模等 NLP 任务中,Softmax 对于预测可能的下一个词或类别标签的概率分布至关重要。GPT-3 和 GPT-4 等模型在其输出层中利用 Softmax 生成连贯的文本。探索大型语言模型 (LLM)如何利用这一功能实现高级应用。
Softmax 也用于计算注意力权重。这些权重有助于模型关注输入数据的特定部分,从而提高机器翻译和图像字幕等任务的性能。
在医学图像分析中,Softmax 可用于将医学扫描图像分为 "肿瘤 "或 "非肿瘤 "等类别。例如,Ultralytics YOLO 等模型可以使用 Softmax 增强肿瘤检测等应用的决策能力。
在自动驾驶汽车中,Softmax 可用于对检测到的物体(如行人、车辆、交通标志)进行分类,并辅助安全导航决策。例如,Ultralytics YOLO 框架可将 Softmax 用于自动驾驶系统中的物体检测任务。
虽然 Softmax 和Sigmoid都是激活函数,但它们的作用不同:
对于涉及多个独立标签的任务(多标签分类),Sigmoid 激活通常比 Softmax 更受青睐。
Softmax 有时会导致 "过度置信 "等问题,在这种情况下,即使在不确定的情况下,模型也会给某个特定类别分配很高的概率。标签平滑等技术可以通过减少过度拟合和鼓励更好的泛化来缓解这一问题。
此外,Softmax 假定类别是相互排斥的。如果这一假设不成立,其他方法或激活函数可能更合适。
Softmax 是现代人工智能和机器学习应用的基石,使模型能够有效地解释和输出概率。从医疗保健到自主系统,它的多功能性和简易性使其成为推动智能系统发展的重要工具。要了解有关构建和部署人工智能模型的更多信息,请访问Ultralytics HUB 并立即开始您的旅程。