术语表

序列到序列模型

了解序列到序列模型如何将输入序列转换为输出序列,为翻译、聊天机器人和语音识别等人工智能任务提供动力。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

序列到序列(Seq2Seq)模型是一类深度学习架构,旨在将输入序列转换为输出序列,其中输入和输出序列的长度可能不同。这些模型最初是利用循环神经网络(RNN)开发的,是许多涉及序列数据任务的基础,尤其是在自然语言处理(NLP)领域。其核心思想是将句子、音频片段或时间序列数据等序列从一个领域映射到另一个领域。

序列到序列模型的工作原理

Seq2Seq 模型通常由两个主要部分组成:编码器和解码器。

  1. 编码器:该部分逐步处理整个输入序列(如法语句子)。每一步都会更新其内部隐藏状态。最终的隐藏状态通常称为 "上下文向量 "或 "思想向量",旨在捕捉输入序列的摘要或本质。早期的 Seq2Seq 模型使用 RNNs 或LSTMs来实现这一目的,详见最初的序列到序列学习论文
  2. 解码器:解码器:该组件从编码器中获取最终的上下文向量,并逐步生成输出序列(如翻译成English的句子)。它将上下文向量作为初始状态,在每个时间步产生输出序列的一个元素,同时更新自己的隐藏状态。

注意力机制是显著提高 Seq2Seq 性能(尤其是较长序列的性能)的一项关键创新。正如Bahdanau 等人提出的那样,注意力允许解码器在生成每个输出元素时,回看输入序列隐藏状态的不同部分(而不仅仅是最终上下文向量),动态权衡它们的重要性。

相关性与演变

Seq2Seq 模型是一项重大突破,尤其适用于输入和输出长度可变、比对复杂的任务。它们为处理各种序列转换问题提供了一个灵活的框架。最初基于 RNN 的 Seq2Seq 模型虽然具有基础性,但也面临着长程依赖性的挑战。这导致了Transformer模型的发展,该模型完全依赖于注意力机制和并行处理,在许多序列任务中基本取代了 RNN,实现了最先进的性能。然而,核心的编码器-解码器概念仍然具有影响力。像 PyTorchTensorFlow等框架为构建传统的 Seq2Seq 和现代的Transformer模型提供了强大的工具。

人工智能和 ML 的应用

Seq2Seq 模型,包括基于 Transformer 的现代后继模型,已被广泛应用:

  • 机器翻译将文本从源语言翻译成目标语言(例如,为Google 翻译等服务提供支持)。
  • 文本摘要从较长的文章或文件中生成较短的摘要。
  • 聊天机器人和问题解答:根据输入文本或问题生成对话式回复或答案。许多现代聊天机器人都采用了先进的 Transformer 架构,如GPT-4
  • 语音识别将音频特征序列转换为文本序列(转录)。
  • 图像字幕:为输入图像生成文字描述(单词序列)。虽然有别于由以下模型执行的物体检测任务 Ultralytics YOLO等模型执行的物体检测任务不同,它涉及将视觉输入映射到顺序输出。斯坦福大学 NLP 小组等机构的研究经常会探索这些领域。

虽然 Seq2Seq 模型主要与 NLP 有关,但受其启发的注意力机制也在计算机视觉中得到了应用,例如,在检测模型的某些组件中,如 RT-DETR或视觉转换器中的某些组件。您可以在以下平台上探索各种模型 Hugging Face.

阅读全部