术语表

BERT(来自变压器的双向编码器表示法)

了解Google 的革命性 NLP 模型 BERT。了解其双向上下文理解如何改变搜索和聊天机器人等人工智能任务。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

BERT是Bidirectional Encoder Representations from Transformers的缩写,是Google 人工智能语言研究人员开发的一项具有里程碑意义的自然语言处理(NLP)预训练技术。BERT 于 2018 年通过极具影响力的论文《BERT:用于语言理解的深度双向变换器预训练》问世,彻底改变了机器理解人类语言的方式。它是最早的深度双向、无监督语言表征之一,仅使用维基百科这样的纯文本语料进行预训练。BERT 利用功能强大的Transformer 架构,特别是编码器部分,同时而不是按顺序处理单词与句子中所有其他单词的关系。与以前的单向模型相比,这可以更深入地理解上下文。

伯特如何工作

与早期只按单一方向(从左到右或从右到左)处理文本的模型不同,BERT 利用其变换器编码器和自我注意机制一次性处理整个单词序列。这种双向方法使其能够根据一个单词前后的周边单词来把握该单词的上下文。例如,BERT 可以通过考虑整个句子的上下文来区分 "我要去银行取钱 "和 "河岸很泥泞 "中 "银行 "的含义。

在预训练阶段,BERT 通过大量文本数据学习这些复杂的语言关系。这涉及两项主要的无监督任务:

  1. 屏蔽语言模型(MLM):一定比例的输入标记(单词或子单词)被随机屏蔽(隐藏),模型根据上下文学习预测这些屏蔽标记。
  2. 下一句预测 (NSP):该模型接收成对的句子,并学习预测第二句是原文中第一句之后的真正下一句,还是只是一个随机句子。

这种预训练的结果是一个具有丰富语言嵌入的模型,可以捕捉语法和语义。然后,可以使用较小的特定任务数据集,针对各种特定的下游 NLP 任务快速调整或"微调"这种预训练 BERT 模型。这种利用预训练知识的过程就是迁移学习的一种形式。

主要功能和优点

  • 深度双向语境:BERT 的主要创新之处在于,它能够通过同时查看单词前后的单词来理解单词的上下文。与早期版本的GPT 等单向模型相比,它能更丰富、更准确地理解语言的细微差别。
  • 最先进的性能:BERT 一经发布,就在各种 NLP 基准测试中取得了一流的成绩,包括问题解答(如SQuAD 数据集)和自然语言理解(NLU)任务。
  • 强大的迁移学习能力:BERT 的预训练模型是一个强大的基础。通过在情感分析命名实体识别(NER)等特定任务上对 BERT 进行微调,与从头开始训练一个模型相比,开发人员可以用更少的特定任务数据和训练时间实现高性能。
  • 广泛可用性:预训练的 BERT 模型可通过以下平台随时获取 Hugging Face等平台,并可与流行的深度学习 (DL)框架一起使用,如 PyTorchTensorFlow.

实际应用

BERT 理解语言细微差别的能力已在现实世界的各种人工智能 (AI)应用中取得了重大改进:

  • 搜索引擎: Google 搜索采用了著名的 BERT 来更好地理解用户查询,尤其是会话查询或复杂查询,从而获得更相关的搜索结果。正如Google 人工智能博客中解释的那样,BERT 通过理解 "for "和 "to "等介词的重要性,帮助把握 "can you get medicine for someone pharmacy "等搜索背后的意图。
  • 聊天机器人和虚拟助理:BERT 可增强聊天机器人虚拟助理的能力,使其更准确地理解用户请求,在对话中保持语境,并在客户服务、预订系统和信息检索中提供更有用的回复。
  • 情感分析:企业使用基于 BERT 的模型来分析客户评论、社交媒体评论和调查回复,从而更准确地衡量公众意见和产品反馈。
  • 文本摘要和问题解答:可以对 BERT 进行微调,以创建自动总结长文档(文本总结)或根据给定文本段落回答问题的系统。

虽然 BERT 主要用于 NLP,但它所普及的变换器架构也为计算机视觉(CV)领域的进步带来了灵感,例如在以下模型中使用的视觉变换器(ViT)RT-DETR.Ultralytics HUB等平台有助于训练部署各种人工智能模型,包括那些基于 Transformer 原理构建的模型。

阅读全部