当前位置: 首页 > news >正文

安徽省建设厅网站巅川建设有限公司天翼云 安装wordpress

安徽省建设厅网站巅川建设有限公司,天翼云 安装wordpress,网站备案负责人一定要法人,系统开发报价清单明细一、介绍 2017是机器学习中具有历史意义的一年#xff0c;当变形金刚模型首次出现在现场时。它在许多基准测试上都表现出色#xff0c;并且适用于数据科学中的许多问题。由于其高效的架构#xff0c;后来开发了许多其他基于变压器的模型#xff0c;这些模型更专注于特定任务… 一、介绍 2017是机器学习中具有历史意义的一年当变形金刚模型首次出现在现场时。它在许多基准测试上都表现出色并且适用于数据科学中的许多问题。由于其高效的架构后来开发了许多其他基于变压器的模型这些模型更专注于特定任务。 其中一个模型是BERT。它主要以能够构建嵌入而闻名这些嵌入可以非常准确地表示文本信息并存储长文本序列的语义含义。因此BERT嵌入在机器学习中得到了广泛的应用。理解BERT如何构建文本表示至关重要因为它为处理NLP中的大量任务打开了大门。 在本文中我们将参考原始的BERT论文并查看BERT架构并了解其背后的核心机制。在第一节中我们将对BERT进行高级概述。之后我们将逐步深入了解其内部工作流程以及如何在整个模型中传递信息。最后我们将学习如何微调BERT以解决NLP中的特定问题。 二、高级概述 Transformer的架构由两个主要部分组成编码器和解码器。堆叠编码器的目标是为输入构造有意义的嵌入以保留其主要上下文。最后一个编码器的输出将传递给所有尝试生成新信息的解码器的输入。 BERT是变压器的后继产品继承了其堆叠式双向编码器。BERT中的大多数架构原理与原始变压器中的架构原理相同。 变压器架构 三、Bert版本 BERT有两个主要版本基本版本和大型版本。它们的架构是完全相同的除了它们使用不同数量的参数。总体而言与BERT基础相比BERT large需要调整的参数多3.09倍。 BERT基底和BERT大基的比较 四、双向表示 从BERT名称中的字母“B”开始重要的是要记住BERT是一个双向模型这意味着由于信息是双向传递的从左到右和从右到左它可以更好地捕获单词连接。显然与单向模型相比这会产生更多的训练资源但同时会导致更好的预测准确性。 为了更好地理解我们可以将BERT架构与其他流行的NLP模型进行比较。 比较来自 ogirinal 论文的 BERT、OpenAI GPT 和 ElMo 架构。作者采纳。 五、输入标记化 小说在官方论文中作者使用术语“句子”来表示传递给输入的文本。为了指定相同的术语在本系列文章中我们将使用术语“序列”。这样做是为了避免混淆因为“句子”通常意味着由一个点分隔的单个短语并且由于在许多其他NLP研究论文中术语“序列”在类似情况下使用。 在深入研究如何训练BERT之前有必要了解它接受数据的格式。对于输入BERT采用单个序列或一对序列。每个序列被拆分为令牌。此外两个特殊令牌将传递给输入 小说官方论文使用术语“句子”它表示传递给BERT的输入序列该序列实际上可以由几个句子组成。为简单起见我们将遵循符号并在本文中使用相同的术语。 [CLS] — 在指示其开始的第一个序列之前传递。同时[CLS] 还用于训练期间的分类目标在以下部分中讨论。[SEP] — 在序列之间传递以指示第一个序列的结束和第二个序列的开始。 传递两个序列使BERT可以处理输入包含一对序列的各种任务例如问题和答案假设和前提等。 六、输入嵌入 标记化后将为每个令牌构建一个嵌入。为了使输入嵌入更具代表性BERT为每个令牌构造了三种类型的嵌入 令牌嵌入捕获令牌的语义含义。段嵌入具有两个可能的值之一并指示令牌属于哪个序列。位置嵌入包含有关序列中令牌的相对位置的信息。 输入处理 对这些嵌入进行汇总并将结果传递给BERT模型的第一个编码器。 七、输出 每个编码器将 n 个嵌入作为输入然后输出相同数量的相同维度的已处理嵌入。最终整个BERT输出还包含n个嵌入每个嵌入对应于其初始令牌。 八、训练 BERT培训包括两个阶段 预培训。BERT在两个预测任务中对未标记的序列对进行训练掩蔽语言建模MLM和自然语言推理NLI。对于每对序列模型对这两个任务进行预测并根据损失值执行反向传播以更新权重。微调。BERT使用预先训练的权重进行初始化然后针对标记数据上的特定问题进行优化。 九、预培训 与微调相比预训练通常需要相当大比例的时间因为模型是在大量数据语料库上进行训练的。这就是为什么存在许多预先训练模型的在线存储库然后可以相对较快地对其进行微调以解决特定任务。 我们将详细研究BERT在预训练期间解决的两个问题。 9.1 遮罩语言建模 作者建议通过在初始文本中屏蔽一定数量的标记并预测它们来训练BERT。这使BERT能够构建弹性嵌入该嵌入可以使用周围的上下文来猜测某个单词这也导致为遗漏的单词构建适当的嵌入。此过程的工作方式如下 标记化后随机选择15%的令牌进行屏蔽。然后所选令牌将在迭代结束时进行预测。所选令牌以以下三种方式之一替换- 80% 的令牌由 [MASK] 令牌替换。 示例我买了一本书→买了一个[MASK] - 10%的代币被随机代币取代。 示例他正在吃一个水果→他正在抽一个水果 - 10%的代币保持不变。 示例房子在我附近 → 房子在我附近所有令牌都传递给BERT模型该模型为其作为输入接收的每个令牌输出嵌入。 4. 与步骤 2 中处理的令牌对应的输出嵌入独立用于预测屏蔽的令牌。每个预测的结果是词汇表中所有标记的概率分布。 5. 交叉熵损失是通过将概率分布与真实掩蔽令牌进行比较来计算的。 6. 使用反向传播更新模型权重。 9.2 自然语言推理 对于此分类任务BERT尝试预测第二个序列是否遵循第一个序列。整个预测是通过仅使用 [CLS] 令牌的最终隐藏状态的嵌入来进行的该令牌应该包含来自两个序列的聚合信息。 与MLM类似构造的概率分布在本例中为二进制用于计算模型的损失并通过反向传播更新模型的权重。 对于NLI作者建议选择50%的序列对这些序列在语料库中相互跟随正对和50%的序列对其中序列是从语料库中随机获取的负对。 伯特预培训 9.3 培训详情 根据该论文BERT在BooksCorpus800亿字和英语维基百科2500M字上进行了预训练。为了提取较长的连续文本作者从维基百科中只阅读了忽略表格标题和列表的段落。 BERT在256万个批次上训练大小等于40个序列相当于3亿个单词的3个epoch。每个序列最多包含 12890% 的时间或 51210% 的时间令牌。 根据原论文训练参数如下 优化器亚当学习率 l  1e-4权重衰减 L₂ 0.01β₁ 0.9β₂ 0.999ε 1e-6。学习率预热在前 10 步内执行然后线性降低。所有图层都使用压差 α 0.1 图层。激活功能格鲁。训练损失是平均MLM和平均下一句预测可能性的总和。 9.4 微调 一旦预训练完成BERT就可以从字面上理解单词的语义含义并构建几乎可以完全表示其含义的嵌入。微调的目标是逐步修改BERT权重以解决特定的下游任务。 十、数据格式 由于自我注意机制的稳健性BERT可以很容易地针对特定的下游任务进行微调。BERT的另一个优点是能够构建双向文本表示。这提供了在处理对时发现两个序列之间正确关系的更高机会。以前的方法包括独立编码两个序列然后对它们应用双向交叉注意力。BERT统一了这两个阶段。 根据某个问题BERT接受多种输入格式。使用BERT解决所有下游任务的框架是相同的通过将文本序列作为输入BERT输出一组令牌嵌入然后将其馈送到模型。大多数情况下并非所有输出嵌入都使用。 让我们看一下常见问题以及通过微调BERT解决它们的方法。 句子对分类 句子对分类的目标是了解给定序列对之间的关系。大多数常见的任务类型是 自然语言推理确定第二个序列是否遵循第一个序列。相似性分析查找序列之间的相似程度。 Sentence pair classification 为了进行微调两个序列都传递给BERT。根据经验[CLS] 令牌的输出嵌入随后将用于分类任务。根据研究人员的说法[CLS]令牌应该包含有关句子关系的主要信息。 当然也可以使用其他输出嵌入但在实践中通常会省略它们。 问答任务 问答的目的是在与特定问题对应的文本段落中找到答案。大多数时候答案以两个数字的形式给出通道的开始和结束令牌位置。 问答任务 对于输入BERT接受问题和段落并为它们输出一组嵌入。由于答案包含在段落中因此我们只对与段落标记对应的输出嵌入感兴趣。 为了查找段落中开始答案标记的位置计算每个输出嵌入与特殊可训练向量 Tstₐrt 之间的标量积。对于大多数情况下当模型和向量 Tstₐrt 经过相应训练时标量积应与相应令牌实际上是起始答案令牌的可能性成正比。为了规范化标量积然后将它们传递给softmax函数并且可以将其视为概率。与最高概率对应的令牌嵌入被预测为开始答案令牌。基于真实概率分布计算损失值并执行反向传播。使用向量 Tₑnd 执行类似的过程来预测结束标记。 单句分类 与以前的下游任务相比不同之处在于这里只传递了一个句子 BERT。此配置解决的典型问题如下 情感分析了解一个句子是积极的态度还是消极的态度。主题分类根据句子的内容将句子分类为几个类别之一。 单句分类 预测工作流与句子对分类相同[CLS] 标记的输出嵌入用作分类模型的输入。 单句标记 命名实体识别NER是一个机器学习问题旨在将序列的每个标记映射到相应的实体之一。 单句标记 为此像往常一样计算输入句子标记的嵌入。然后每个嵌入[CLS] 和 [SEP] 除外都独立地传递给一个模型该模型将它们中的每一个映射到给定的 NER 类或者不是如果不能。 十一、特征提取 获取最后一个BERT层并将其用作嵌入并不是从输入文本中提取特征的唯一方法。事实上研究人员完成了几个以不同方式聚合嵌入的实验以解决CoNLL-2003数据集上的NER任务。为了进行实验他们在应用分类层之前使用提取的嵌入作为随机初始化的双层 768 维 BiLSTM 的输入。 下图演示了嵌入从BERT基中提取的方式。如图所示性能最高的方法是连接最后四个BERT隐藏层。 基于进行的实验重要的是要记住隐藏层的聚合是改善嵌入表示的潜在方法以便在各种NLP任务上获得更好的结果。 左图显示了带有隐藏层的扩展BERT结构。右表说明了嵌入的构造方式以及通过应用相应策略获得的相应分数。 十二、将BERT与其他功能相结合 例如有时我们不仅处理文本还处理数字特征。构建可以合并来自文本和其他非文本特征的信息的嵌入是自然可取的。以下是建议的应用策略 文本与非文本功能的串联。例如如果我们以文本形式处理有关人员的个人资料描述并且还有其他单独的功能例如他们的姓名或年龄则可以以以下形式获得新的文本描述“我的名字是姓名。个人资料描述。我岁”。最后这样的文本描述可以输入到BERT模型中。嵌入与特征的串联。如上所述可以构建BERT嵌入然后将它们与其他功能连接起来。配置中唯一更改的是下游任务的分类模型现在必须接受更高维度的输入向量。 维亚切斯拉夫·叶菲莫夫 十三、结论 在本文中我们深入探讨了BERT训练和微调的过程。事实上这些知识足以解决NLP中的大多数任务值得庆幸的是BERT允许几乎完全将文本数据合并到嵌入中。 最近出现了其他类似BERT的模型SBERTRoBERTa等。甚至还有一个名为“BERTology”的特殊研究领域它深入分析BERT功能以推导出新的高性能模型。这些事实强化了这样一个事实即BERT指定了机器学习的一场革命并使NLP的显着进步成为可能
http://www.pierceye.com/news/630031/

相关文章:

  • 网站开发数据库动态管理网页制作商品页面模板
  • 电商网站设计模板平面设计师兼职网站
  • 网站建设的技术手段如何选择最好的域名
  • 汕头企业网站建设服务环境艺术设计网站推荐
  • 小米网站建设外贸网站建设哪家公司好
  • 怎样推广产品专业黑帽seo推广
  • 网站调用字体在阿里云备案网站通过
  • 手机网站做落地页石家庄网络营销
  • 如何把网站主关键词做到百度首页网站页面设计优化方案
  • 做门户网站多少钱做视频解析网站播放器和接口
  • 打开一个网站网站被挂马无法访问
  • 大连网站建设公司排名装饰设计公司哪个好
  • 苏州企业建设网站公司400电话网站源码
  • 贵州住房和城乡建设厅官网泰安千橙网站建设优化熊掌号
  • metro网站模板平面设计师网站
  • 怎样通过阿里云建设网站国内免费crm
  • 网站开发都需要学什么iis7网站建设
  • 网站 关键字it网站建设资讯网
  • 白银网站建设公司石家庄建行网站
  • 做网站全部乱码怎么办教学资源网站建设方案
  • 自己做的网站怎么添加文档做淘宝详情的网站
  • 安全认证的机票网站成就怎么做山东省住房和城乡建设厅政务服务
  • 海口网站建设方案咨询信息流优化师面试常见问题
  • 网上课程网站wordpress自定义页面分页
  • 自建站成本深圳网站建设营销服务平台
  • 模仿网站怎么做网站编辑建设
  • 湖南做网站 磐石网络引领免费网上开店
  • wordpress内容做成目录seo排名分析
  • 大型网站 网站建设做网站赔了8万
  • python官方网站建设网站要什么