当前位置：首页 > news >正文

哈尔滨做网站哪好免费网站模板

news 2025/12/20 18:46:37

哈尔滨做网站哪好,免费网站模板,wordpress4.9.4 mysql,怎么查询网站的域名再读 BERT#xff0c;仿佛在数字丛林中邂逅一位古老而智慧的先知。初次相见时#xff0c;惊叹于它以 Transformer 架构为罗盘#xff0c;在预训练与微调的星河中精准导航#xff0c;打破 NLP 领域长久以来的迷雾。而如今#xff0c;书页间跃动的不再仅是 Attention 机制精…再读 BERT仿佛在数字丛林中邂逅一位古老而智慧的先知。初次相见时惊叹于它以 Transformer 架构为罗盘在预训练与微调的星河中精准导航打破 NLP 领域长久以来的迷雾。而如今书页间跃动的不再仅是 Attention 机制精妙的数学公式更是一场关于语言本质的哲学思辨 —— 它让我看见那些被编码的词向量恰似人类思维的碎片在双向语境的熔炉中不断重组、淬炼将离散的文字升华为可被计算的意义。BERT 教会我们语言从来不是孤立的字符堆砌而是承载着文化、逻辑与情感的多维载体每一次模型的迭代与优化都是人类向理解语言本质更深处的一次虔诚叩问在这过程中我们既是技术的创造者也是语言奥秘的永恒探索者。论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Githubhttps://github.com/google-research/bert?tabreadme-ov-file 1.引言与核心创新背景现有预训练模型如 ELMo、GPT多基于单向语言模型限制深层双向表征能力。创新点 1提出BERT通过MLM和NSP预训练任务实现真正的深层双向 Transformer 表征。 2证明预训练模型可通过简单微调仅添加输出层适配多任务无需复杂架构设计。 2.模型架构与输入表征模型结构 BERTBidirectional Encoder Representations from Transformers由Google 提出并基于 Transformer 架构进行开发的预训练语言模型。如图所示 BERT 模型是由多个 Transformer 的编码器逐层叠加而成。 BERT 模型包括两种标准配置其中 Base 版本包含 12 层 Transformer 编码器而 Large版本包含 24 层 Transformer 编码器其参数总数分别为 110M 和 340M。 BERT 模型的关键特点是能够全方位地捕捉上下文信息。与传统的单向模型GPT-1 等自回归模型相比 BERT 能够从两个方向考虑上下文涵盖了某个词元之前和之后的信息。传统的模型往往只从一个固定的方向考虑上下文这在处理复杂的语义关系和多变的句子结构时可能会遇到困难。例如在问答系统中单一方向可能导致模型不能完全理解问题的上下文从而影响其回答的准确性。此外在情感分析、关系抽取、语义角色标注、文本蕴涵和共指解析等任务中单向方法可能无法充分捕获复杂的语义关系和上下文依赖限制了其性能。为了应对这些挑战 BERT 通过预测遮蔽的词元来全面理解句子中的上下文从而在许多 NLP 任务中实现了显著的性能增强。 Transformer 配置模型层数 (L) 隐层大小 (H) 注意力头 (A) 参数总量 BERT BASE 12 768 12 110M BERT LARGE 24 1024 16 340M 输入表征采用WordPiece 分词30k 词汇表添加特殊 token [CLS]序列分类标识对应隐层用于分类任务。 [SEP]句子对分隔符段嵌入Sentence A/B区分句子归属。输入嵌入词嵌入段嵌入位置嵌入。 3.训练任务设计 BERT 模型的训练过程通常分为预训练Pre-training与微调训练Finetuning等两部分。 3.1 预训练在预训练阶段 BERT 模型在大量未标注的文本数据上进行训练目标是学习文本之间的深层次关系和模式。具体来说它使用了两种训练策略 i掩码语言模型 (Masked Language Model) ii预测下一句Next Sentence Prediction。任务 1掩码语言模型MLM 掩码策略随机选择 15% tokens其中 80% 替换为[MASK]如my dog is [MASK] 10% 替换为随机词如my dog is apple 10% 保留原词如my dog is hairy。目标通过双向注意力预测原词缓解预训练与微调时[MASK]未出现的不匹配问题。任务 2下一句预测NSP 数据生成50% 真实连续句对标签 IsNext50% 随机句对标签 NotNext。目标通过[CLS]隐层预测句对关系提升句子级语义理解如 QA、NLI 任务。 3.2 微调微调训练阶段是在预训练的 BERT 模型基础上针对特定任务进行的训练。这一阶段使用具有标签的数据如情感分析或命名实体识别数据。通过在预训练模型上加载特定任务的数据进行微调 BERT 能够在各种下游任务中达到令人满意的效果。 BERT 模型微调训练的目的是使其具备处理各种下游任务的能力微调的任务包括句子对分类任务、单句分类任务、问答任务和命名实体识别等。微调训练中为了使 BERT 适应各种 NLP 任务模型首先调整其输入和输出。例如在基于句子对的分类任务中假设要判断句子 A“这家餐厅的食物很美味。”和句子 B“菜品口味很棒值得推荐。”之间的关系模型的输入是这两个句子的组合而输出可能是它们的关系分类例如“相关”或“不相关”。而在命名实体识别任务中如果输入句子为“任正非是华为的创始人”输出则是每个词的实体类别如“任正非”被标记为“PERSON”“华为”被标记为“ORGANIZATION”。在针对不同的任务如文本分类、实体识别或问答等进行微调训练时会在 BERT 模型上增添一个特定的输出层。这个输出层是根据特定任务的需求设计的。例如如果是文本分类任务输出层可能包含少量神经元每个神经元对应一个类别。同时通过反向传播对模型参数进行调整。微调的过程就像是对模型进行 “二次训练”。 4.实验结果与 SOTA 突破 GLUE 基准11 任务任务 BERT LARGE 得分前 SOTA 提升幅度 MNLI自然语言推理 86.7% 82.1%GPT 4.6% QNLI问答推理 92.7% 87.4%GPT 5.3% SST-2情感分析 94.9% 91.3%GPT 3.6% 平均得分 82.1% 75.1%GPT 7.0% SQuAD 问答任务 v1.1有答案单模型 F1 值 93.2ensemble 达 93.9超过人类表现91.2%。 v2.0无答案F1 值 83.1较前 SOTA 提升 5.1%首次接近人类表现89.5%。 SWAG 常识推理BERT LARGE 准确率 86.3%远超 GPT78.0%和人类专家85.0%。 5.消融研究与关键发现 NSP 任务的重要性移除 NSP 后MNLI 准确率从 84.4% 降至 83.9%QNLI 从 88.4% 降至 84.9%证明句子级关系建模对 QA 和 NLI 至关重要。双向性 vs 单向性单向模型LTR类似 GPT在 SQuAD F1 值仅 77.8%远低于 BERT BASE 的 88.5%添加 BiLSTM 后提升至 84.9%仍显著落后。模型规模的影响增大参数如从 110M 到 340M持续提升性能即使在小数据集任务如 MRPC3.5k 训练例中BERT LARGE 准确率 70.1%较 BASE 的 66.4% 提升 3.7%。 6.对比现有方法与 GPT 对比 GPT 为单向 Transformer仅左到右BERT 通过 MLM 实现双向且预训练数据多 3 倍33 亿词 vs GPT 的 8 亿词。BERT 在 GLUE 平均得分比 GPT 高 7.0%证明双向性和 NSP 的关键作用。与 ELMo 对比 ELMo 通过拼接单向 LSTM 输出实现双向为特征基方法BERT 为微调基参数效率更高且深层双向表征更优。 7.关键问题问题 1BERT 如何实现深层双向语义表征答案BERT 通过 ** 掩码语言模型MLM和下一句预测NSP** 任务实现双向表征。MLM 随机掩码 15% 的输入 tokens80% 替换为 [MASK]、10% 随机词、10% 保留原词迫使模型利用左右语境预测原词避免单向模型的局限性NSP 任务通过判断句对是否连续学习句子级语义关系增强模型对上下文依赖的建模能力。问题 2BERT 在预训练中如何处理 “掩码 token 未在微调时出现” 的不匹配问题答案BERT 采用混合掩码策略在 15% 被选中的 tokens 中仅 80% 替换为 [MASK]10% 随机替换为其他词10% 保留原词。这种策略减少了预训练与微调时的分布差异使模型在微调时更适应未出现 [MASK] 的真实场景同时通过随机替换和保留原词增强模型对输入噪声的鲁棒性。问题 3模型规模对 BERT 性能有何影响答案增大模型规模如从 BERT BASE 的 110M 参数到 LARGE 的 340M 参数显著提升性能尤其在小数据集任务中优势明显。实验显示更大的模型在 GLUE 基准的所有任务中均表现更优MNLI 准确率从 84.6% 提升至 86.7%MRPC3.5k 训练例准确率从 66.4% 提升至 70.1%。这表明足够的预训练后更大的模型能学习更丰富的语义表征即使下游任务数据有限也能通过微调有效迁移知识。

查看全文

http://www.pierceye.com/news/210174/