当前位置: 首页 > news >正文

广东网站建设费用外贸网站外链怎么做

广东网站建设费用,外贸网站外链怎么做,专业的网站设计公司,各大网站注册本文转载自公众号“夕小瑶的卖萌屋”#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后#xff0c;回复以下口令#xff1a; 回复【789】 #xff1a;领取深度学习全栈手册#xff08;含NLP、CV海量综述、必刷论文解读#xff09; 回复【入群】#xf… 本文转载自公众号“夕小瑶的卖萌屋”专业带逛互联网算法圈的神操作 -----》我是传送门 关注后回复以下口令 回复【789】 领取深度学习全栈手册含NLP、CV海量综述、必刷论文解读 回复【入群】加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群大V、顶会审稿人云集 回复【0511】领取算法岗面试手册刷offer神器 回复【0424】领取刷论文神器挖掘每日、每月必刷重磅论文 文 | 小轶 今天给大家介绍一篇 ACL22 的论文来自清华大学刘知远老师组。本文解决的问题是如何在预训练语言模型中引入任务所需的实体知识。此前常见的解决方法大致可以分为两种。 一种是在领域相关的语料上再做 further pretraining比如 BioBERT。这种方法的缺点主要在于需要大量的额外训练V100 上的训练时长可达数千小时。 另一种是直接引入知识图谱比如 ERNIE。本文则认为使得预训练模型具备实体知识可以不完全依赖于引入外部知识图谱。已经有许多相关工作证明预训练模型自身就具备存储知识的能力我们需要的只是一种调用出模型知识存储的方法。于是本文就提出了一种轻量的方法 PELT能够非常简单有效的达到引入实体知识的效果。 论文标题A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models 论文链接 https://arxiv.org/pdf/2202.13392.pdf 代码链接 https://github.com/thunlp/PELT 方法 本文方法的核心在于如何获取一个好的实体嵌入entity embedding使得这个中包含该实体必要的相关知识。获得实体嵌入后在下游任务使用预训练模型时只需要在输入中该实体出现的位置加入其相应的 embedding即可达到引入相关知识的效果。 接下来我们逐步看一下本文的方法是如何构造实体嵌入的以及如何在使用预训练模型时加入实体嵌入。最后简单从理论角度分析一下本文方法的合理性。 构建实体嵌入 假定我们需要在某个下游任务使用某个预训练语言模型而该下游任务中可能会出现一些其所在领域所特有的实体。我们当前的目标就是为这些实体构建一个高质量的实体嵌入。 ▲PELT 构建实体嵌入信息的过程本文获取实体嵌入的方法非常简单。上图以实体 COVID-19 为例说明了构建其嵌入的过程 找到语料库中 所有出现 COVID-19 的句子集合 这个语料库是 domain-specific 的 把这些句子中出现 COVID-19 的位置 MASK 掉。 保留预训练语言模型把 MASK 位置对应的 output 表示向量记为 () 最后得到实体嵌入表示如下: 其中 是一个常数。原文中说这个常数 具体取什么值对于结果影响不大“has little effect on the input feature of the encoder in use”。 实际操作时作者将所有实体嵌入的长度都设置为即。然后在实验中尝试了多个 的值1,2,..,10看哪一个在下游任务上效果好就用哪个。 在预训练模型中融入实体知识 接下来的问题就是在得到实体嵌入后在预训练模型做下游任务时使用它。方法也非常简单。 加入某个样本输入中出现了实体。还是假设该实体为 COVID-19然后原始输入样本为 Most people with COVID-19 have a dry... 在本文所提出的方法中我们只需要在那个实体后面加个括号括号中重复一遍该实体。 Most people with COVID-19COVID-19 have a dry... 在映射到 embedding layer 的时候不在括号里的实体COVID-19采用普通的词嵌入处理方式切成 subword然后映射到预训练模型所学的 word embedding而括号中的实体 COVID-19 则映射为相应的实体嵌入。 方法合理性的理论支持 原文有从理论分析的角度解释所提出方法的合理性。整个证明过程也比较简单可以一看不过我其实还没太想清楚这个证明过程是否足够完善...。 假设我们把某个实体加入了预训练模型的原有词表中。如果我们用预训练任务 MLM 来学习它的实体嵌入 它的损失函数如下所示 其中是语料库中所有出现该实体的句子 为实体被 MASK 后对应位置的输出表示向量。这个公式可以进一步展开变为 其中。 然后我们分析一下减号前后的两项。前一项中的 是对项求和所以实体嵌入的变化对前一项的值影响很小可以将这一项视作一个常数。因此如果要让损失 尽可能小我们只需要让后一项为一个尽量大的正数就行了。于是我们可以将设置为 其中 是一个常数。这样就能使得后一项始终是一个正数。至于 具体取什么值原文里的说法是由于输入给 Transformer 编码器时会过一层 layer normalization所以||的长度变化影响不大。所以作者就直接把||当做超参数来处理了。 实验 实验中PELT 的提升效果也是比较显著的。这里我们简单展示一组实验 比较表格最后两行可以看到在 RoBERTa 上采用了本文方法后获得了非常明显的提升。另外和第一行的 ERNIE 相比在一个数据集上效果相当在另一个数据集上本文方法明显占优。值得注意的是ERNIE 在模型使用时是引入外部知识图谱的而本文方法没有。 小结 本文提出了一种非常简单有效的方法使得预训练模型中融入实体知识。并且相关代码已经开源大家不妨一试。 本文转载自公众号“夕小瑶的卖萌屋”专业带逛互联网算法圈的神操作 -----》我是传送门 关注后回复以下口令 回复【789】 领取深度学习全栈手册含NLP、CV海量综述、必刷论文解读 回复【入群】加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群大V、顶会审稿人云集 回复【0511】领取算法岗面试手册刷offer神器 回复【0424】领取刷论文神器挖掘每日、每月必刷重磅论文 萌屋作者小轶 是小轶不是小秩更不要叫小铁高冷的形象是需要大家共同维护的作为成熟的大人正在勤俭节约、兢兢业业为成为一名合格的但是仍然发量充足的PhD而努力着。日常沉迷对话系统。说不定正在和你对话的并不是不是真正的小轶哦 “高冷那是站在冰箱顶端的意思啦。”  ——白鹡鸰 作品推荐 写了一篇关于 NLP 综述的综述 全球44家机构55位大佬历时两年打造最强NLG评测基准 谷歌重磅可以优化自己的优化器手动调参或将成为历史 ACL20 Best Paper揭晓NLP模型评价体系或将迎来重大转折 后台回复关键词【入群】 加入卖萌屋NLP、CV与搜推广与求职讨论群 后台回复关键词【顶会】 获取ACL、CIKM等各大顶会论文集
http://www.pierceye.com/news/613515/

相关文章:

  • 简单个人网站wordpress插件查询
  • 上海做网站搜索一下马来西亚的网站建设的竞争对手的分析
  • 建站优化易下拉系统163邮箱登录注册
  • c 做网站电子商务平台中搜索词拆解包括
  • 腾讯云10g数字盘做网站够么四川省建设人才网
  • 批量 网站标题中海园林建设有限公司网站
  • 鲜花网站数据库建设免费律师咨询
  • 团队网站建设哪家便宜制作公司网站流程
  • 青龙桥网站建设企业网页是什么
  • 上海网站建设备案号怎么恢复法律咨询网站开发
  • 烟台做网站价格动力网站建设
  • 北戴河网站建设墨刀制作网页教程
  • 成都网站设计开发做得好微信商城怎么开发
  • 江西省城乡建设培训网-官方网站上海建设集团有限公司
  • 凡科网站设计模板grimhelm wordpress
  • 自己做的网站不备案行吗建筑工程集团有限公司
  • 网站初期 权重怎么做彩票类网站开发
  • 南通网站定制公司服务器网站建设维护合同
  • 亳州做商标网站的公司免费的网站模板
  • 西南城乡建设部网站首页python3做网站教程
  • 网站首页设计欣赏个人电影网站建设
  • 导航网站建设怎么给网站图片加alt
  • 备案成功后怎么建设网站宠物喂养网页设计模板以及代码
  • 东莞哪家网站建设比较好wordpress更改语言设置
  • 如何找做网站的客户wordpress适合视频网站吗
  • 网站建设的业务流程图拔萝卜视频播放在线观看免费
  • 建个网站要多少钱高安网站制作
  • dw设计模板百度ocpc如何优化
  • 苏宁网站优化与推广html教程网站
  • 怎么做网站网页免费高清屏幕录像