当前位置：首页 > news >正文

上海做兼职的网站wordpress源码类主题

news 2025/12/24 10:29:49

上海做兼职的网站,wordpress源码类主题,做一个国外网站,广州企业vi设计公司引子问答是人和人之间非常重要的沟通方式#xff0c;其关键在于#xff1a;我们要理解对方的问题#xff0c;并给出他想要的答案。设想这样一个场景#xff0c;当你的女朋友or老婆大人在七夕前一晚#xff0c;含情脉脉地跟你说亲爱的#xff0c;七夕快到了… 引子问答是人和人之间非常重要的沟通方式其关键在于我们要理解对方的问题并给出他想要的答案。设想这样一个场景当你的女朋友or老婆大人在七夕前一晚含情脉脉地跟你说亲爱的七夕快到了可以给我换个新手机吗而此时沉迷王者峡谷的你也许会不假思索地回答好啊亲爱的~ 昨天刚看到拼多多九块九包邮买一送一可便宜呢~ 多买几个哦一个壳容易坏呀你话音未落一记绝杀扑面而来 (王大锤卒享年28) 所以对于生活中这种随处可见的送命题只要我们惜命稍微上点心是不会轻易丢分的。但对于机器来说这却是个莫大的挑战因为机器对相似文本的误解非常常见所以我们的AI也常常被用户戏谑为人工智障(一个听上去很缺AI的称呼)。作为AI背后的男人我们一直致力于提升AI的能力让机器早日摆脱智商困境。具体地针对这种问答场景我们提出了一套新的方法论和杀手级模型从而让AI更懂你远离送命题~ 背景在日常生活中我们会经常询问我们的语音助手 (小微/Siri/Alexa/小爱/小度等等)各种各样的问题其中有一类问题的问法相对严谨返回的答案需要精准比如『姚明的老婆的身高是多少』、『周杰伦的稻香是哪一年发行的收录在哪张专辑』这类问题我们称其为精准问答可以借助知识图谱技术解析问题里的各个成分(实体/实体关系等等)进行严谨的推理并返回答案。(我们在图谱问答方面也有积累有机会再分享本文先不表)也有一类问题要么问法多样要么答案开放比如『蛋包饭怎么做』、『评价下cxk的篮球水平』、『酒精到底多少度才能烧起来啊』对于这类问题的问答我们将其称为开放域问答。这类问题要么难以严谨地分析句子成分进行推理、要么无法给出精准的答案所以一般通过寻找相似问题来曲线救国。大致的流程如下首先我们需要维护一个海量且高质量的问答库。然后对于用户的问题(Query)我们从问答库里先粗略地检索出比较相似的问题 (Questions)对于这些候选问题再进一步进行『语义匹配』找出最匹配的那个问题然后将它所对应的答案返回给用户从而完成『开放域问答』我们可以看到粗略检索出来的 Question里面噪音很多跟我们的 Query 相比很多都是形似而神不似。所以最最最核心的模块便是Query-Question 的语义匹配用来从一堆形似的候选问题中找出跟 Query神似的 Question。而一旦匹配错误便可能陷入手机和手机壳的险境轻则用户流失重则机毁AI亡。挑战当前解解决开放域的语义匹配并非易事其挑战主要来自以下两方面对于第二点问题对关键信息敏感我们可以来看一些 case。下面 False Positive 的 case形似但神不似、被模型错分了而 Fasle Negative 的 case 是神似但形不似也被模型错分了。蓝色加粗的词代表模型自以为匹配上的关键信息红色代表实际要匹配的关键信息、但模型失配了为了解决开放域语义匹配的问题工业界学术界可谓是八仙过海各显神通。总的来说可以看成从数据和模型两个维度去解决问题。数据维度训练数据的正样本也就是相似问题对儿一般通过人工标注而来而负样本(也就是不相似问题对儿) 的生成策略则各有巧妙不同。最简单粗暴的就是随机负采样即给一个问题从海量的其他问题里随便找个问题跟它组合在一起构成一个负样本。但这种负样本对模型来说显然 so easy并不能很好地训练模型。所以要去找到真正难以区分的负样本(我们称为混淆样本)从而提升模型的能力。可以看出当前并没有一种最优策略来得到这样高质量的数据或多或少都要加入人工。从本质上来说语义匹配模型都严重依赖数据的标注这其实是一种数据痛点。模型维度更为大家所熟知的改进是从模型上入手。学术界工业界每年都有层出不穷、花样翻新的语义匹配模型也确实解决了它们所宣称的某些问题这里我们列举了一部分这些模型虽然种类繁多但从模型结构上看无非两大类基于表示和基于交互。基于表示的模型是先对 query-question 分别进行底层表示然后 high-level 层面进行交互代表作DSSM、ArcI基于交互的模型则是让query-question在底层就相互交互代表作 Bert、ArcII、MIX。不同模型的差异性无非就是内部模块的不同(RNN, CNN, Transformer...)大框架上无外乎此。本文无意探讨两大类模型的优劣此方面讨论早有珠玉在前。我们重点讨论的是这些模型能否真正解决开放域问答的两大挑战覆盖面广和关键信息敏感从我们对这些模型的评测结果上看答案是不能。至于深层次的解释我认为还是受制于数据的制约所谓数据决定上限模型只是逼近这个上限的程度。如果我们不能提供足够的训练样本去教会模型分辨出关键信息光凭模型自身的花式 CNN/RNN/Attention纵使使出浑身解数在一些很难分辨的 case 上也未必work。而在预测阶段鉴于开放域的问题覆盖面很广很容易出现在训练样本中没出现过的问题对儿(即 Out-Of-Vocabulary, OOV问题)主要问题里的关键信息(相似/不相似的词对儿)没出现过此时模型只能抓瞎。痛点总结综上尽管工业界学术界的诸位大神在这个领域持续发光发热笔耕不辍但我们在开放域的语义匹配场景下依然面临着两大痛点数据痛点: 模型依赖高质量数据标注模型痛点: 模型对难分样本的关键信息捕获无力模型对 OOV 的相似/不相似词对儿无能为力道: 方法论为了从根本上解决这两大痛点我们不再只拘泥于术的层面去做一些数据采样、模型方面的小改进而是先深入思考问题的根源从道的层面提出一套方法论如下所示我们对传统语义匹配模型的框架做了两处改进一处是加入了关键词系统从海量的开放域中提取关键词/词组然后给训练样本/预测样本中出现的关键词额外添加一个标注。另一处是对模型做相应改进去增强模型对这种关键信息的捕获。这两处改动的核心是为数据和模型显式地引入关键信息这样我们便能从根本上解决我们所面临的数据和模型的痛点不再只是隔靴搔痒。为何如此一来便能解决问题且听分解。释道为了方便大家理解我们将结合具体 case来逐条阐释我们的道。 1. 改进的模型强化模型对关键信息的捕获这一点很好理解我们在模型中额外增加了对关键词词对儿的处理相当于增加了额外的 feature给模型提供更多信息加强模型对问题对儿的区分能力。至于具体的改进细节我们将会在下节提到这里先不表。 2. 带关键词的样本减少对标注数据依赖我们举个例子也是我们在引子部分提到的一个负样本怎么扫码加微信和怎么扫码进微信群。这两个问题不相似的根源在于微信和微信群的含义不同。但模型一开始学出来的可能是加和进这两个动词的差异因为微信和微信群的embedding可能非常接近只有我们提供了额外的样本比如告诉模型怎么加豆瓣小组和怎么进豆瓣小组这两个问题是相似的模型才可能学出进和加不是关键继而学到真正的关键信息。所以如果我们一开始就标注出关键词相当于告诉模型这些是候选的、可能的关键信息模型经过我们改进后的就会有意识地针对这部分进行学习而不需要自行通过更多的样本去判别从而从根本上解决对标组数据的依赖。我们的结果也佐证了这一点先提前贴出来下图是传统的bert模型和经过我们改造的keyword-bert模型在达到相似准确率上所需要的数据量具体的我们会在下节阐述。 3. 带关键词的样本开放领域的先验信息减少训练集OOV 我们依然举一个例子一个待预测的样本如何扫码加QQ群和如何扫码进微信群在训练样本里QQ群可能从来没跟微信群一起出现在一个问题对儿里(也就是所谓的 OOV)但如果在预测的时候我们额外标注出QQ群和微信群都是关键词相当于给出一个先验信息模型经过我们改进的便能通过自身的关键词模块专门学习这两个词的异/同得到一个更好的分类结果减少OOV带来的负面影响。术: 实现道的层面阐释清楚之后一切就豁然开朗剩下的实现都是很自然而然的无非就是围绕我们对传统框架做的两处改进如何构造一个关键词系统? 如何改进模型? 在具体实现方法上并没有标准答案比如关键词系统只要能抽取出开放域海量高质量的关键词就是好系统再比如模型改进也不只局限在我们所改进的 Fastpair 和 BERT 上相似的思想其实可以迁移到目前学术界/工业界大部分已知模型上不过我们还是会毫无保留地给大家展示我们的具体实现以供参考抛砖引玉。关键词系统如上面所说一个好的关键词系统要能抽取出多又好的关键词——即数量多、质量高。为了达成这个目标我们引入了领域的概念正好契合我们开放域问答的特点——涉及领域多、覆盖面广所以我们先获取了海量的、带有领域标签的新闻/文章通过各种手段从里面提取出候选的关键词。然后设计了一个 diff-idf 分值去衡量这个关键词的领域特性直观来说就是这个关键词在自己领域出现的文档频次远高于其他领域。通过这个分值排序截断后再进行后处理去除噪音、实体归一化等等最后与一些公开词条一起构成一个庞大的关键词词典。具体的流程如下(比较细碎但缺一不可)。这个流程每天都在运行和更新我们目前的关键词数量达到数百万级人工评测的质量也不错。下面是一些 case 展示模型演化同样的模型也要进行相应的升级。我们的模型演化路线如下所示首先是我们针对之前线上 run 的 Fastpair做了关键词方面的改进接着我们鸟枪换炮升级到 BERT以应对更复杂的业务场景并同样对 BERT 做了改进我们称之为 Keyword-BERT 从指标上看这是一个杀手级模型一下子实现了匹配的质量的质的飞跃接下来我们将详细阐述。改进Fastpair Fastpair 的模型结构如下它其实是改造了 Fasttext 以适配文本对儿分类的场景。因为 Fasttext 是针对单文本分类而要对文本对儿分类仅用两个文本各自的 n-gram 特征显然是不够的所以很自然而然地加入两个文本里各自的词组合在一起形成的 pair-wise 交互特征这种思想其实跟我们在文章开头提到的那些『基于交互』的模型的思路很像先对两个文本的信息进行充分交互融合再做分类那么我们的问题就是如何改造 Fastpair 模型使得它能额外去『关注』关键信息呢我们的改动非常直观就是给包含了关键词的 pair-wise 特征额外加上一个可学的权重如下所示这里我们借鉴了 FM 中参数分解的思想将孤立的 Wkq 分解成两个词的 embedding 内积这样既能减少参数量又能刻画含有相似关键词的 pair-wise 特征之间的共性我们构建了 60w 左右的百度知道问题对儿(正负样本比例 1:1)用来训练然后人工标注了2k个难分的正负样本用来预测从预测指标上看提升非常显著。然而由于 Fasttext 模型层数浅的固有问题Fastpair 精度并不高而且对于 OOV 的 pair-wise 特征也无能为力当业务场景面临更大挑战时我们便需要考虑升级我们的武器库了。 Keyword-BERT BERT 相比其他已知的深度模型是核弹级别的改进所以我们理所当然地选择了它 (事实上我们也做了线下实验结果都在意料之中)鉴于 BERT 的结构已家喻户晓我们就不细述了我们重点思考的是如何给 BERT 增加额外的关键信息捕捉模块我们的思路跟 Fastpair 的改进一脉相承只不过将这种 pair-wise 的交互变成了 attention 机制具体细节如下一方面我们在最上层引入一个额外的 keyword layer通过 attention 和 mask 专门对两个文本之间的关键词信息进行互相之间的 attention 增强他们之间的互信息另一方面对于输出的两个文本的表示我们借鉴了机器阅读理解里 fusion 的思想进行融合然后将融合后的结果和 CLS 一起输出到分类层通过这样的改造Keyword-BERT 在不同 layer 数目下的指标都优于原始 BERT。我们发现 layer 数越少Keyword-BERT 相比原始 BERT 提升越明显。这也很好理解因为 layer 数越少 BERT 所能学到的句子级别的信息越少而关键词相当于对这种句子级别信息进行了补充我们最后上线的是 6 layer 的 Keyword-BERT因为它的性能跟原始 12 layer BERT 非常相似而推断速度要快很多在我们内部自研的 BERT 加速框架下)。延伸模型结构尝试正文中给出的 Keyword-BERT 的结构是我们在多次试错上的最优实践我们还尝试过直接用 keyword attention layer 取代原始 BERT 第12层layer效果不好原因在于关键词只能作为额外的补充信息而不是取代原来的语义信息。将 Keyword attention layer 加在模型的底层效果不好原因在于底层信息向上层『传播』过程中关键词信息被逐渐弱化。未来工作关键词仅仅提供了一个维度的信息我们还可以加入更丰富的信息 (如词的词性、词的图谱属性等等) 来增强模型的区分能力模型框架依然可以用我们现有的结构。论文原文和源码可见https://github.com/DataTerminatorX/Keyword-BERT

查看全文

http://www.pierceye.com/news/896452/