当前位置：首页 > news >正文

淘宝联盟微信里做网站花卉市场网站建设基本步骤

news 2025/12/21 13:41:19

淘宝联盟微信里做网站,花卉市场网站建设基本步骤,wordpress 下一页模板,微信电商平台文 | QvQ近些年来#xff0c;相比传统检索模型#xff0c;大规模预训练式transformers结构的引入在各类任务上都有显著的提升。而这种提升在不同的数据集上有着特殊的模型设置#xff0c;而当前依旧无法充分理解这些模型为什么以及如何可以更好的工作。古人云#xff1a;知… 文 | QvQ近些年来相比传统检索模型大规模预训练式transformers结构的引入在各类任务上都有显著的提升。而这种提升在不同的数据集上有着特殊的模型设置而当前依旧无法充分理解这些模型为什么以及如何可以更好的工作。古人云知己知彼方能百战不殆。而现在的NN模型尚不能做到知己又怎么进行下一步的升级迭代呢今天让我们来看一下信息检索任务上,基于Bert的交叉编码器相比传统的BM25排序算法的异同有哪些呢论文题目How Different are Pre-trained Transformers for Text Ranking?论文链接:https://arxiv.org/abs/2204.07233热身一下与传统的基于词的方法(如BM25或Query-Likelihood)相比神经信息检索最近经历了令人印象深刻的性能提升。由于诸如BERT这类模型具有大量参数所以它能处理具有长范围依赖和复杂的句子结构。当将BERT应用于排序时它可以在query和doc之间构建深度交互从而允许揭示复杂的关联模式而不仅仅是简单的term匹配。到目前为止BERT交叉编码器所取得的巨大性能增益并没有被很好地解释。我们对BERT模型到底是基于何种特征来用于计算句子相关性的匹配原则以及使用该模型的排序结果与BM25等传统稀疏排序算法的关系知之甚少。BERT通过query和doc之间的术语交互直接捕获相关性信号本文对BERT的交叉编码器(Cross-Encode下文简称CE)与BM25的排序算法有何联系做一些研究。首先提出以下几个问题RQ1: CE和BM25到底有和不同?RQ1.2: CE是否对BM25检索到的相同结果进行了更好的排序?RQ1.3: CE能更好地召回被BM25遗漏的结果吗其次分别量化精确匹配和软匹配对整体效果的贡献因为它们构成了传统稀疏检索和神经检索匹配范式之间最直接的对比。更具体地说需要明确以下问题RQ2: CE是否能体现term完全匹配?RQ3: CE能找到“不可能相关”的结果吗?实验1.实验配置用BERT的CE对包含n个term的query和包含m个term的doc同时编码402 Payment Required其中[CLS]会送入二进制分类器层以将文章分类为相关或非相关然后将相关性概率用作相关性得分重新排序的文章。在MS-MARCO数据集上实验了TREC 2020 Deep Learning Track的文章召回任务实验结果如上表。可以看到CE在所有指标上都优于BM25。2.实验结论RQ1: CE和BM25的排序结果有何不同?为了探寻CE对最终排序结果的影响作者记录了每个doc最初在BM25排序算法中的位置。并将排序分成四个不同范围1-10, 11-100, 101-500, 501-1000下文会用10, 100, 500和1000表示。上图反应了CE和BM25排序结果的差异性。每个单元格表示同一范围内来分别来自CE和BM25文档的比例举个栗子(a)图第一行表示CE重新排名的第1-10位的文件来自最初BM25排名中第1-10位的33%第11-100位的41%第101-500位的19%和第501-1000位的6.1%。可以发现1CE和BM25在排序在top结果中有着很大的差异 (33% CE10)即仅有33%的结果相同而在低分段(60% CE1000)则相反。2BM25排名靠前的doc很少被CE排序靠后而被BM25排序较后的doc则有20%的概率排在CE的top10里。这表明精确匹配是一个重要的基础排序策略而CE的软匹配能力是BM25所不具备的。RQ1.2: CE是否对BM25检索到的相同结果进行了更好的排序?为了回答这个问题作者将根据NIST 2020的判定指标将候选结果分为【高度相关】、【相关】和【不相关】三类文档。对于【高度相关】的文档排序结果在CE10中表现出较低的一致性(40%)这意味着两种方法对于各自头部文档相关性的定义有着很大的不同。对于【相关】的文档可以观察到CE和BM25在头部排序范围内有46%的重叠部分另外占比较大的部分(32%)来自BM25100。即对于CE的头部相关文档而言仍然有22%排在BM25算法的100位以后这说明BM25还是明显低估了许多文档的相关性。而这也并不意味着BM25算法被完爆对于【高度相关】文档而言同样有17%E100: 12% CE500: 5%的文档被CE排在较靠后的位置而这些文档位于BM25排序算法的top10该结论在【相关】文档的统计中也有体现。令人意外的是对于部分【高度相关】文档CE和BM25都将其排序较后1000且重合度竟达到的完美的100%说明这两类算法都不具备对此类文档的识别能力。那么对于那些【不相关】而又排序靠前的文档两种算法又表现如何呢可以看到了CE10里大量【不相关】文档来自BM25排序中较后的位置(47% BM25100, 23% BM25500, 5% BM1000这表明CE高估了许多被BM25算法正确地认为【不相关】文档的相关性。(好家伙你堂堂1亿参数的BERT也有看走眼的时候)RQ1.3: CE能更好地召回被BM25遗漏的结果吗重点关注CE的前10个排序结果可以更准确的掌握对于头部结果的召回情况。如(b)图中所示对于CE召回的前十条【高度相关】结果其中有将近一半(42%)只能排在BM25算法的10-100位13%的【高度相关】只能排在BM25算法的100-500位甚至还有5%的【高度相关】排在BM25算法的500-1000位。相同的结论同样可以在【相关】结果集中体现。这证明了CE的卓越能力它可以召回BM25非常不看好而实际却是高度相关的文档。这也正是神经模型相比传统稀疏匹配算法的真正潜力所在。RQ2: CE是否能体现term完全匹配?文档中查询词的存在与否是排序相关性的最强信号之一作者通过从doc中剥离出精确匹配所需要的term从而量化term完全匹配对效果的贡献。具体做法是将doc中所有的非query term都改用[MASK]标记替换使模型仅保留原始文档的框架从而迫使CE仅依赖query和doc之间的精准term匹配可以看到表中第一行【Only Q】的指标其实还是很出人意料的该排序指标甚至全面低于BM25算法这也说明了CE其实并没有对精确term匹配有一个充分的利用。笔者感觉这里也不能完全说明这个结论因为作者并没有对原模型重新fine-tune过多的[MASK]token可能会影响模型的判断RQ3: CE能找到“不可能相关”的结果吗?虽然CE可以同时利用精确term匹配和语义匹配但与传统term级匹配算法相比其最大的优势在于通过考虑上下文信息克服对term匹配的依赖即语义泛化能力。不是通过term精确匹配的方法我们称之为“软匹配”神经网络模型正是基于这种软匹配可以召回传统方法无法召回的doc。同样为了剥离和量化软匹配的效果通过mask掉doc中所有与query相同的term仅保留上下文环境观察效果的变化。如上标中的【Drop Q】所示CE可以做到在doc完全没有与query有重叠term的情况下也能对文档进行较为合理的评分排序结果甚至要优于BM25算法这即在意料之外其实也在情理之中。毕竟CE有着其自带的MLM任务如果可以它甚至可以预测出被mask的term那么你删不删对它有什么影响呢。当然仅依靠上下文就能做到比传统的BM25算法要优秀这一点也算是意料之外的。这也证明了CE做到了“语义理解”展现了其强大的泛化潜力。一些思考根据以上实验对比可以得到一些比较有意思的结论1对于两种算法来讲排名靠前的doc的差异性要更大且越是【高度相关】的文档这种差异性越大而排名靠后的doc则具有更强的一致性。真是幸福各有千秋而不幸如出一辙 2对于实验结果中DCG的涨点可以看出CE的主要提升是召回了被BM25低估的doc即召回的显著提升。同时也引入了一些误差即CE高估了一些原本被BM25排序正确的低相关性doc。3一些被CE大大低估的【高度相关】的doc反而BM25的排序更加准确。但是很遗憾作者并没有给出具体的case示例如果想进一步提高NN模型的性能其实是应该更多的关注这一批case的。最后在检索任务中现在仍没有实验表明NN模型可以完全替代传统基于term的稀疏匹配算法。不管是召回还是排序阶段这两者依旧是相辅相成的关系。而真正需要思考的是如何balance这两者的排序结果以及为什么百亿参数的模型在部分case上依旧不如传统term匹配算法。搜索之路道阻且长啊~萌屋作者乐乐QvQ。硕士毕业于中国科学院大学前ACM校队队长区域赛金牌。竞赛混子Kaggle两金一银国内外各大NLP、大数据竞赛Top10。校招拿下国内外数十家大厂offer超过半数的SSP。目前在百度大搜担任搜索算法工程师。知乎IDQvQ作品推荐1.13个offer8家SSP谈谈我的秋招经验2.2020深度文本匹配最新进展精度、速度我都要3.7款优秀Vim插件帮你打造完美IDE4.他与她一个两年前的故事5.Bing与DuckDuckGo搜索结果惊人一致Google展现强势差异后台回复关键词【入群】加入卖萌屋NLP、CV、搜广推与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集

查看全文

http://www.pierceye.com/news/593645/