宁波城乡建设网站,西语网站域名,网站建设费 项目经费,建设网站知乎文 | bytecoder源 | 知乎背景过去一周#xff0c;我们探讨了搜索系统最核心的指标以及如何通过实验的方式来判断策略的好坏。但是影响一个实验的好坏除去策略本身的影响之外#xff0c;还会受到一些反直觉的因素的影响#xff1b;之前在做搜索#xff0c;尤其是搜索系统成熟… 文 | bytecoder源 | 知乎背景过去一周我们探讨了搜索系统最核心的指标以及如何通过实验的方式来判断策略的好坏。但是影响一个实验的好坏除去策略本身的影响之外还会受到一些反直觉的因素的影响之前在做搜索尤其是搜索系统成熟之后曾经出现过一个非常诡异的情况生产系统上的大多影响面正向的小流量实验都不约而同的出现了衰减实验开始的第一天核心搜索指标显著正向之后正向收益开始变窄直到最后收益消失问题为什么搜索系统的小流量实验会出现衰减同样以小流量实验验证收益的推荐与广告是否也有类似的情况这个是一个值得我们认真探究的一个问题追根溯源还是需要我们综合业务理解和技术本身来对这个问题进行拆解分析。思考针对上述问题我们可以从搜索要解决的问题出发来进行问题拆解。搜索是一个以相关性为基础辅助以吸引度、满意度、权威性、时鲜性、质量、多样性等多种不同目标为一体的复杂业务整体要解决的问题更偏向于general要求不同的人搜索得到的结果倾向于一致。而用户检索query主题相关的page未必是一个最优解我们还需要引入吸引度的概念核心就是群众力量是伟大的在相关性区分度不明显的前提下引入吸引度从而将优质内容排序位置往前提将吸引度好的page为了刻画搜索的吸引度我们引入的是搜索的点击信号CTR当相关性都是3分的时候为了将优质3分的page往前顶我们需要将那些CTR高的page排在更靠前的位置通过普罗大众的行为特性来帮助我们的搜索系统将优质内容往前顶。但是仅仅依靠吸引度其实容易导致我们的page会受到标题党的骗点击的作弊行为的影响为了让优质内容得到更多的曝光我们引入满意度来将劣质标题党的page打掉常见的满意度的刻画可以依赖于停留时长或者完播率视频搜索。我们以吸引度来举例搜索的点击刻画是先验和后验的融合先验更多是依赖于一个点击率预估的模型主要是帮助我们对全局的Page进行点击预估更偏向于吸引度刻画能够有强的泛化能力而后验更多是依赖于统计信息主要是帮助我们将具有置信点击行为的page往前提。如何将先验和后验融合的更好也是一个非常重要的topic不作为我们本文讨论的重点。在吸引度的刻画中有一类特征非常重要就是后用行为特征1. 过去1小时当前page的点击次数2. 过去1天当前page的点击次数3. 过去一周当前page的点击次数回到刚才的问题我们在做流量实验的时候我们忽视了一点就是索引库中的所有的page是面向所有用户开放的索引库没有针对不同的流量实验进行索引重建索引动辄几百亿成本过高当我们的实验组上线一个非常好的策略对应的page上会积累大量的实验组策略带来的用户点击行为。但是我们的对照组线上策略进行点击特征信号生成的时候没有去排除对应的实验组的用户行为所造成的影响这个时候就会发生点击穿越行为实验组的用户行为会污染对照组点击特征信号统计。搜索里面还有一种重要的信号叫做CQ数据Click Query我们会将page的点击query作为一个强的信号引入我们的搜索系统中当我们对于CQ数据应用的越重那么上述的点击穿越行为就会越严重因为实验组带来的收益很快会被对应的page cover住而对照组和实验组在进行特征统计的时候没有进行区分这样就会带来大量的穿越行为从而将实验组的收益消费掉。那么是否所有的CTR任务都会有这样的影响答案是肯定的但是与搜索系统有一点不同的是推荐和广告更重个性化相比于搜素更重视全局客观的结果推荐和广告的点击更重局部去看单个用户的行为更多我们在推荐和广告的点击模型中引入了大量的uid的特征相当于我们进行了用户隔离整体的穿透问题就不是很大。解决思路搜索所面临的技术难题不是推荐和广告能够比拟的在搜索系统里面只要用到点击信号都会存在不同程度的穿越问题哪怕你线上迭代的模块和点击没有任何关系只要做AB实验那么势必就会有点击穿越问题真正去解决这种问题现今也没有特别好的方案而我们唯一能做的就是拿空间来换在空间维度进行流量区分对照组的特征统计依赖于非实验组的用户行为特征这样能缓解一些穿越问题但是会带来资源的浪费和消耗。总结点击穿越问题是搜索系统里一个比较疼的问题当我们的系统迭代初期点击灵敏度不够的时候穿越问题对我们系统的影响会稍小一些一旦我们的系统逐步趋于完善点击灵敏度变高后这类问题就会非常严重了。纵观国内国外大厂解决这种方法的手段也就让先验实验最多只有有限时间的收益半天或者通过资源来换不优美没有真正解决线下流程变的繁琐。搜索真的是一个非常难的问题迭代过程中会遇到不少诡异的问题需要我们结合业务属性和技术特点来进行分析坑不少不过确实很有趣。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集