当前位置：首页 > news >正文

网站策划与运营课程认知网络营销的特点及形式

news 2025/12/24 18:45:32

网站策划与运营课程认知,网络营销的特点及形式,影楼和工作室的区别,网站制作还花钱说明#xff1a;文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译#xff0c;是我对课程的理解。　这部分本应该继续说反馈(FeedBack)的。但是课程中安排的是评估(Evaluation)。评估是用于衡量搜索引擎质量的。反馈是为了提高搜索引擎质量而进行的…说明文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译是我对课程的理解。　这部分本应该继续说反馈(FeedBack)的。但是课程中安排的是评估(Evaluation)。评估是用于衡量搜索引擎质量的。反馈是为了提高搜索引擎质量而进行的操作。所以在讲反馈之前需要先说明评估。 1为什么做评估为什么要评估搜索引擎呢一方面是为了评估搜索引擎是否有用另一方面用于比较不同算法、不同文本搜索系统的有效性。 2评估什么 1 准确性accuracy。可以衡量搜索结果的准确程度是不是把无关数据放在top列表中了。　2 有效性(efficiency)。系统可以在多长时间内返回搜索结果。一次搜索需要多少资源。主要从space和 time overhead两方面衡量。　3 有用性usability。搜索系统对用户是有用的吗通过研究用户行为得出结论。 3评估方法 Cranfield Evaluation Methodology克兰菲尔德评价方法。主要内容有两点第一、建立一个可重用的测试集。第二、定义测量标准。 3.1建一个可重用测试集建立可重用测试集的步骤1 从文档中抽样取得部分文档。2 从查询集中抽样得到部分查询。3 (人工)判断文档与查询是否相关所有相关文档中理想的排序方式是什么(idea ranked list)。　 3.2评估标准准确率与召回率　a搜索到的相关文档　b搜索到的不相关文档　c相关文档但是没有搜索到　precisionaabprecision = \dfrac{a}{a+b} 　recallaabrecall = \dfrac{a}{a+b} 　理想结果是PrecisionRecall1.0。实际中高的recall必定会有一个较低的Precision。　一般使用中不会定义全局的准确率而是会设置一个阀值计算top n的准确率。例如prcision10。　recall与precision结合使用得到Fβ(β21)P∗Rβ2PRF_\beta=\dfrac{(\beta^2+1)P*R}{\beta^2P+R}F12P∗RPRF_1=\dfrac{2P*R}{P+R} 　提问为什么不是0.5*P0.5*R? 　回答这是一个求和求和的结果由式子中的大数来决定。就是说如果有一个P值非常高即使R值很低结果页可能很高。而F1的式子需要P和R都非常高结果才可能非常大。 4评估排序文档评估排序文档 evaluate ranked list 4.1 设置cut off 评估排序结果的第一步是要确定一个位置简单的说是每页多少条数据。我们可以认为用户只有很小的可能会翻页。或者说这次引擎需要评估前两页数据的准确率和召回率。根据实际任务来定。这里假设cut off10。查看前10条文档的情况。 4.2 计算不同位置的准确率和召回率在前10条文档中我们又不知道用户会在哪个位置停下来。我们可以先计算用户在不同位置停止浏览的时候的准确率和召回率。位置文档准确率召回率1D11/11/102D22/22/103D3-2/32/104D4-2/42/105D53/53/106D6-3/63/107D7-3/73/108D84/84/109D9-4/94/1010D10-4/104/10 可以看到随着位置增加准确率逐渐降低召回率逐渐增加。所以我们可以假设cut off(例如10)之后的每个位置的准确率为0。　　 4.3 比较两种算法比较两种算法就是比较两种算法的P-R曲线。　　　如果算法A、B的效果可以用上图表示毫无疑问算法A要优于算法B。因为在每一个相同召回率的点上A的准确率B的准确率。　　　如果算法A、B的效果用上面的图表示那哪种算法好呢我们是否应该用算法B替换算法A呢在最前面的位置算法B具有较高的准确率总体来看算法A具有较高的召回率。如果是今日头条这样的场景一个用户就想知道今天或者近几个小时发生了什么事情而且还不一定看几条数据就不停下来了。所以最前面的数据一定要是准确的要求高的准确率。这时候算法B比较好。如果这是一个科技查新的系统是一个专利调研项目想要知道哪类技术是不是已经研究过或者进行了哪方面的研究这时候有一些错误数据是可以的但是一定要保证相关的文献能被查询到。也就是说要有较高的召回率。这时候选择算法。 4.4 summarize a ranking 概述排序文档平均准确率。　上面例子的平均准确率1122354800000010\dfrac{\dfrac{1}{1}+\dfrac{2}{2}+\dfrac{3}{5}+\dfrac{4}{8}+0+0+0+0+0+0}{10}这里的分母相关文档的数量。这里有几个问题。　问题1相关文档的数量是在cut off范围内还是在所有数据范围内我比较偏向于前者。因为这是评价Top k 排序结果的。如果你要评价前10条数据但在数据集中相关文档只有8那这个时候分母就应该是8。　问题2分母为什么不是4也就是查询到的相关文档数量作者的解释我看得不是很明白。　“In fact, that you are favoring a system, that would retrieve very few random documents, as in that case, the denominator would be very small. So, this would be, not a good matching. ” 　大意是说分母很小我可以从数据中随机选择几个文档就能提高准确率。大概是这意思。　好处这样的计算结果同时考虑了准确率和召回率而且还与相关文档的位置有关系。在上面例子中如果把D5移动到D3计算结果就会变大因为分子的35\dfrac{3}{5}变成了33\dfrac{3}{3}。 4.5 MAP 平均准确率衡量了一个检索结果列表的好坏。那如果是一个查询检索表达式集合呢之前提到可重用的测试集是由文档集和查询集组成的。　MAPMean Average Precision 平均准确率的平均值。可以用来表示一个查询集的检索结果的好坏。　MAP分为算术平均准确率(MAP)和几何平均准确率(gMAP)。　MAP1n∑ni1piMAP=\dfrac{1}{n}\sum_{i=1}^{n}p_i。它主要由大数控制。如果一个数非常大而其他值非常小最后的结果页可能非常大。　gMAP(∏ni1pi)1ngMAP=(\prod_{i=1}^{n}p_i)^{\dfrac{1}{n}}。它主要由一些较小的数控制。它要求所有数都比较大结果才能比较大。　　如果要衡量搜索引擎的搜索效果想要提高几乎所有查询语句的搜索效果显然gMAP更合适。如果只需要提高部分查询的检索结果那MAP可能更合适。　　特殊情况只有一个相关文档。例如问答系统只有一个答案正确或者页面中只有一个位置展示相关文档。这样　平均准确率Reciprocal Rank1/r。r是相关文档在检索结果中的排序位置。　MAPMean Reciprocal Rank 　r代表了用户想要看到相关文档需要的努力程度。如果r1用户看1篇文档就找到了相关文档。如果r100用户就需要看100篇文档才能找到相关文档已然放弃。为什么不用r表示搜索效果的好坏呢在多个查询结果中假设有三个查询结果相关文档的位置分别是4、5、3。一种表示方式是141513\dfrac{1}{4}+\dfrac{1}{5}+\dfrac{1}{3}另外一种表示方式是{453}。在第一种方式中结果大就代表效果好第二种方式结果大代表效果差思维不同。人们对于14\dfrac{1}{4}与15\dfrac{1}{5}的差别和对4与5的差别的感觉是不一样的前者能感觉到更有差距。 4.6 多级别相关性排序评价上面介绍的都是一个文档要么相关要么不相关。实际中我们会给文档分成不同级别的相关性。例如r1不相关r2有点相关r3非常相关。我们这里假设关心top10结果。文档相关性相关性累加Discounted Cumulative GainD1333D223232/log2D3132132/log21/log3D41321132/log21/log31/log4D53……D61……D71……D82……D91……D101…... 相关性累加(Cumulative Gain)是把结果中每个文档的相关性等级相加。　带折扣的相关性累加Discounted Cumulative GainDCG是在相加过程中依据位置因素带了折扣等级logr,r位置。　最后还要计算正则化的DCG用于不同查询之间的比较表示为nDCGDCG10IdealDCG10\dfrac{DCG@10}{IdealDCG@10}。　DCG1032/log21/log3...1/log10DCG@10=3+2/log2+1/log3+...+1/log10 　IdealDCG10是对于某个搜素最理想情况下的DCG值。如果对于当前查询文档集中有9篇非常相关文档3级一篇有点相关文档2级那么IdealDCG1033/log23/log3...2/log10IdealDCG@10=3+3/log2+3/log3+...+2/log10 　nDCG的范围就是0-1之间用于衡量不同级别相关性的搜索。　 5 评估问题实际中的问题在评估中我们需要创建一个文档集、查询集以及相关评价集。在实际中这几方面都是很有挑战的。　首先我们选择的文档和查询语句要具有代表性能代表了真实的用户需求。　其次文档和查询的量要大尽量数据的抽样不均衡这里可以翻译的更好点。对于每个查询要保证有很多的相关文档。　第三对每个查询的每个文档的相关性需要大量的人工标记。这是一个劳动密集型的事情所以我们需要尽可能少的使用人力。　第四在制定相关度级别方面我们需要认真考虑什么是用户想要的再考虑定什么样的相关度级别是合适的。　　 5.1 统计显著性检验统计显著性测试(statistical significant test)用来解决这样的问题:我们通过试验比较算法A和算法B谁更好,计算得到平均值之后,我们怎么确定较好的算法是不是因为某几个特定的查询引起的.也就是说对于结果较好的算法,是几乎在每个查询上表现都好,还是只在某些查询上表现优异.例如下图。我们得到的试验结果有多少可信度。首先看一个符号测试Sign Test。如果SystemB比SystemA好则标记为否则标记为-。7个查询中4个位3个位-这和抛7枚硬币得到的结果相同所以这个结果完全是随机因素影响的p1.0。　其次看Wilcoxon检验法。Wilcoxon检验法同时考虑了符号和差值大小。我们需要考虑在一定的置信水平上例如α0.95\alpha=0.95计算得到的|W|值是否在临界值范围外。详细内容看看统计学课本或者Wikipedia。 5.2 Judgments 如果我们不能对所有文档的相关性做相关性标记那我们应该选择哪部分文档去标注相关性呢呢抽样。要尽可能选择多样性的文档选择Top k文档多个算法可能会选到重复的文档把N个算法选出的文档作为测试集人工标记相关性其余未被选中的文档被认为是不相关文档。 6 未涉及到的相关策略 A-B Test 　用户学习　可以参考的资料: 　Donna Harman, Information Retrieval Evaluation. Synthesis Lectures on Information Concepts, Retrieval, and Services, Morgan Claypool Publishers 2011 　Mark Sanderson, Test Collection Based Evaluation of Information Retrieval Systems. Foundations and Trends in Information Retrieval 4(4): 247-375 (2010) 　Diane Kelly, Methods for Evaluating Interactive Information Retrieval Systems with Users. Foundations and Trends in Information Retrieval 3(1-2): 1-224 (2009)

查看全文

http://www.pierceye.com/news/406749/