当前位置: 首页 > news >正文

网站如何与域名绑定如何构建自己的网站

网站如何与域名绑定,如何构建自己的网站,模板网站建设优惠,网站建设工作经历文 | 乐乐QvQ搜索引擎之间有何不同#xff1f;随着世界上最大的两家公司Google和Microsoft争夺Web Search空间的愈发激烈#xff0c;一超多强的搜索格局已经形成。在目前眼花缭乱的搜索市场中#xff0c;是搜索结果的千篇一律#xff0c;九九归一#xff1b;还是搜索结果的… 文 | 乐乐QvQ搜索引擎之间有何不同随着世界上最大的两家公司Google和Microsoft争夺Web Search空间的愈发激烈一超多强的搜索格局已经形成。在目前眼花缭乱的搜索市场中是搜索结果的千篇一律九九归一还是搜索结果的万花齐放各有千秋本文对Google和Bing这两个主要搜索引擎以及DuckDuckGo的 相似性 进行了详尽的分析目的是探索搜索引擎受欢迎程度的差异除了搜索结果的 有效性 还和哪些因素有关。本文主要包含以下4方面内容1研究搜索引擎结果的相似性2随着时间推移其相似性的发展3影响搜索引擎结果相似性的因素4指标在不同种类的搜索服务上的差异。最终结果表明在搜索结果上Google展现出与其他两家的明显差异但Bing和DuckDuckGo在搜索结果上很大程度没有区别。论文题目《Search Engine Similarity Analysis: A CombinedContent and Rankings Approach》论文链接:https://arxiv.org/abs/2011.00650Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【1123】 下载论文PDF~问题出现搜索引擎之战从未停止不断演进的搜索算法旨在产生更准确的结果以更好地响应用户需求而搜索引擎的内部运作又是公司的核心机密。例如尽管我们知道Google以PageRank为搜索的基础但我们也知道当前的Google服务使用了许多专有机制。对于每一家拥有独立搜索引擎的公司Bing、百度等也是如此。搜索引擎市场的普及之战是一场持续不断的游戏。例如披露个人数据滥用和更严格的数据保护政策的出现影响了市场的发展。深入研究美国搜索引擎近三年来的发展情况可以发现Google的市场份额增长了5.45Bing的市场份额下降了18.13而DuckDuckGo的市场份额几乎增长了四倍。后者是一个竭尽全力满足注重隐私的用户需求的搜索引擎尽管与上述竞争对手相比它所占的份额很小但其可观的增长表明与已建立成熟的市场竞争对手相比它具有很大的潜力。同时搜索引擎发展迅速返回的结果比过去的“ 十个蓝色链接 ”要丰富得多。如今搜索结果包括精心制作的页面标题和详细的文本片段同时还汇总了来自多个专门搜索服务称为“垂直领域”的相关内容例如图像视频商业地图或天气预报。这些优势凸显了新的用户交互模式的价值。然而这使得评价搜索引擎的优劣麻烦了许多即使常规的结果排名方法仍可以用于搜索引擎比较它本质上是问题的一阶近似但没有考虑到当前的异构用户体验。先来吃瓜先上结论本文使用metric T比较了三种搜索引擎GoogleBing和DuckDuckGo以下称DDG的多种查询类型。Google和Bing是两个主要研究的搜索引擎。DDG采用了不同的理念对用户的私密性给予了高度重视。在本文的实证评估中本文尝试回答以下五个研究问题(Research Question,下文简称RQ) 搜索引擎会产生类似的Web结果吗 搜索引擎之间的相似性是否随时间推移而一致 网络结果的哪个方面即排名或内容对搜索引擎的相似性影响最大 搜索引擎针对不同种类的搜索服务会产生相似的结果吗 metric T产生的结果与最新技术有何关系RQ1实验通过采用metric T估算了GoogleBing和DDG之间的相似性。具体来说实验对每个时间每个查询比较每个搜索引擎对的Web结果从而得出三个二维相似性数组D。每个代表第 天的第 类查询中两个搜索引擎之间的相似性。(矩阵中的每个小块颜色越“蓝”代表结果越相似红色反之)结论在大多数查询中Google与Bing和DDG的结果区分明显而后两者在彼此之间几乎没有区别。RQ2为了估算一段时间内搜索引擎行为的一致性我们计算了每天和搜索引擎结果对的平均相似性得分由metric T计算。下图展示了每个搜索引擎对随时间的平均相似度。该图清楚地表明搜索引擎的相似性随时间变化几乎是恒定的。该实验的结果表明要么搜索引擎不会显着改变其行为要么它们的行为以相同的方式改变。比较2016年和2019年搜索引擎的相似度。对于每个搜索引擎对我们评估它们在2016年和2019年每个查询类别的相似度。我们观察到搜索引擎的相似度长期不会发生显着变化。Bing-DDG的结果对是2016年和2019年最相似的。结论与Bing-Google和Google-DDG相比Bing和DDG彼此之间更加相似。尽管搜索结果会发生个别更改但从长远来看它们的成对相似性几乎是稳定的。RQ3与现有方法不同metric T既可以捕获结果的顺序即换位也可以捕获结果的内容即摘要标题。因此我们可以估算每个因素对搜索引擎之间差异的贡献程度。为此实验为每个因子实例化具有不同权重的metric T等式2中的abc。实验首先将metric T的base weights设置为的基准度量。实验为所有查询和日期计算每个比较对的平均相似度。从概念上讲metric T base仅考虑重叠结果的数量通过改变a 0.1、0.2...1同时保持b c 0来检查代码片段的效果。类似地我们通过改变频段同时保持其他两个权重固定为零来检查标题和摘要的效果。结论摘要是所有比较对之间的差异影响最大的其中Google产生的差异最大。所有的搜索引擎都倾向于把它们共同的结果放在邻接的位置。最后所有的搜索引擎产生几乎相同的标题。RQ4除了标准的Web搜索之外搜索引擎还为用户提供一系列不同服务例如新闻图像和视频搜索。我们调查了有关搜索引擎之间相似性的调查结果是否适用于2019年的“新闻搜索”——将其他服务作为文本结果的度量标准而排除在外。我们创建了一组30条新闻查询其中20个摘自2019年5月的Google新闻趋势其余10个是通用新闻主题例如“洪水”。结论不同的搜索引擎服务产生的结果有相当大的差异。RQ5使用不同指标的所有搜索引擎对的相似性。对于Bing-Google和Google-DDG比较metric T的box plots图低于其他度量因为它有效地考虑了它们在结果内容上的重大分歧。与其他Metric T相比Metric T表现出一致的行为。但是当内容相似度下降时metric T的diff结果将与其他度量的结果不同。评估标准T吃瓜看戏到此为止下面我来看看本文是如何评价搜索结果相似性的。本文引入了一个新的度量标准称为***T***用以研究搜索引擎的相似性。问题表述接下来我们假设对于两个搜索引擎A和B我们有两个列表和 分别表示两个搜索引擎中对于同一条搜索query的TopN结果。通常搜索引擎产生的响应包括结果的网址标识符、结果标题和描述网页内容的代码段。随着搜索引擎的发展和用户体验的变化搜索结果的顺序并不是决定用户交互方式的唯一因素。具体来说摘要和标题与用户决定点击特定页面的行为息息相关。因此搜索引擎应该比较全面的考虑以上三个方面以便准确地评估引擎相似度。为了进一步强调 摘要和标题 的重要性如表一所示该表显示了Google和Bing对于“Steven Wilson”查询返回的最好结果。尽管搜索引擎在顺序和URL指向上是一致的即两个结果都指向http://stevenwilsonhq.com/sw/但它们会产生完全不同的摘要段。根据用户的搜索条件不同的摘要段落在吸引用户点击上可能比另一个更有效。例如Bing制作的片段着重于该艺术家最喜欢的电影导演因此当用户搜索有关该艺术家的一般信息时它可能是一个很好的片段。而Google的摘要选取了他的和他新专辑发行相关的音乐新闻。▲“Steven Wilson”的结果综上所述由于搜索引擎结果的排名无法完全体现出它们的相似性因此我们需要更全面的相似性评价指标。这应满足以下四个条件 共现URL结果的数量。搜索引擎A和B共享在其TopN结果中共同出现的URL越多它们的相似度就越高。 共现URL的距离。如果在A和B的结果中都出现一个URL则随着两个结果列表中元素的距离增加A和B的相似性也会降低。 相似性权重随着结果序位的增加而降低。例如最高结果的一致性比第三或第四结果的相似性权重更大。 如果两个搜索引擎相似则除了返回相似结果外它们还会产生相似的标题和摘要。出发点作为定义搜索引擎吸引力度的基础我们采用Jaro-Winkler距离它是Jaro距离的一种变体主要应用于记录链接问题其目标是基于共同元素及其之间的换位数来计算两个字符串之间的相似性。两个字符串S1和S2的Jaro距离由下式给出上式中表示匹配字符的数量。如果两个字符相同且位置相差不超过则视为匹配。表示换位的数量。两个字符串中顺序不同的匹配字符的一半。例如假设我们比较了一对长度为n 10的结果集合并且得到了匹配元素的数量m 2。根据等式1如果t 0则这一项等于1它对整体相似度贡献的值为这种情况使得匹配项的数量较少时对整体的相似度贡献反而越多因为匹配项较少时换位的可能性更低。为了考虑搜索引擎返回的摘录和标题我们将Jaro-Winkler距离调整为如下表示其中表示结果集合长度是公共结果的数量是摘要之间区别的惩罚是标题之间区别的惩罚是换位的惩罚是摘要标题和换位惩罚对应的权重。值得注意的是该式计算的惩罚和是与结果列表的长度之比而不是与匹配元素的数量之比。因为和具有相同的长度,同样我们可以使用代替。另外当前个字符都完全匹配时Jaro-Winkler距离通过使用缩放因子p增大其表示惩罚计算换位两个列表中出现的元素位置的绝对差之和用于计算“换位数”。对于结果列表和惩罚计算如下其中是a在R列表中的位置换位惩罚用其上限进行标准化。可以证明在两个列表的长度为n的情况下|RA∩RB|的上限为其中标题和摘要摘要和标题相关的惩罚的过程对于相似性计算来说都是很常见的。由搜索引擎A和B生成的摘要和标题的句子分别是:(1) 我们对句子进行标记并消除所有停用词以及查询词。(2) 获取出现在两个句子中的所有有标记单词的并集并计算相应的频率从而形成两个向量其中这两个向量代表实际的摘要或标题。(3) 计算两个向量的余弦距离 。(4) 对所有结果重复此过程然后求和所有距离可以计算出总损失。一致性提升对于同位置的返回结果Jaro-Winkler度量标准均等地作用于每一个可以显示匹配的字符。但是当我们在结果列表中按顺序排列时我们要求一致性评价的权重递减。为了做到这一点当出现共同结果的位置满足时完全匹配或相邻匹配在结果列表的开始处更为重要。最终T计算最终的相似性指标将重叠结果的数量以及结果的顺序、摘要和标题结合在一起由下式计算得到出其中该式可以满足前文所提到的C1-C4所有制约条件。数据集实验的数据集总共包含约27,600个Top-10列表。为了组合这些搜索结果本文构造了10类查询如下表。每个类别包含大约30个query其中20个选择了2016年5月版的Google Trends鉴于无法测试所有可能的查询实验选择了可能会影响大量用户的热门查询。此外为了实现代表性本文在每个类别中增加了10个自定义的query以便包括那些较不流行但并非罕见的搜索情况。小结虽说已经有许多度量标准来评估搜索引擎结果的相似性。但是它们中的大多数都只专注于搜索结果的排名。本文提出的指标背后的核心思路是通过将搜索结果的语义特征纳入排名距离方法中从而估算搜索引擎的相似度。另外Metric T的内容意识旨在更好地反映实际的用户体验。实验中指标的双重性质可实现更具表达力和更强壮的相似度得分并区分出搜索引擎行为中的重要差异而其他排名距离指标则不明显。萌屋作者QvQ。硕士毕业于中国科学院大学前ACM校队队长区域赛金牌。竞赛混子Kaggle两金一银国内外各大NLP、大数据竞赛Top10。校招拿下国内外数十家大厂offer超过半数的SSP。目前在百度大搜担任搜索算法工程师。知乎IDQvQ作品推荐1.13个offer8家SSP谈谈我的秋招经验2.2020深度文本匹配最新进展精度、速度我都要3.7款优秀Vim插件帮你打造完美IDE4.他与她一个两年前的故事后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~
http://www.pierceye.com/news/998131/

相关文章:

  • 福田做网站公司怎么选择wordpress怎样在列表页使用瀑布流
  • 做导航网站用多大的空间广州天河区有哪些大学
  • 广州市城乡建设部网站首页做婚礼设计在哪个网站下载素材
  • 网站建设推广服务合同范本什么是电子商务专业?
  • 青岛网站建设公司电话棋牌室的网站怎么做
  • 网站更改公司需要重新备案吗传媒网站
  • 海诚网站建设青岛李村网站设计公司
  • 哪个网站可以宣传做的蛋糕网站商城微信支付接口申请
  • 如何做淘客推广网站可信赖的手机网站设计
  • 西城专业网站建设公司哪家好外贸网站优化谷歌关键词排名
  • 先做网站后备案仿做网站可以整站下载器吧
  • ASP.NET实用网站开发 课后答案开发网站过程
  • 做网站需要编码吗仿站网站源码
  • 响应式网站什么意思爱南宁app下载官网最新
  • 自己做的网站怎么添加采集模块网站管理包括哪些内容
  • php做网站验证码的设计电商网站的二级怎么做
  • 广西网站建设价钱微信crm管理系统
  • 福州网站建设公司中小企业荆门市城乡建设管理局网站
  • 建设信用卡网站首页有做车身拉花的网站吗
  • 怎么做婚恋网站织梦网站推广插件
  • rtt全民互助平台网站开发自己怎样做免费网站
  • 建站模板东营建网站公司
  • 如何用vs做网站网络推广方案下拉管家微xiala11
  • 可以做彩票广告的网站吗做网站的应用
  • 龙岗网站 建设深圳信科湘潭做网站价格品牌磐石网络
  • 湖北网站排名优化安卓项目开发
  • 网站怎么引入微信支付郑州官方通报
  • 在南宁做家教兼职的网站北京通州做网站
  • 深圳网站的建设维护公司秦皇岛市建设局官网
  • 做网站 插件静态网站开发课程相关新闻