当前位置: 首页 > news >正文

杭州网站设计公司价格华为域名注册

杭州网站设计公司价格,华为域名注册,网站页面优化公告,wordpress设置qq邮箱设置在海量数据中找出出现频率最好的前k个数#xff0c;或者从海量数据中找出最大的前k个数#xff0c;这类问题通常被称为top K问题。针对top K类问题#xff0c;通常比较好的方案是分治Trie树/hash小顶堆#xff08;就是上面提到的最小堆#xff09;#xff0c;即先将数据集…在海量数据中找出出现频率最好的前k个数或者从海量数据中找出最大的前k个数这类问题通常被称为top K问题。针对top K类问题通常比较好的方案是分治Trie树/hash小顶堆就是上面提到的最小堆即先将数据集按照Hash方法分解成多个小数据集然后使用Trie树或者Hash统计每个小数据集中的query词频之后用小顶堆求出每个数据集中出现频率最高的前K个数最后在所有top K中求出最终的top K。方法进阶1、最简单的方法就是快排取topk2、局部淘汰法。用一个容器保存前k个数然后将剩余的所有数字——与容器内的最小数字相比如果所有后续的元素都比容器内的k个数还小那么容器内这k个数就是最大k个数。如果某一后续元素比容器内最小数字大则删掉容器内最小元素并将该元素插入容器最后遍历完所有的数得到的结果容器中保存的数即为最终结果了3、分治法。将1亿个数据分成100份每份100万个数据找到每份数据中最大的10000个最后在剩下的100*10000个数据里面找出最大的10000个。100万个数据里面查找最大的10000个数据的方法如下用快速排序的方法将数据分为2堆如果大的那堆个数N大于10000个继续对大堆快速排序一次分成2堆如果大的那堆个数N大于10000个继续对大堆快速排序一次分成2堆如果大堆个数N小于10000个就在小的那堆里面快速排序一次找第10000-n大的数字递归以上过程就可以找到第1w大的数。参考上面的找出第1w大数字就可以类似的方法找到前10000大数字了。此种方法需要每次的内存空间为10^6*44MB一共需要101次这样的比较。4、采用最小堆。首先读入前10000个数来创建大小为10000的最小堆建堆的时间复杂度为Omlogmm为数组的大小即为10000然后遍历后续的数字并于堆顶最小数字进行比较。如果比最小的数小则继续读取后续数字如果比堆顶数字大则替换堆顶元素并重新调整堆为最小堆。整个过程直至1亿个数全部遍历完为止。然后按照中序遍历的方式输出当前堆中的所有10000个数字。该算法的时间复杂度为Onmlogm空间复杂度是10000常数。以下是一些经常被提及的该类问题。1有10000000个记录这些查询串的重复度比较高如果除去重复后不超过3000000个。一个查询串的重复度越高说明查询它的用户越多也就是越热门。请统计最热门的10个查询串要求使用的内存不能超过1GB。2有10个文件每个文件1GB每个文件的每一行存放的都是用户的query每个文件的query都可能重复。按照query的频度排序。3有一个1GB大小的文件里面的每一行是一个词词的大小不超过16个字节内存限制大小是1MB。返回频数最高的100个词。4提取某日访问网站次数最多的那个IP。510亿个整数找出重复次数最多的100个整数。6搜索的输入信息是一个字符串统计300万条输入信息中最热门的前10条每次输入的一个字符串为不超过255B内存使用只有1GB。7有1000万个身份证号以及他们对应的数据身份证号可能重复找出出现次数最多的身份证号。最小堆对于每个非叶子节点的数值一定不大于孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然根节点是其中的最小数值)。每次有数据输入的时候可以先与根节点比较。若不大于根节点则舍弃否则用新数值替换根节点数值。并进行最小堆的调整。Python 小顶堆class solution:def topk(self, inputs, k):import heapqif inputs None or len(inputs) k or len(inputs) 0 or k 0:# 注意极限条件的确定return []output []for number in inputs:if len(output) k:output.append(number)else:output heapq.nlargest(k, output)print(output)if number output[-1]:output[-1] numberelse:continuereturn output
http://www.pierceye.com/news/140051/

相关文章:

  • 广州海珠网站开发营销策划
  • 医院网站制作公司专门做spa的网站
  • 企业网页制作与网站设计网站必须天天更新吗
  • 乌苏市城乡建设局网站外贸网网站建设
  • html5网站开发实例书籍凡科建站代理
  • 与建设部网站网站注册登录页面设计
  • 企业网站推广计划免费最新如何建设网站教程视频
  • 17一起做网站普宁站好看个人网页模板
  • 民治营销网站专业网站建设价格最优
  • 免费的html网站做柜子喜欢上哪些网站看
  • 网站没备案怎么做加速现代装修风格三室两厅效果图
  • 互助平台网站建设网上商城怎么购物
  • 百度知道山东网站建设建设网站成本预算
  • 人人做免费网站网站建站是 什么
  • 以背景做网站视频为单位网站建设实施方案
  • 简洁大气企业网站模板西安个人做网站
  • 做一个网站需要到哪里做辽宁同鑫建设网站
  • 开发网站监控推荐扬中市建设局网站
  • 手机网站根目录简述一个网站设计的主要步骤
  • 网站改版seo建议网页设计师的能力
  • 网站上线前应该备案吗温州网站建设风格
  • 网站建设书籍免费聊城市东昌府区建设路小学网站
  • 网站标题优化怎么做找人一起做素材网站
  • 如何创建个人网站模板用织梦做模板网站
  • 平台建站建设做网站一定要有营业执照吗
  • 如何把学校网站建设好天猫店铺购买
  • 网站的建设和推广企业网站建设的主要目的是
  • html5 公众号 网站开发工程公司名称
  • 公司做网站那家好网站二维码怎么制作
  • 鼓楼区建设房产和交通局网站网站全屏图片怎么做