长春网站建设 吉网传媒,我想建网站,海阳市建设局网站,做宣传图片的软件最近几年#xff0c;经常听到数据挖掘这个词。不过#xff0c;我仔细看了下#xff0c;发现这个词还是挺模糊的。挖掘这个词#xff0c;应该指从数据中发现有价值的信息。比如从搜索词中#xff0c;发现网民的关注点#xff0c;进而指导广告投放、产品推荐#xff0c;生… 最近几年经常听到数据挖掘这个词。不过我仔细看了下发现这个词还是挺模糊的。挖掘这个词应该指从数据中发现有价值的信息。比如从搜索词中发现网民的关注点进而指导广告投放、产品推荐生产用户需要的产品。数据根据我有限的阅历来看数据最常见的形式就是日志各种各样的日志。限于从业经验有限本文只是简要介绍下日志的种类、存储和计算仅供参考。日志的种类1.浏览日志a.广告曝光日志 一个广告的一次曝光会产生一条曝光日志。 日志格式广告位ID、媒体、频道、曝光时间、IP、来源、操作系统、浏览器、用户ID等。 注可以用监测点ID来代替媒体和频道等更多信息。b.网页访问日志 网页被一个用户访问一次产生一条访问日志。 日志格式网页URL、用户ID、访问时间、来源、操作系统、浏览器等。2.行为日志a.广告点击日志日志格式广告位ID、媒体、频道、点击时间、IP、来源、操作系统、浏览器、用户ID等。b.内容点击日志 用户点击了站内的链接记录这个日志可以得出用户的喜好。日志格式 与网页访问和广告点击日志类似。c.分享日志 用户分享了文章或者文章的一部分。d.收藏用户收藏了商品、文章、代码等。e.搜索 百度肯定记录了用户的搜索记录。 优酷等视频网站、新浪等媒体网站也有吧。 更多日志不再一一列举。日志的存储百度、优酷等大型互联网网站肯定有很多服务器。日志也会存储到多台服务器上。日志可以存储到文件中一条日志一个文件或者多个日志共用一个文件。至于怎样更合理我还没有啥实际经验。两个疑问1.日志数据作为互联网公司的重要资产是否会统一存储起来呢我觉得最终会统一存放到数据仓库中一台机器显然是不够的会有很多台。2.这些日志数据有必要备份么 我觉得有必要。日志的计算1.实时计算 来一条日志或者一定量的日志就计算。 然后把多态服务器上的计算结果累加得出最终的结果。 现在很多客户都要求“实时数据”。比如广告投放15分钟之后就可以看到监测数据了。 实时计算能力已经成为一个技术公司的核心竞争力了。2.非实时计算 等所有相关数据都出来了然后再统一计算。 这种方式准确度会更高。云存储有的技术公司有自己私有的云存储技术不对外提供。有的技术公司不但有私有的云存储技术还对外提供服务。比如百度、金山、QQ等都有免费提供给用户的云存储服务。公司内部与向外提供还是有区别的。比如象访问和点击日志这种文件比较小。而对外提供的文件可能比较大。场景和需求的不同也就决定了云存储技术还是会分化成好几种。云计算我一直没有搞清楚“云计算”和“分布式计算”有啥区别总感觉“云”就是一个模糊的让人“云山雾绕”的概念。姑且就认为云计算分布式计算。我的理解云计算就是把一个复杂的计算问题拆分成了可以单独计算的多个部分然后把多个计算结果进行合并。上周末看了《云计算-大数据时代的系统工程》这本书对云计算有了更清晰的认识。友情提示本人从业时间有限经验有限因此本文仅供参考。本人正在努力学习和研究当中。欢迎提出建设性的意见和建议。原文链接http://blog.fansunion.cn/articles/3445(小雷博客-blog.fansunion.cn) 转载于:https://www.cnblogs.com/qitian1/p/6463369.html