政协机关网站建设,网站开发视频教程百度云,漯河哪里做网站,wordpress 首页不显示戳蓝字“CSDN云计算”关注我们哦#xff01;来源 | 鲜枣课堂作者 | 小枣君近年来#xff0c;大数据这个词的热度很高#xff0c;受到公众的广泛关注。对于很多人来说#xff0c;当他第一次听到“大数据”这个词#xff0c;会自然而然从字面上去理解——认为大数据就是大量… 戳蓝字“CSDN云计算”关注我们哦来源 | 鲜枣课堂作者 | 小枣君近年来大数据这个词的热度很高受到公众的广泛关注。对于很多人来说当他第一次听到“大数据”这个词会自然而然从字面上去理解——认为大数据就是大量的数据大数据技术就是大量数据的存储技术。但事实上它并不只是一项存储技术而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术。大数据系统是一个庞大的框架系统。更进一步来说大数据是一种全新的思维方式和商业模式。图片来自网络今天这篇文章就让我们来深入了解一下到底什么是大数据。 大数据的定义 首先我们看看大数据的定义。行业里对大数据的定义有很多有广义的定义也有狭义的定义。广义的定义有点哲学味道——大数据是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征从而做出提升效率的决策行为。狭义的定义是技术工程师给的——大数据是通过获取、存储、分析从大容量数据中挖掘价值的一种全新的技术架构。相比较而言狭义定义更好理解一些。大家注意关键词我都在上面原句加粗了要做什么——获取数据、存储数据、分析数据对谁做——大容量数据目的是什么——挖掘价值获取数据、存储数据、分析数据这一系列的行为都不算新奇。我们每天都在用电脑每天都在干这个事。例如每月的月初考勤管理员会获取每个员工的考勤信息录入Excel表格然后存在电脑里统计分析有多少人迟到、缺勤然后扣TA工资。但是同样的行为放在大数据身上就行不通了。换言之传统个人电脑传统常规软件无力应对的数据级别才叫“大数据”。 大数据到底有多大 我们传统的个人电脑处理的数据是GB/TB级别。例如我们的硬盘现在通常是1TB/2TB/4TB的容量。TB、GB、MB、KB的关系大家应该都很熟悉了1 KB 1024 B (KB - kilobyte) 1 MB 1024 KB (MB - megabyte) 1 GB 1024 MB (GB - gigabyte) 1 TB 1024 GB (TB - terabyte) 而大数据是什么级别呢PB/EB级别。大部分人都没听过。其实也就是继续乘以10241 PB 1024 TB (PB - petabyte) 1 EB 1024 PB (EB - exabyte) 只是看这几个字母的话貌似不是很直观。我来举个例子吧。1TB只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐或者是20万部电子书。普通硬盘1PB需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐可以听1900年。。。2个机柜1EB需要大约2000个机柜的存储设备。如果并排放这些机柜可以连绵1.2公里那么长。如果摆放在机房里需要21个标准篮球场那么大的机房才能放得下。21个篮球场阿里、百度、腾讯这样的互联网巨头数据量据说已经接近EB级。阿里数据中心内景EB还不是最大的。目前全人类的数据量是ZB级。1 ZB 1024 EB (ZB - zettabyte) 2011年全球被创建和复制的数据总量是1.8ZB。而到2020年全球电子设备存储的数据将达到35ZB。如果建一个机房来存储这些数据那么这个机房的面积将比42个鸟巢体育场还大。数据量不仅大增长还很快——每年增长50%。也就是说每两年就会增长一倍。目前的大数据应用还没有达到ZB级主要集中在PB/EB级别。大数据的级别定位1 KB 1024 B (KB - kilobyte) 1 MB 1024 KB (MB - megabyte) 1 GB 1024 MB (GB - gigabyte) 1 TB 1024 GB (TB - terabyte) 1 PB 1024 TB (PB - petabyte) 1 EB 1024 PB (EB - exabyte) 1 ZB 1024 EB (ZB - zettabyte) 数据的来源 数据的增长为什么会如此之快说到这里就要回顾一下人类社会数据产生的几个重要阶段。大致来说是三个重要的阶段。第一个阶段就是计算机被发明之后的阶段。尤其是数据库被发明之后使得数据管理的复杂度大大降低。各行各业开始产生了数据从而被记录在数据库中。这时的数据以结构化数据为主待会解释什么是“结构化数据”。数据的产生方式也是被动的。世界上第一台通用计算机-ENIAC第二个阶段是伴随着互联网2.0时代出现的。互联网2.0的最重要标志就是用户原创内容。随着互联网和移动通信设备的普及人们开始使用博客、facebook、youtube这样的社交网络从而主动产生了大量的数据。第三个阶段是感知式系统阶段。随着物联网的发展各种各样的感知层节点开始自动产生大量的数据例如遍布世界各个角落的传感器、摄像头。经过了“被动-主动-自动”这三个阶段的发展最终导致了人类数据总量的极速膨胀。 大数据的4个V 行业里对大数据的特点概括为4个V。前面所说的庞大数据体量就是Volume海量化。除了Volume之外剩下三个分别是Variety、Velocity、Value。我们一个一个来介绍。Variety多样化数据的形式是多种多样的包括数字价格、交易数据、体重、人数等、文本邮件、网页等、图像、音频、视频、位置信息经纬度、海拔等等等都是数据。数据又分为结构化数据和非结构化数据。从名字可以看出结构化数据是指可以用预先定义的数据模型表述或者可以存入关系型数据库的数据。 结构化数据例如一个班级所有人的年龄、一个超市所有商品的价格这些都是结构化数据。而网页文章、邮件内容、图像、音频、视频等都属于非结构话数据。在互联网领域里非结构化数据的占比已经超过整个数据量的80%。大数据就符合这样的特点数据形式多样化且非结构化数据占比高。Velocity时效性大数据还有一个特点那就是时效性。从数据的生成到消耗时间窗口非常小。数据的变化速率还有处理过程越来越快。例如变化速率从以前的按天变化变成现在的按秒甚至毫秒变化。我们还是用数字来说话就在刚刚过去的这一分钟数据世界里发生了什么Email2.04亿封被发出Google200万次搜索请求被提交Youtube2880分钟的视频被上传Facebook69.5万条状态被更新Twitter98000条推送被发出123061840张车票被卖出……怎么样是不是瞬息万变Value价值密度最后一个特点就是价值密度。大数据的数据量很大但随之带来的就是价值密度很低数据中真正有价值的只是其中的很少一部分。例如通过监控视频寻找犯罪分子的相貌也许几TB的视频文件真正有价值的只有几秒钟。2014年美国波士顿爆炸案现场调取了10TB的监控数据包括移动基站的通讯记录附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料最终找到了嫌疑犯的一张照片。 大数据的价值 刚才说到价值密度也就说到了大数据的核心本质那就是价值。 人类提出大数据、研究大数据的主要目的就是为了挖掘大数据里面的价值。大数据究竟有什么价值早在1980年著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中就明确提出“数据就是财富”并且将大数据称为“第三次浪潮的华彩乐章”。第一次浪潮农业阶段约1万年前开始第二次浪潮工业阶段17世纪末开始第三次浪潮信息化阶段20世纪50年代后期开始进入21世纪之后随着前面所说的第二第三阶段的发展移动互联网崛起存储能力和云计算能力飞跃大数据开始落地也引起了越来越多的重视。2012年的世界经济论坛指出“数据已经成为一种新的经济资产类别就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。如今大数据应用开始走进我们的生活影响我们的衣食住行。滴滴的大数据杀熟相信大家都有所耳闻之所以大数据会有这么快的发展就是因为越来越多的行业和企业开始认识到大数据的价值开始试图参与挖掘大数据的价值。归纳来说大数据的价值主要来自于两个方面1 帮助企业了解用户大数据通过相关性分析将客户和产品、服务进行关系串联对用户的偏好进行定位从而提供更精准、更有导向性的产品和服务提升销售业绩。典型的例子就是电商。像阿里淘宝这样的电子商务平台积累了大量的用户购买数据。在早期的时候这些数据都是累赘和负担存储它们需要大量的硬件成本。但是现在这些数据都是阿里最宝贵的财富。通过这些数据可以分析用户行为精准定位目标客群的消费特点、品牌偏好、地域分布从而引导商家的运营管理、品牌定位、推广营销等。大数据可以对业绩产生直接影响。它的效率和准确性远远超过传统的用户调研。除了电商包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等都是大数据的用武之地。大数据甚至能够帮助竞选总统2 帮助企业了解自己除了帮助了解用户之外大数据还能帮助了解自己。企业生产经营需要大量的资源大数据可以分析和锁定资源的具体情况例如储量分布和需求趋势。这些资源的可视化可以帮助企业管理者更直观地了解企业的运作状态更快地发现问题及时调整运营策略降低经营风险。总而言之“知己知彼百战百胜”。大数据就是为决策服务的。 大数据和云计算 说到这里我们要回答一个很多人心里都存在的疑惑——大数据和云计算之间到底有什么关系可以这么解释数据本身是一种资产而云计算则是为挖掘资产价值提供合适的工具。从技术上大数据是依赖于云计算的。云计算里面的海量数据存储技术、海量数据管理技术、分布式计算模型等都是大数据技术的基础。云计算就像是挖掘机大数据就是矿山。如果没有云计算大数据的价值就发挥不出来。相反的大数据的处理需求也刺激了云计算相关技术的发展和落地。也就是说如果没有大数据这座矿山云计算这个挖掘机很多强悍的功能都发展不起来。套用一句老话——云计算和大数据两者是相辅相成的。 大数据和物联网5G 第二个问题大数据和物联网有什么关系这个问题我觉得大家应该能够很快想明白前面其实也提到了。物联网就是“物与物互相连接的互联网”。物联网的感知层产生了海量的数据将会极大地促进大数据的发展。同样大数据应用也发挥了物联网的价值反向刺激了物联网的使用需求。越来越多的企业发觉能够通过物联网大数据获得价值就会愿意投资建设物联网。其实这个问题也可以进一步延伸为“大数据和5G之间的关系”。即将到来的5G通过提升连接速率提升了“人联网”的感知也促进了人类主动创造数据。另一方面它更多是为“物联网”服务的。包括低延时、海量终端连接等都是物联网场景的需求。5G刺激物联网的发展而物联网刺激大数据的发展。所有通信基础设施的强大都是为大数据崛起铺平道路。 大数据的产业链 接下来再说说大数据的产业链。大数据的产业链和大数据的处理流程是紧密相关的。简单来说就是生产数据、聚合数据、分析数据、消费数据。每个环节都有相应的角色玩家。如下图从目前的情况来看国外厂商在大数据产业占据了较大的份额尤其是上游领域基本上都是国外企业。国内IT企业相比而言存在较大的差距。大数据相关重点领域及企业技术 大数据的挑战 说了那么多大数据的好话并不代表大数据是完美的。大数据也面临着很多挑战。除了数据管理技术难度之外大数据的最大挑战就是安全。数据是资产也是隐私。没有人愿意自己的隐私被暴露所以人们对自己的隐私保护越来越重视。政府也在不断加强对公民隐私权的保护出台了很多法律。欧盟在2018年出台了有史以来最严厉的GDPR《一般数据保护法案》把网络数据保护上升到前所未有的高度在这种情况下企业获取用户数据就需要慎重考虑是否符合伦理和法律。一旦违法将付出极为沉重的代价。此外即使企业合法获取数据也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。除了安全之外大数据还要面临能耗等方面的问题。换言之如果不能很好地保护和利用手里的大数据那么它就是一个烫手的山芋有还不如没有。好啦洋洋洒洒写了这么多相信大家已经对大数据有了初步的了解。后续小枣君将重点介绍大数据的关键框架和技术栈包括大家非常关心的Hadoop、Spark、HDFS、MapReduce等概念都将一一进行解读。敬请期待福利扫描添加小编微信备注“姓名公司职位”加入【云计算学习交流群】和志同道合的朋友们共同打卡学习推荐阅读mysql表设计要注意什么漫话如何给女朋友解释鸿蒙OS是怎样实现跨平台的换脸软件 ZAO 刷屏你在玩换脸别人想要你的脸只给测试集不给训练集要怎么做自己的物体检测器华为鸿蒙为什么非要碰物联网Dropout、梯度消失/爆炸、Adam优化算法神经网络优化算法看这一篇就够了真香朕在看了