当前位置: 首页 > news >正文

福州网站设计培训深圳企业馆设计公司

福州网站设计培训,深圳企业馆设计公司,网站建设管理维护制度,网站结构分析怎么做数据湖是非结构化和结构化数据池#xff0c;按原样存储#xff0c;没有特定的目的#xff0c;可以建立在多种技术上#xff0c;如Hadoop#xff0c;NoSQL#xff0c;Amazon Simple Storage Service#xff0c;关系数据库或各种组合根据一份名为“什么是数据湖”的白皮书… 数据湖是非结构化和结构化数据池按原样存储没有特定的目的可以建立在多种技术上如HadoopNoSQLAmazon Simple Storage Service关系数据库或各种组合根据一份名为“什么是数据湖”的白皮书为什么它变得流行 Data Lake允许多点采集和多个数据访问点。Pentaho公司的创始人詹姆斯·迪克森James Dixon在2010年创造了“数据湖”Data Lake这个术语并将其与数据集市Data Mart “如果你把数据集市视为瓶装水的存储 - 清洁和打包并容易消费的结构 - 数据湖是一个更自然状态的大量水体。数据湖的内容从一个源头填补湖泊湖泊的各种用户可以来检查潜水或采样。 在数据湖与数据仓库的关键区别上SAS研究所新兴技术总监Tamara Dull将Data Lake定义为“一个存储仓库以原生格式存储大量原始数据包括结构化半结构化和非结构化数据“。 Dull接着说“与数据仓库相比存储数据的成本相对较低。这主要有两个原因首先Hadoop是开源软件所以许可和社区支持是免费的。其次Hadoop被设计成安装在低成本的商品硬件上“ Hortonworks公司战略副总裁Shaun Connolly在他的博客文章Enterprise Hadoop和“数据湖之旅 “数据湖的特点是三个关键属性 收集一切。Data Lake包含所有数据包括长时间的原始数据源以及任何已处理的数据。 潜水在任何地方。数据湖使多个业务部门的用户可以根据自己的条款细化探索和丰富数据。 灵活的访问。Data Lake支持跨共享基础架构的多种数据访问模式批处理交互式在线搜索内存和其他处理引擎。 数据湖并不是一个快速修复所有问题的方法Bob Violino是“数据湖首席信息官需要了解的五件事”一书的作者。他说“你不能买一个现成的数据湖。供应商将Data Lakes作为大数据项目的灵丹妙药进行营销但这是一个谬论。“他引用Gartner研究总监Nick Heudecker的话说”就像数据仓库一样Data Lakes是一个概念而不是技术。数据湖的核心是数据存储策略。“ 数据湖出生于社交媒体巨人 PriceWaterhouseCooper普华永道杂志总结了数据湖中数据湖概念的起源和未来数据的承诺 “Hadoop背后的基本概念是由Google设计的旨在满足其对灵活经济高效的数据处理模式的需求这种模式可以随着数据量的增长比以往任何时候都快。雅虎FacebookNetflix以及其他基于管理大量数据的商业模式的公司也采用了类似的方法。成本当然是一个因素因为Hadoop的部署成本比传统的数据仓库要低10到100倍。采用的另一个驱动因素是推迟劳动密集型模式开发和数据清理的机会直到组织确定了明确的业务需求。数据湖泊更适合这些公司需要处理的结构较少的数据。“ 及时分析数据前进和后退 Data Lake可以在未知需求之前收集数据然后才能知道这些需求是什么因此具有巨大的潜力。数据不受数据捕获时存在的思维范围的限制而是可以自由地回答我们还不知道要问的问题“数据本身不再受初始模式决策的限制而且可以更自由地利用数据“硅谷数据科学战略副总裁Edd Dumbill在”数据湖梦“中写道。ThoughtWorks的数据博客作者Martin Fowler在一篇名为“数据湖”的文章中表示“数据湖应该包含所有的数据因为你不知道人们今天或者几年之后会发现什么有价值的东西。 BlueGranite博主兼微软云数据解决方案架构师Chris Campbell表示 “Data Lake保留所有数据。不仅仅是今天使用的数据还有可能被使用的数据甚至可能永远不会被使用的数据因为有一天它可能会被使用。数据也一直保存下来以便我们能够及时回到任何一点进行分析。“ Tamara Dull补充说Data Lake缺乏结构“使开发人员和数据科学家能够轻松地配置和重新配置他们的模型查询和应用程序”。 支持多个用户 Data Lake方法的另一个特点是可以满足各种用户的需求。整个公司的用户都可以访问数据以满足他们所能想象的任何需求 - 从集中式模式转变为更加分散式的模式“来自不同业务部门的用户有可能完善探索和丰富数据的潜力”把Data Lake工作Hortonworks和Teradata的白皮书。 Chris Campbell根据数据与数据的关系将数据用户划分为三类那些只希望在电子表格上进行日常报告的人那些进行更多分析但希望回到源头以获取最初未包括的数据的人想用数据来回答全新的问题。他说“Data Lake方法同样支持所有这些用户。” 成本有效的存储 坎贝尔还说数据湖泊相对便宜易于存储因为存储成本最小预格式化是没有必要的。“商品现成的服务器与廉价的存储相结合使数据湖的容量达到TB和PB相当经济。”根据Hortonworks和Teradata的白皮书Data Lake概念“提供了一种符合成本效益和技术上可行的方式来满足Big数据挑战“。 当心“沼泽” Martin Fowler警告说“数据湖有一个共同的批评 - 它只是一个质量差异很大的数据的倾倒地点更好地命名为”数据沼泽“批评是有效的和不相关的。”他接着说 “这些原始数据的复杂性意味着有一些东西可以将数据转换成更易于管理的结构以及减少相当大的数据量。数据湖不应该被直接访问得太多。因为数据是生的所以你需要很多技能才能做出任何意义。在数据湖中工作的人相对较少因为他们发现对湖泊数据普遍有用的观点他们可以创建一些数据集市每个数据集市都有一个单一的有限背景的特定模型。 对数据上下文的不同理解 最终用户可能不知道如何使用数据或者当数据没有策划或结构化时他们正在看什么这使得它不太有用“数据湖的根本问题是它对信息用户做出了某些假设”数据湖里的Nick Heudecker说不要把它们和数据仓库混为一谈警告Gartner。 Tamara Dull指出尽管最初希望为公司范围内的每个人提供数据访问但是像以前的举措一样全面参与的期望可能会令人失望 “很长一段时间以来这个号召力一直是BI and Analytics for everyone我们已经建立了数据仓库并邀请所有人前来但是他们来了吗平均而言有20-25的人拥有。对于Data Lake来说这是否一样的呐喊我们会建设数据湖并邀请大家来不如果你聪明。相信我数据湖在这个成熟的阶段最适合数据科学家。“ 数据湖比数据仓库更好吗 Tamara Dull指出Data Lake不是“数据仓库2.0”也不是数据仓库的替代品“因此要回答这个问题数据仓库不仅仅是数据仓库的重新审视吗我的意思是否定的。无聊的同事SAS最佳实践思想领袖Anne Buff列举了关于智能数据集体在线辩论的主要差异 数据仓库与数据湖 仓库中的数据是 结构化的已处理的 仓库的处理是模式在写 仓库中的存储是大数据量昂贵 仓库中的敏捷性是敏捷性较低固定配置 仓库的安全是成熟 仓库的用户是商业专业人士 湖泊中的数据是 结构化/半结构化/非结构化/原始的 处理湖是图解在读 在湖中储存是低成本设计 在湖中敏捷高度敏捷根据需要进行配置和重新配置 湖中的安全是成熟 数据科学家et.al. 克里斯坎贝尔看到这两个关键的区别 数据仓库 它代表了由主题领域组织的业务的抽象图片。 这是高度转变和结构。 在定义使用数据之前数据不会被加载到数据仓库中。 它通常遵循既定的方法 数据湖 所有数据都从源系统加载。没有数据被拒绝。 数据以未转换或几乎未转换的状态存储在叶级。 数据被转换模式被应用来满足分析的需要。 它支持所有用户。 它很容易适应变化并提供更快的见解。 尽管每个人都有其支持者和批评者但似乎两者都有余地“数据湖不是数据仓库”。他们都是为了不同的目的而优化的目标是用每个人的设计来做。“Tamara Dull说。换句话说使用最好的工具来完成这项工作。这不是一个新的教训。我们以前学过这个。现在我们来做吧。“ 本文 :https://architect.pub/data-lake-101-overview讨论知识星球【首席架构师圈】或者加微信小号【ca_cto】或者加QQ群【792862318】公众号  【jiagoushipro】 【架构师酒馆】 精彩图文详解架构方法论架构实践技术原理技术趋势。 我们在等你赶快扫描关注吧。微信小号  【ca_cea】 50000人社区讨论企业架构云计算大数据数据科学物联网人工智能安全全栈开发DevOps数字化.   视频号【架构师酒馆】 1分钟快速了解架构相关的基本概念模型方法经验。 每天1分钟架构心中熟。 知识星球【首席架构师圈】向大咖提问近距离接触或者获得私密资料分享。  喜马拉雅【超级架构师】路上或者车上了解最新黑科技资讯架构心得。【智能时刻架构君和你聊黑科技】微博【架构师酒馆】智能时刻哔哩哔哩【架构师酒馆】 抖音【cea_cio】架构师酒馆 小红书【cea_csa_cto】架构师酒馆  网站CIO(首席信息官)https://cio.ceo网站CIO,CTO和CDOhttps://cioctocdo.com网站架构师实战分享https://architect.pub   网站程序员云开发分享https://pgmr.cloud官网行天智能科技咨询公司https://xingtian.ai网站开发者闲谈https://blog.developer.chat网站首席隐私官内参https://cpo.work网站首席安全官内参https://cso.pub    网站CIO内参https://cio.cool网站CDO内参https://cdo.fyi网站CXO内参https://cxo.pub网站首席架构师社区https://jiagoushi.pro 谢谢大家关注转发点赞和点在看。
http://www.pierceye.com/news/735020/

相关文章:

  • 做网站需要多少个人网站logo设计
  • 新浪云 建设网站中企动力双语网站
  • 网站建设中心网站开发前端工程师
  • 网站目录结构设计应注意的问题课程平台网站建设报价
  • 南京网站排名优化费用做网站大作业的心得体会
  • 网站 三合一高端的响应式网站建设公司
  • 网站设计公司天津网站备案不关站
  • 怎样增加网站会员量微信商城怎么进入
  • 网站建设目的功能行业门户网站源码
  • 建设网站收费标准100m做电影网站
  • 怎么样自己做最简单的网站wordpress酷黑主题
  • 长沙市建设网站网站修改域名
  • 邢台企业做网站价格如何做网络推广运营
  • 番禺网站建设服务百度广告推广价格
  • 什么系统做网站最安全网络科技网站设计
  • 通州网站建设是什么查看网站开发商
  • 建设网站公司浩森宇特怎么推广公司网站
  • 来宾住房和城乡建设网站变装第三性wordpress
  • 自己开发网站怎么开发站长工具网址是多少
  • 农业交易平台网站建设成都微信网站开发
  • 十大网站app软件网站建设企业的市场分析
  • 建设网站教程视频下载企业所得税税率2019
  • 网站图片上传不了是什么原因建筑施工图设计
  • 做网站必须要公网ip个人主页网页设计教程
  • 智能家居网站开发成都家装设计公司排名榜
  • 中国建设银行门户网站企业wordpress锁
  • 购物网站建设所需软件科技部网站公布首批创新型县(市)建设名单
  • 网站访客qq抓取淘宝官网首页入口
  • 网站界面设计实训总结cp wordpress
  • 网站建设综合案例济宁北湖建设局网站