当前位置: 首页 > news >正文

北京网站建设w亿玛酷1专注网站怎么做用户体验

北京网站建设w亿玛酷1专注,网站怎么做用户体验,小说网站如何做,重生做门户网站的小说作者丨HappyMint文章选摘#xff1a;大数据与人工智能这是作者的第7篇文章本文主要针对从事大数据分析和架构相关工作#xff0c;需要与hive打交道但目前对hive还没有进行深层次了解的小伙伴#xff0c;希望本文会让你对hive有一个快速的了解。内容主要包括什么是hive、为什… 作者丨HappyMint文章选摘大数据与人工智能这是作者的第7篇文章本文主要针对从事大数据分析和架构相关工作需要与hive打交道但目前对hive还没有进行深层次了解的小伙伴希望本文会让你对hive有一个快速的了解。内容主要包括什么是hive、为什么要有hive、hive的架构、hive的数据组织以及hive的使用之DDL操作。1.什么是 hive?1  是基于 Hadoop 的一个数据仓库工具2  可以将结构化的数据映射为一张数据库表3  并提供 HQL(Hive SQL)查询功能4  底层数据是存储在 HDFS 上5  Hive的本质是将 SQL 语句转换为 MapReduce、Tez 或者 spark 等任务执行6  适用于离线的批量数据计算。2. 为什么要有 hive? 如上文第5点已经提到的hive可以封装MapReduce、Tez、Spark等这些引擎的处理过程让使用者在不了解这些计算引擎具体执行细节的情况下就可以处理数据使用者只需要学会如何写sql即可。hive可很好的解决直接使用 MapReduce、Tez、Spark等时所面临的两个主要问题① 直接使用 MapReduce、Tez、Spark学习成本太高因为需要了解底层具体执行引擎的处理逻辑而且需要一定的编码基础而Hive提供直接使用类sql语言即可进行数据查询和处理的平台或接口只要使用者熟悉sql语言即可② MapReduce、Tez、Spark实现复杂查询逻辑开发难度大因为需要自己写代码实现整个处理逻辑以及完成对数据处理过程的优化而hive将很多数据统计逻辑封装成了可直接使用的窗口函数且支持自定义窗口函数来进行扩展而且hive有逻辑和物理优化器会对执行逻辑进行自动优化。3. hive的架构  作为hadoop的一个数据仓库工具hive的架构设计如下可以看出Hive的内部架构总共分为四大部分1  用户接口层(cli、JDBC/ODBC、Web UI)(1) cli (Command Line Interface)shell终端命令行通过命令行与hive进行交互(2) JDBC/ODBC是 Hive 的基于 JDBC 操作提供的客户端用户(开发员运维人员)通过客户端连接至 Hive server 服务(3)Web UI通过浏览器访问hive。2  元数据存储系统(1)  元数据 通俗的讲就是存储在 Hive 中的数据的描述信息(2)Hive 中的元数据通常包括表的名字表的列和分区及其属性表的属性(内部表和 外部表)表中数据所在的目录(3)Metastore 默认存在自带的 Derby 数据库或者我们自己创建的 MySQL 库中(4)Hive 和 MySQL或Derby 之间通过 MetaStore 服务交互。3  Thrift Server-跨语言服务Hive集成了Thrift Server让用户可以使用多种不同语言来操作hive。4  Driver(Compiler/Optimizer/Executor)Driver完成HQL查询语句的词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS上并由MapReduce调用执行。整个过程的执行步骤如下(1) 解释器完成词法、语法和语义的分析以及中间代码生成最终转换成抽象语法树(2) 编译器将语法树编译为逻辑执行计划(3) 逻辑层优化器对逻辑执行计划进行优化由于Hive最终生成的MapReduce任务中而Map阶段和Reduce阶段均由OperatorTree组成所以大部分逻辑层优化器通过变换OperatorTree合并操作符达到减少MapReduce Job和减少shuffle数据量的目的(4) 物理层优化器进行MapReduce任务的变换生成最终的物理执行计划(5) 执行器调用底层的运行框架执行最终的物理执行计划。4. hive的数据组织  通过上文对hive的内部架构进行的介绍和解析相信大家对一条查询语句的整个底层执行过程有了一点概念接下来我们再来了解下hive的另一个重要知识点即查询语句中用到的库表相关方面的知识——hive的数据组织方式。hive数据组织1  Hive 的存储结构包括 数据库、表、视图、分区和表数据 等。数据库表分区等都对应HDFS上的一个目录。表数据对应 HDFS 对应目录下的文件。2  Hive 中包含以下数据模型 database 在 HDFS 中表现为${hive.metastore.warehouse.dir}或者指定的目录下的一个文件夹 table 在 HDFS 中表现为某个 database 目录下一个文件夹 external table 与 table 类似在 HDFS 中也表现为某个 database 目录下一个文件夹 partition 在 HDFS 中表现为 table 目录下的子目录 bucket 在 HDFS 中表现为同一个表目录或者分区目录下根据某个字段的值进行 hash 散列之后的多个文件 view 与传统数据库类似只读基于基本表创建。3  Hive 中的表分为内部表、外部表、分区表和 Bucket 表。 内部表和外部表的区别1.内部表数据由Hive自身管理外部表数据由HDFS管理2.删除内部表会直接删除元数据(metadata)及存储数据删除外部表仅仅会删除元数据HDFS上的文件并不会被删除。 分区表和分桶表的区别1.分区表Hive 数据表可以根据某些字段进行分区操作细化数据管理让部分查询更快2.分桶表表和分区也可以进一步被划分为桶分桶表中的数据是按照某些分桶字段进行 hash 散列形成的多个文件。5. hive的使用之DDL操作关于hive的DDL(Data Definition Language)操作以下分为库和表两方面来归纳库(1) 创建库(2) 查看库(3) 删除库(4) 切换库表1 创建表(1)创建默认的内部表(2)创建外部表(3)创建分区表添加分区(4)创建分桶表(5)使用CTAS创建表从一个查询SQL的结果来创建一个表进行存储(6)复制表结构2 查看表(1) 查看表列表(2) 查看表的详细信息(3) 修改表(4) 删除表(5) 清空表结语本文主要整体性的给大家介绍了下什么是hive、使用hive的原因、hive的架构、hive的数据组织以及hive的DDL操作希望阅读完本文的小伙伴们对hive有一个快速的了解。-END-
http://www.pierceye.com/news/152624/

相关文章:

  • 建企业网站价格wordpress稳定吗
  • 免费1级做爰网站研发项目管理系统
  • 建设网站好公司石家庄招聘求职信息网
  • 杭州市建筑业协会官网在线seo推广软件
  • 网站建设策划师管理网站建设
  • 做搜狗网站排名首页公司取名生成器免费
  • 用模板搭建的网站备案吗官方网站平台下载软件
  • 网站建设和网络推广方案济宁网站建设那家好
  • 做网站用哪个软件写比较好电商运营团队结构图
  • 建设领域信用系统网站邢台网站建设讯息
  • 建设网站技术人员先进事迹无锡有哪些做网站的公司
  • 2016网站设计欣赏企业网站推广建设
  • 国外简洁的网站跨境电商服务平台有哪些
  • 国内做网站技术支持 网站建设
  • 绍兴做团购的网站织梦转易优cms
  • 百度 网站 质量度扬州市工程建设招标网
  • 营销网站建设流程图优化营商环境发言稿
  • 设计网站公司有哪些怎么做网店
  • 高端的网站设计费用外贸营销型网站建设平台
  • 买源码做网站简单嘛贵阳百度seo点击软件
  • 省建设注册管理网站网站的维护和推广
  • wordpress 插件站wordpress本地mp3
  • 爱站工具包的主要功能很有设计感的企业网站
  • 地下城钓鱼网站如何做iis添加网站无法访问
  • 招聘网站大全网站开发liucheng
  • erlang做网站优势深圳集团网站建设公司好
  • 烟台公司建网站seo网站推广 沈阳
  • 没有网站做APP企业网站模板建站
  • 国内炫酷的网站首页网站开发交易平台
  • 大型网站建设公司制作网站好大夫在线免费咨询