当前位置：首页 > news >正文

微信商家联盟平台快速优化seo软件推广方法

news 2025/11/12 14:52:36

微信商家联盟平台,快速优化seo软件推广方法,欧美最火的社交网站怎么做,网站布局设计一.SQL,Hive和MapReduce的关系用户在hive上编写sql语句,hive把sql语句转化为MapReduce程序去执行二.Hive架构映射流程用户接口: 包括CLI、JDBC/ODBC、WebGUI#xff0c;CLI(command line interface#xff09;为shell命令行#xff1b;Hive中的Thrift服务器允许外部客户端…一.SQL,Hive和MapReduce的关系用户在hive上编写sql语句,hive把sql语句转化为MapReduce程序去执行二.Hive架构映射流程用户接口: 包括CLI、JDBC/ODBC、WebGUICLI(command line interface为shell命令行Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。 --Hive提供了Hive Shell、ThriftServer等服务进程向用户提供操作接口 Driver包括语法解析器、计划编译器、优化器、执行器作用完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中并在随后有MapReduce调用执行。注意这部分内容不是具体的服务进程而是封装在Hive所依赖的Jar包中的Java代码中。元数据包含用Hive创建的database、table、表的字段等元信息、元数据存储存在关系型数据库中如hive内置的Derby数据库或者第三方MySQL数据库等一般用MySQL数据库。 Metastore即元数据存储服务作用是客户端连接Metastore服务Metastore再去连接MySQL等数据库来存储元数据。特点有了Metastore服务就可以有多个客户端同时连接而且这些客户端不需要知道MySQL等数据库的用户名和密码只需要Metastore服务即可。三.MetaStore元数据管理三种模式 metastore服务配置有3中模式内嵌模式、本地模式、远程模式推荐使用远程模式内嵌模式优点配置简单hive命令直接可以使用缺点不适用于生产环境derby和Metastore服务都嵌入在Hive server进程中一个服务只能被一个客户端连接如果两个客户端以上就非常浪费资源且元数据不能共享本地模式优点可以单独使用外部的数据库MySQL元数据共享缺点相对浪费资源Metastore嵌入到了hive进程中每启动一次hive服务都内置启动了一个metastore。远程模式优点可以单独使用外部库MySQL可以共性元数据本地可以连接metastore服务也可以连接hiveserver2服务增加了扩展性其他依赖hive的软件都可以通过metastore访问hive 缺点需要注意的是如果要启动hiveserver2服务需要先启动metastore服务四.hive服务操作[重点] 启动hive服务 [rootnode1 /]# nohup hive --service metastore [1] 10693 [rootnode1 /]nohup: 忽略输入并把输出追加到nohup.out[rootnode1 /]# nohup hive --service hiveserver2 [2] 10829 您在 /var/spool/mail/root 中有新邮件 [rootnode1 /]nohup: 忽略输入并把输出追加到nohup.out[rootnode1 /]# jps 2704 NodeManager 2209 DataNode 10946 Jps 10693 RunJar 3208 JobHistoryServer 2075 NameNode 2557 ResourceManager 10829 RunJar[rootnode1 /]# lsof -i:10000 COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME java 10829 root 522u IPv6 244847 0t0 TCP *:ndmp (LISTEN) 关闭hive服务 [rootnode1 /]# jps 2704 NodeManager 2209 DataNode 10946 Jps 10693 RunJar 3208 JobHistoryServer 2075 NameNode 2557 ResourceManager 10829 RunJar 您在 /var/spool/mail/root 中有新邮件 [rootnode1 /]# kill -9 10693 10829 [rootnode1 /]# jps 2704 NodeManager 2209 DataNode 10946 Jps 3208 JobHistoryServer 2075 NameNode 2557 ResourceManager [1]- 已杀死 nohup hive --service metastore [2] 已杀死 nohup hive --service hiveserver2 五.客户端连接[重点] datagrip连接hive服务创建datagrip项目连接hive 配置驱动jar包 datagrip连接MySQL 六.数据仓库和数据库数据仓库和数据库的区别数据库与数据仓库的区别:实际讲的是OLTP与OLAP的区别 OLTPOn-Line Transaction Processin:叫联机事务处理也可以称面向用户交易的处理系统主要面向用户进行增删改查 OLAPOn-Line Analytical Processing:叫联机分析处理,一般针对某些主题的历史数据进行分析主要面向分析,支持管理决策。数据仓库主要特征:面向主题的Subject-Oriented 、集成的Integrated、非易失的Non-Volatile和时变的Time-Variant 数据仓库的出现并不是要取代数据库,主要区别如下: 数据库是面向事务的设计数据仓库是面向主题设计的。数据库是为捕获数据而设计数据仓库是为分析数据而设计数据库一般存储业务数据数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余一般针对某一业务应用进行设计比如一张简单的User表记录用户名、密码等简单数据即可符合业务应用但是不符合分析。数据仓库在设计是有意引入冗余依照分析需求分析维度、分析指标进行设计。数据仓库基础三层结构源数据层ODS此层数据无任何更改直接沿用外围系统数据结构和数据不对外开放为临时存储层是接口数据的临时存储区域为后一步的数据处理做准备。数据仓库层DW也称为细节层DW层的数据应该是一致的、准确的、干净的数据即对源系统数据进行了清洗去除了杂质后的数据。数据应用层DA或APP前端应用直接读取的数据源根据报表、专题分析需求而计算生成的数据。 ETL和ELT 广义上ETL:数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL抽取Extract, 转化Transform , 装载Load的过程。但是在实际操作中将数据加载到仓库却产生了两种不同做法:ETL和ELT。狭义上ETL: 先从数据源池中抽取数据数据保存在临时暂存数据库中ODS。然后执行转换操作将数据结构化并转换为适合目标数据仓库系统的形式,然后将结构化数据加载到数据仓库中进行分析。 ELT: 从数据源中抽取后立即加载。没有专门的临时数据库ODS这意味着数据会立即加载到单一的集中存储库中,数据在数据仓库系统中直接进行转换然后进行分析七.hive数据库操作基本操作[掌握] 创建数据库: create database [if not exists] 库名 [location 路径]; 使用数据库: use 库名; 注意: location路径默认是: hdfs://node1:8020/user/hive/warehouse/库名.db 删除数据库: drop database 数据库名 [cascade]; -- hive库的核心操作 -- 创建数据库 -- 注意: 默认location路径是/user/hive/warehouse/库名.db -- 库路径: /user/hive/warehouse/hive1.db create database hive1; -- 库路径: /user/hive/warehouse/test.db create database test; -- 使用库 use hive1; -- 注意: 建库的时候可以使用location修改数据库路径 -- 库路径: /test1 create database test1 location /test1;-- 为了方便演示location效果,可以先去分别创建一个简单的表 -- 表路径:/user/hive/warehouse/hive1.db/stu create table hive1.stu(id int,name string); -- 表路径:/test1/stu create table test1.stu(id int,name string);-- 演示删除空数据库 drop database test; -- 盐水删除非空数据库 drop database test1; -- 报错,hive比较特殊,drop不能直接删除有表的库 -- dropcascade能够删除有表的库 drop database test1 cascade ; 其他操作[了解] 创建数据库: create database [if not exists] 库名 [comment 注释] [location 路径] [with dbproperties (kv)]; 修改数据库路径: alter database 库名 set location hdfs://node1.itcast.cn:8020/路径修改数据库属性: alter database 库名 set dbproperties (kv); 查看所有的数据库: show databases; 查看某库建库语句: show create database 库名; 查看指定数据库信息: desc database 库名; 查看指定数据库扩展信息: desc database extended 库名; 查看当前使用的数据库: select current_database(); -- hive库的其他操作 -- schema在hive/mysql中相当于database关键字 create schema demo1; -- comment: 建库的时候可以添加注释,建议不要中文,因为乱码 -- location: 建表的时候可以指定hdfs上库目录路径,建议使用默认路径/user/hive/warehouse/库名.db -- with dbproperties: 建表的时候可以设置属性,格式是kv,了解即可 create database demo2comment databaselocation /user/hive/warehouse/demo2.dbwith dbproperties (name bz666); create database demo3;-- 查看指定库的建库语句 show create database demo2; show create database demo3; -- 查看所有的数据库 show databases; -- 查看当前使用数据库 select current_database(); -- 查看指定库的基本信息 desc database demo2; -- 查看指定库的扩展信息 desc database extended demo2;-- 修改location路径 -- 注意: 必须是绝对路径,而且修改后的路径如果不存在,不会直接创建 alter database demo2 set location hdfs://node1.itcast.cn:8020/demo2.db; -- 以后建表的时候自动创建 create table demo2.stu(id int,name string); -- 再次查看指定库的扩展信息 desc database extended demo2;-- 修改dbproperties alter database demo2 set dbproperties(namebinzi); -- 再次查看指定库的扩展信息 desc database extended demo2; 八.Hive表概述建表语法 create [external] table [if not exists] 表名(字段名字段类型 , 字段名字段类型 , ... ) [partitioned by (分区字段名分区字段类型)] # 分区表固定格式 [clustered by (分桶字段名) into 桶个数 buckets] # 分桶表固定格式注意: 可以排序[sorted by (排序字段名 asc|desc)] [row format delimited fields terminated by 字段分隔符] # 自定义字段分隔符固定格式 [stored as textfile] # 默认即可 [location hdfs://node1.itcast.cn:8020/user/hive/warehouse/库名.db/表名] # 默认即可 ; # 注意: 最后一定加分号结尾注意: 关键字顺序是从上到下从左到右,否则报错数据类型基本数据类型: 整数: int 小数: float double 字符串: string varchar(长度) 日期: date timestamp 复杂数据类型: 集合: array 映射: map 结构体: struct 联合体: union 表分类 Hive中可以创建的表有好几种类型分别是内部表(管理表): MANAGED_TABLE 分区表分桶表外部表(非管理表): EXTERNAL_TABLE 分区表分桶表 default默认库存储路径: hdfs://node1.itcast.cn:8020/user/hive/warehouse 自定义库在HDFS的默认存储路径: hdfs://node1.itcast.cn:8020/user/hive/warehouse/库名.db 自定义表在HDFS的默认存储路径: hdfs://node1.itcast.cn:8020/user/hive/warehouse/库名.db/表名业务数据文件在HDFS的默认存储路径: hdfs://node1.itcast.cn:8020/user/hive/warehouse/库名.db/表名/业务数据文件内部表和外部表区别? 内部表: 未被external关键字修饰的即是内部表即普通表。内部表又称管理表,还可以叫托管表删除内部表:直接删除元数据metadata和存储数据本身外部表: 被external关键字修饰的即是外部表即关联表。还可以叫非管理表或非托管表删除外部表:仅仅是删除元数据metadata不会删除存储数据本身 -- 内部表(又叫管理表或者托管表) create table stu1(id int,name string ); -- 外部表(又叫非管理表,非托管表) create external table stu2(id int,name string ); -- 查看表结构 desc stu1; desc stu2; -- 查看表格式化信息 desc formatted stu1; -- 内部表类型: managed_table desc formatted stu2; -- 外部表类型: external_table-- 演示内外部表的重点区别 -- 删除内部表(管理表/托管表),会删除表相关的所有数据 insert into stu1 values(1,张三); drop table stu1; -- 删除外部表,只删除了元数据,hdfs中业务数据保留 insert into stu2 values(1,张三); drop table stu2; -- 再次建表后,可以使用location重新关联原来hdfs保留的业务数据 create external table stu22(id int,name string )location /user/hive/warehouse/hive1.db/stu2; -- 验证数据 select * from stu22 limit 10;

查看全文

http://www.pierceye.com/news/288731/