当前位置: 首页 > news >正文

网站开发常用的语言和工具政协网站法治建设版块

网站开发常用的语言和工具,政协网站法治建设版块,网站建设招标采购需求,英语网站开发的背景目录 一 . SparkSQL简介 二 . Spark SQL与HIVE的异同 三 . DataFrame 1. 创建 DataFrame 2. RDD转换DataFrame 四 . 操作DataFrame SQL方式: DSL方式: 一 . SparkSQL简介 Spark SQL只能处理结构化数据 ,属于Spark框架一个部分 Schema:元数据信息 特点: 融合性 ,统一数…目录 一 . SparkSQL简介 二 . Spark SQL与HIVE的异同  三 . DataFrame 1. 创建 DataFrame 2. RDD转换DataFrame 四 . 操作DataFrame SQL方式: DSL方式: 一 . SparkSQL简介 Spark SQL只能处理结构化数据 ,属于Spark框架一个部分  Schema:元数据信息 特点: 融合性 ,统一数据访问,hive兼容 , 标准化连接   将hive sql翻译成Spark上对应的RDD操作 ,底层运行SparkRDD  DataFrames是在RDD上面增加与省略了一些东西 DataFrame    RDD -泛型 Schema  方便到的SQL操作 优化  ,是个特殊的RDD RDD存储任意结构数据  ;         DataFrame存储二维表结构数据 二 . Spark SQL与HIVE的异同  1- Spark SQL是基于内存计算, 而HIVE SQL是基于磁盘进行计算的 2- Spark SQL没有元数据管理服务(自己维护), 而HIVE SQL是有metastore的元数据管理服务的 3- Spark SQL底层执行Spark RDD程序, 而HIVE SQL底层执行是MapReduce 4- Spark SQL可以编写SQL也可以编写代码但是HIVE SQL仅能编写SQL语句 三 . DataFrame DataFrame表示的是一个二维的表。二维表必然存在行、列等表结构描述信息 表结构描述信息(元数据Schema): StructType对象 字段: StructField对象可以描述字段名称、字段数据类型、是否可以为空 行: Row对象 列: Column对象包含字段名称和字段值 在一个StructType对象下由多个StructField组成构建成一个完整的元数据信息 1. 创建 DataFrame import os from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession# 绑定指定的Python解释器 os.environ[SPARK_HOME] /export/server/spark os.environ[PYSPARK_PYTHON] /root/anaconda3/bin/python3 os.environ[PYSPARK_DRIVER_PYTHON] /root/anaconda3/bin/python3if __name__ __main__:spark SparkSession.builder.appName(创建DataFrame)\.master(local[*]).getOrCreate()init_df spark.createDataFrame(data[(1,张三,18),(2,李四,40),(3,王五,60)],schemaid:int,name:string,age:int)init_df2 spark.createDataFrame(data[(1, 张三, 18), (2, 李四, 30),(3,王五,60)],schema[id,name,age])init_df.show()----------| id|name|age|----------| 1|张三| 18|| 2|李四| 30|----------init_df2.show()init_df.printSchema()root|-- id: integer (nullable true)|-- name: string (nullable true)|-- age: integer (nullable true)init_df2.printSchema()root|-- id: long (nullable true)|-- name: string (nullable true)|-- age: long (nullable true)spark.stop() 2. RDD转换DataFrame from pyspark import SparkConf, SparkContext import os from pyspark.sql import SparkSession# 绑定指定的Python解释器 from pyspark.sql.types import StructType, IntegerType, StringType, StructFieldos.environ[SPARK_HOME] /export/server/spark os.environ[PYSPARK_PYTHON] /root/anaconda3/bin/python3 os.environ[PYSPARK_DRIVER_PYTHON] /root/anaconda3/bin/python3if __name__ __main__:# 1- 创建SparkSession对象spark SparkSession.builder\.appName(rdd_2_dataframe)\.master(local[*])\.getOrCreate()# 通过SparkSession得到SparkContextsc spark.sparkContext# 2- 数据输入# 2.1- 创建一个RDDinit_rdd sc.parallelize([1,李白,20,2,安其拉,18])# 2.2- 将RDD的数据结构转换成二维结构new_rdd init_rdd.map(lambda line: (int(line.split(,)[0]),line.split(,)[1],int(line.split(,)[2])))# 将RDD转成DataFrame方式一# schema方式一schema StructType()\.add(id,IntegerType(),False)\.add(name,StringType(),False)\.add(age,IntegerType(),False)# schema方式二schema StructType([StructField(id,IntegerType(),False),StructField(name,StringType(),False),StructField(age,IntegerType(),False)])# schema方式三schema id:int,name:string,age:int# schema方式四schema [id,name,age]init_df spark.createDataFrame(datanew_rdd,schemaschema)# 将RDD转成DataFrame方式二toDF中的schema既可以传List也可以传字符串形式的schema信息# init_df new_rdd.toDF(schema[id,name,age])init_df new_rdd.toDF(schemaid:int,name:string,age:int)# 3- 数据处理# 4- 数据输出init_df.show()init_df.printSchema()# 5- 释放资源sc.stop()spark.stop()四 . 操作DataFrame SQL方式: df.createTempView(视图名称): 创建一个临时的视图(表名) df.createOrReplaceTempView(视图名称): 创建一个临时的视图(表名)如果视图存在直接替换 临时视图仅能在当前这个Spark Session的会话中使用 df.createGlobalTempView(视图名称): 创建一个全局视图运行在一个Spark应用中多个spark会话中都可以使用。在使用的时候必须通过 global_temp.视图名称 方式才可以加载到。较少使用 DSL方式: show()用于展示DF中数据, 默认仅展示前20行 参数1设置默认展示多少行 默认为20 参数2是否为阶段列, 默认仅展示前20个字符数据, 如果过长, 不展示(一般不设置) printSchema()用于打印当前这个DF的表结构信息 select()类似于SQL中select, SQL中select后面可以写什么, 这样同样也一样 filter()和 where()用于对数据进行过滤操作, 一般在spark SQL中主要使用where groupBy()用于执行分组操作 orderBy()用于执行排序操作
http://www.pierceye.com/news/676600/

相关文章:

  • 网站的验证码是怎么做的wordpress团购插件
  • 邯郸网站设计注册贵阳网站建设天锐科技
  • 网站建设服务费税率多少WordPress文档批量发布接口
  • 云服务器网站配置网页界面设计中一般使用的分辨率是多少
  • 网站域名销售wordpress文章入口设置
  • 上海做网站较好的公司c 做网站
  • 代发货网站系统建设螺栓球网架
  • 做书的网站有哪些内容吗电商平台定制
  • 网站建设与推广长春云电脑永久免费版手机版
  • 营销型网站建设优化建站坂田建设网站
  • 大型网站方案自己做网站详细流程
  • 网站开发中为什么有两个控制层南昌网站建设技术托管
  • 网站如何加入百度联盟易名中国网站
  • 海报在线制作免费网站网站建设费用明细湖南岚鸿
  • 宝塔服务器搭建网站教程盐城网站建设兼职
  • 南京网站制作公司怎么样wordpress思维导图
  • 学校网站建设和维护情况沈阳网页设计公司有哪些
  • 安徽网站建设电话网站建设动态静态
  • 网站建设规划设计公司排名摄影公司网站开发
  • php安防企业网站源码seo中文
  • 用什么开发和建设网站最好wordpress登录安全插件
  • 做网站哪个服务商便宜wordpress添加script
  • dede wap网站外贸客户开发的渠道有哪些
  • 营销型网站网站设计免费域名注册 国外
  • 杭州网站制作公司网站厦门网站建设 首选猴子网络
  • 公司如何建站合肥网站设计
  • wordpress单页导出wordpress head 优化
  • 建筑模版东莞网站建设技术支持北京网页制作服务商
  • 网站html地图怎么做的wordpress 国内视频网站
  • 哪个网站做的简历比较好龙岗做网站公司icxun