当前位置: 首页 > news >正文

设计师采集网站做网站多钱一年

设计师采集网站,做网站多钱一年,工程建设分为哪几个阶段,wordpress 分类p目录 一 . RDD(弹性分布式数据集) 二 . RDD的五个特性 三 .RDD的五大特点 四 . 算子 五 . 分区算子 ,重分区算子 , 聚合算子 ,关联算子 分区算子: 重分区算子 聚合算子 关联算子: 一 . RDD(弹性分布式数据集) Resilent弹性 Distrbuted分布式 Dataset数据集…  目录 一 . RDD(弹性分布式数据集) 二 . RDD的五个特性 三 .RDD的五大特点 四 . 算子   五 .  分区算子 ,重分区算子 , 聚合算子 ,关联算子 分区算子: 重分区算子 聚合算子 关联算子: 一 . RDD(弹性分布式数据集) Resilent弹性    Distrbuted分布式        Dataset数据集 1. rdd是Spark底层的数据结构  2. Task 在Spark中就是线程  3 . RDD中的一个分区就是一个线程,分区数有多少线程数就有多少   ,set Master local里设置的就是线程 4. 使用 sc.parallelize(result)构建rdd,他的分区数量是受setMaster的local数影响的,你设置多少个就是多少分区 ; 如果这里写local[*],就会默认分区数是cpu核数  ;   如果在参数里有设置numslices, name就以参数的这个数量为分区数 5. 使用 sc.textfile构建RDD , 把setMaster 的local[]的值设置大于2的时候,不生效,分区的数量还是2  , 但是调小会生效 ; 在minPartitions里没有设置参数,那么一般就根据公式min(spark.default.parallelism,2) 在参数里设置 minPartitions, 这个参数设置的是最小分区的,所以得出来分区数是大于等于minPartitions设置的数的, 个别情况底层也会有优化,钥匙设置100,可能会出来36, 总之到底是多少没法保证 ; 6. 使用wholeTextFile 构建RDD, setMaster 的local 数量 ,minPartitions , 文件的具体数量 ,都会影响分区的数量, 当设置了minPartitions的时候,最大的分区数量为 文件的最大数量 # 查看分区数的命令 data [1,2,3,4,5,6] init_rdd sc.parallelize(data) print(init_rdd.getNumPartitions()) # 查看分区数 init_rdd sc.textFile( file:///export/data/2024.1.2_Spark/1.2_day01/content.txt  , minPartitions10  ) 7 .RDD 的分区数据量受到多个因素,例如:机器Cpu的核数 , 调用的算子 , 算子中参数的设置, 集群的类型等 . 实际中一般设置分区数量为cpu核数的两到三倍, 其目的是为了防止类似数据倾斜等现象,一个服务器忙死一个闲死 ;  二 . RDD的五个特性 1、必须的RDD是有一系列分区组成的 2、必须的对RDD做计算相当于对RDD的每个split或分区做计算 3、必须的RDD之间存在着依赖关系宽依赖和窄依赖 4、可选的对于KV类型的RDD我们可以进行自定义分区方案 5、可选的移动数据不如移动计算让计算程序离数据越近越好 三 .RDD的五大特点 1、分区RDD逻辑上是分区的仅仅是定义分区的规则并不是直接对数据进行分区操作因为RDD本身不存储数据。 2、只读RDD是不可变类型,RDD是只读的要想改变RDD中的数据只能在现有的RDD基础上创建新的RDD。 3、依赖RDD之间存在着依赖关系宽依赖和窄依赖 4、缓存如果在应用程序中多次使用同一个RDD可以将该RDD缓存起来该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据 5、checkpoint与缓存类似的都是可以将中间某一个RDD的结果保存起来只不过checkpoint支持持久化保存,检查点成为了Spark的容错性,持久化 四 . 算子   RDD对象中提供了非常多的具有特殊功能的函数,我们将这些函数称为算子(函数/方法/API) Spark算⼦有两类分别是transformation算⼦和action算⼦。 ● Transformation算⼦有mapmapPartitionsgroupByfilterdistinctrepartitionunion reduceByKeygroupByKeyJoinaggregateByKey等。 ● Action算⼦有reducecollectcountsavecountByKeyaggregatetake。 在代码执行时,transfor的算子直接打印不会有结果,需要加.collect  ;  action算子就可以直接打印 flatmap和map的区别 :         flatmap把split切分后的东西全部放在了一起 , map就只是一对一的 在打印输出的时候如果返回的是可迭代对象,就要在算子后面加 .mapValues(list).collect() 五 .  分区算子 ,重分区算子 , 聚合算子 ,关联算子 分区算子: Map和mapPartitions的区别 1 Map 每次处理⼀条数据 2 mapPartitions 每次处理⼀个分区数据 假如有10亿个数据要处理 foreach  一次处理10亿个 foreachPartition       10次处理,每次循环处理1亿个. 如果有反复消耗资源的操作,比如打开和关闭文件 ,数据库的关闭和连接 , 能够减少操作的次数 如果没有反复消耗资源的操作,那两种方法都一样 重分区算子 repartitions :重新修改RDD分区数, 可以增大和减少,只要有向无环图中间有两个stage,那stage之间就进行了shuffle过程,底层起始也是调用了coalesce, shuffle默认设了True ;  coalesce : 默认情况下减少RDD分区数 ,不会shuffle, shuffle过程会慢  ,在后面 传入参数shuffle True ,就可以增加RDD分区数 rdd.coalesce(5,shuffleTrue) partition by 算子 : 该算子主要是用来改变key-value键值对数据类型RDD的分区数的。num表示要设置的分区数fn参数是可选用来让用户自定义分区规则。 聚合算子 reduce():根据传入的函数对数据进行聚合处理 fold: aggregate: reduceByKey具有预聚合操作 groupByKey没有预聚合 在不影响业务逻辑的前提下优先采⽤reduceByKey。 关联算子: join实现两个RDD的join关联操作 leftOuterJoin实现两个RDD的左关联操作 rightOuterJoin实现两个RDD的右关联操作 fullOuterJoin实现两个RDD的满外全外关联操作
http://www.pierceye.com/news/186078/

相关文章:

  • 昆明做网站建设找谁最新版在线 网
  • 东昌府聊城网站建设网站广告做的好的企业案例分析
  • asp三层架构做网站网站开发前端基础
  • 医院网站建设方案策划书把网站做成app的软件下载
  • 网站建设实践报告3000字wordpress消息提示插件
  • 网站制作的评价标准做网站后台需要什么
  • 学院网站建设服务宗旨实惠的网站建设产品
  • 网站改名 备案影视制作
  • 网站开发亿码酷技术网站建设选谋者
  • 智能家居网站模板怎样做网站标题优化
  • 深圳制作网站制作公司哪家好最简洁 wordpress主题
  • 重庆忠县网站建设公司推荐国内公关公司
  • 给彩票网站做代理违法吗wordpress文章与页面关联
  • 网站标题加后缀模拟ip访问网站
  • 临清网站建设费用什么是网络营销的基础
  • 街道办的网站由谁做的企业首次建设网站的策划流程
  • 优化大师免费版下载一键优化下载安装
  • 网站建设近五年出版的书籍甘肃省工程建设信息官方网站
  • 杭州网站现场备案项目营销策划方案
  • 网站打包成app软件php网站 上传
  • 行业网站建设策划方案系部网站开发计划书
  • 建设部网站投诉核查做网站一般几个人
  • 360网站推广官网网址怎样在网站做咨询医生挣钱
  • 重庆市建设银行网站一站式网站建设有哪些
  • 自学设计软件的免费网站免费ppt模板简约
  • 申请个人网站怎么申请网站类型有哪些
  • 做网站推广托管注意哪个网站做推广好
  • 大竹网站建设泗阳城乡建设局网站
  • 山东省住房和城乡建设厅服务网站做网站的注意点
  • 网站排名优化软件江西网站备案要求