当前位置: 首页 > news >正文

网站改版方案策划书龙川网站建设

网站改版方案策划书,龙川网站建设,做网站如何报价,东莞公司注册官网目录 RDD概念RDD特点建立RDD的方式不同工具建立RDD的方式使用PySpark Shell(交互环境)建立RDD使用VSCode编程建立RDD使用Jupyter Notebook建立RDD 总结 PySpark实战笔记系列第一篇 RDD概念 Apache Spark的核心组件的基础是RDD。所谓的RDD#xff0c;即弹性分布式数据集#… 目录 RDD概念RDD特点建立RDD的方式不同工具建立RDD的方式使用PySpark Shell(交互环境)建立RDD使用VSCode编程建立RDD使用Jupyter Notebook建立RDD 总结 PySpark实战笔记系列第一篇 RDD概念 Apache Spark的核心组件的基础是RDD。所谓的RDD即弹性分布式数据集Resiliennt Distributed Datasets基于RDD可以实现Apache Spark各个组件在多个计算机组成的集群中进行无缝集成从而能够在一个应用程序中完成海量数据处理。 RDD特点 只读不能修改只能通过转换操作生成一个新的RDD。 分布式存储一个RDD通过分区可以分布在多台机器上进行并行数据处理。 内存计算可以将全部或部分数据缓存在内存中且可在多次计算过程中重用。 具有弹性在计算过程中当内存不足时可以将一部分数据落到磁盘上处理 建立RDD的方式 用parallelize方法建立RDD这种方式非常简单主要用于进行练习或者测试。用range方法建立RDD这种方式和parallelize方法类似一般来说主要用于进行测试。使用textFile方法建立RDD这种方式一般用于在本地临时性地处理一些存储了大量数据的文件。它依赖本地文件系统因此可以不需要Hadoop环境。使用HDFS建立RDD这种方式使用HDFS文件建立RDD需要依赖Hadoop集群环境它应该是最常用的一种生产环境下的数据处理方式。它可以针对HDFS上存储的海量数据进行离线批处理操作。 不同工具建立RDD的方式 使用PySpark Shell(交互环境)建立RDD 在安装完成Spark环境后就具备了Shell这款工具。其中Spark Shell是针对Scala语言的而PySpark Shell则是针对Python语言的。 使用PySpark Shell工具的方式在命令行输入如下命令pyspark PySpark Shell默认会自动创建sc对象和spark对象因此可以在交互环境中直接进行调用而无须手动创建。这里sc对象是SparkContext的实例而spark对象是SparkSession的实例。 使用VSCode编程建立RDD 在VSCode中以编程方式需要手动创建SparkContext实例。 首先需要用from pyspark import SparkConf, SparkContext导入SparkConf和SparkContext。confSparkConf().setAppName(“WordCount”).setMaster(local[**])**创建了一个SparkConf实例其中用setAppName设置了本次程序的名称用setMaster设置了Spark Master的方式为local[]。**scSparkContext(confconf)**创建SparkContext实例sc这与PySparkShell默认创建的sc对象类似。SparkContext不能一次运行多个否则会报ValueError: Cannot run multipleSparkContexts at once; existing SparkContext的错误。因此需要用sc.stop()命令关闭SparkContext实例对象。 需要用pip3 install findspark命令安装findspark否则可能会提示无法找到pyspark模块的错误ModuleNotFoundError: No module named ‘pyspark’。 示例界面 使用Jupyter Notebook建立RDD 编码方式类似VS Code不过它的好处是 可以对多个代码以文件的形式进行组织可以用于编写文档。更高级的是可以显示图形和运算结果。因此使用这种基于Web的部署方式可以让多个客户端同时使用且可共享代码示例真正做到图文并茂地进行编程。 总结 ** 1.sc对象的两种创建方式** 方式一通过SparkConf创建from pyspark import SparkConf,SparkContext # 创建SparkContext即sc对象 conf SparkConf().setAppName(Demo)\.setMaster(local[*]) sc SparkContext(confconf)方式二通过SparkSession创建from pyspark.sql import SparkSession spark SparkSession.builder \.master(local[*]) \.appName(Demo) \.getOrCreate(); # 创建SparkContext即sc对象 sc spark.sparkContext2.完整的常用pyspark编程开头示例 根据上述两种sc的创建方式对应的常用的编程开头方式即在上述样例的开头加上如下代码 import findspark findspark.init()参考资料《Python大数据处理库PySpark实战》
http://www.pierceye.com/news/811052/

相关文章:

  • 口碑好的网站开发公司哪家最专业网站优化关键词是怎么做的
  • 一级a做爰片免费网站天天看专业网站建设公司推荐
  • 套模版做的网站好优化吗win10系统优化软件
  • 红酒营销 网站建设网站建设多少钱一年
  • 公众号注册入口官网seo排名的影响因素有哪些
  • 化妆品网站素材wordpress广告插件中文
  • 设计iphone手机网站网站开发怎么才能接到私活
  • 做网站美工排版提升学历英语翻译
  • 旅游网站建设服务对象微信第三方做网站需要费用吗
  • 能下载的网站soap公司网站
  • 肇庆网站推广排名花都网页设计
  • 网站后台素材wordpress适用linux
  • 开发一个app大概需要多少钱seo按照搜索引擎的什么对网站
  • 比较好的网站建设公司电话珠海开发网站公司
  • 响应式网站怎么做无缝轮播图网站域名在哪里
  • 大连网站建设设计公司哪家好临海市城乡建设规划局网站
  • 福州商城网站建设网站建设的域名和空间价位
  • 如何做外卖网站网页设计照片
  • 长沙河西做网站自己做的网站怎么设置文件下载
  • 计算机本科论文 网站建设wordpress如何添加关键词和描述
  • div嵌套影响网站收录唐山做网站多少钱
  • 做网站挂谷歌广告赚钱吗windows优化大师自动安装
  • 网站下一步工作怎么做网上最好购物网站
  • OA 公司网站 铁道建设报自驾游网站建设
  • wordpress建站网站根目录短视频怎么赚钱
  • 亳州网站开发公司wordpress 添加分享
  • 如何查询网站接入信息移动网站开发框架
  • 河南做网站的百度竞价推广收费标准
  • 深圳的深圳的网站建设公司校园网站建设方向
  • 电商网站建设 解决方案的设计营销策略都有哪些方面