当前位置: 首页 > news >正文

wordpress网站做app佛山专业英文网站建设

wordpress网站做app,佛山专业英文网站建设,学校网站建设运行情况简介,建网站是怎么造成的目录 一、ETL计算引擎定义 二、ETL计算引擎的功能和特性 三、6种ETL计算引擎 1、MapReduce 2、Tez 3、Spark 4、Flink 5、ClickHouse 6、Doris 一、ETL计算引擎定义 ETL#xff08;Extract, Transform, Load#xff09;计算引擎是用于执行ETL过程中数据转换阶段的关键组件之一… 目录 一、ETL计算引擎定义 二、ETL计算引擎的功能和特性 三、6种ETL计算引擎 1、MapReduce 2、Tez 3、Spark 4、Flink 5、ClickHouse 6、Doris 一、ETL计算引擎定义 ETLExtract, Transform, Load计算引擎是用于执行ETL过程中数据转换阶段的关键组件之一。它负责处理从不同数据源抽取的数据并根据预定义的转换规则进行数据的清洗、整合、计算和格式化等操作最终将处理后的数据加载到目标系统如数据库、数据仓库等中。ETL计算引擎是ETL过程中的核心技术组件通过其强大的数据处理能力和功能特性可以实现从多源数据提取、转换到加载目标系统的全流程数据管理和处理。 二、ETL计算引擎的功能和特性 1.数据清洗和验证 对从源系统抽取的数据进行清洗确保数据的准确性和一致性。这可能包括去除重复数据、处理缺失值、统一数据格式等操作。 2.数据转换 根据预定义的业务逻辑和转换规则对数据进行转换和计算。例如可以进行数据格式化、计算衍生字段、进行数学运算或逻辑运算等。 3.数据映射和重构 将来自不同数据源的数据映射到目标系统的数据模型中。这可能涉及到对数据结构进行重构以适应目标系统的数据模式。 4.性能优化 处理大量数据时ETL计算引擎需要具备高效的性能和处理能力以确保数据转换和加载的速度和效率。 5.任务调度和监控 管理和监控ETL任务的执行包括调度任务的执行时间、任务失败时的错误处理以及实时监控任务执行状态等功能。 6.容错和恢复能力 在处理过程中ETL计算引擎需要具备容错机制以应对突发情况或异常确保数据处理的稳定性和完整性。 7.扩展性和灵活性 支持多种数据源和目标系统以及灵活的配置选项和定制化需求以满足不同业务场景下的数据处理要求。 三、6种ETL计算引擎 1、MapReduce MapReduce是一种用于处理大规模数据集的并行计算模型通常运行在Hadoop等分布式计算平台上能够处理数十亿条记录和数百台计算机组成的大规模数据集。MapReduce采用“分而治之”策略将一个存储在分布式文件系统中的大规模数据集切分成许多独立的分片这些分片可以被多个Map任务并行处理。Map和Reduce函数可以由用户自定义实现这样MapReduce可以适用于各种不同的计算任务。 然而MapReduce模型也存在以下缺陷 1. 抽象层次较低开发者需要手工完成大量的底层逻辑这使得开发变得复杂且难以维护。 2. 只提供Map和Reduce操作许多现实中的场景并不适用于该模型实现复杂的操作需要技巧从而导致整个工程庞大且难以维护。 3. 系统延迟Hadoop中每个Job的计算结果都存储在HDFS中每次计算都需要进行硬盘的读取和写入导致系统延迟增加。 因此随着大数据场景不断发展一些新的计算框架模型也正在逐渐浮出水面例如下面将要介绍的Apache Spark、Apache Flink等。这些框架模型推动了大数据处理的快速、高效和灵活发展并且正在逐步替代MapReduce。 MapReduce 工作流程 2、Tez Hadoop虽然能处理大规模数据且具有良好的水平扩展性但对用户而言使用难度仍然很大。因此Hive的出现恰好解决了这个问题这使得Hive被迅速推广并成为大数据时代数据仓库组件的代名词。 Hive使用HDFS作为存储使用MapReduce作为计算引擎。 为了解决Hive执行性能太差的问题在计算引擎方面出现了Tez。 Tez是一款开源的计算框架支持DAG有向无环图Directed Acyclic Graph作业。Tez将Map/Reduce过程拆分成若干个子过程并可以将多个Map/Reduce任务组合成一个较大的DAG任务减少了Map/Reduce之间的文件存储并且通过合理组合子过程可以减少任务的运行时间。加上内存计算Tez的计算性能实际上可以与Spark相媲美。 MR 与 Tez 的比较 3、Spark Apache Spark是一个以速度、易用性和复杂分析为基础的大数据处理框架。Apache Spark具有广泛的应用场景包括 1. 离线计算使用算子或SQL执行大规模批处理对标MapReduce、Hive。同时提供了对各种数据源的读写支持。 2. 实时处理以一种微批的方式使用各种窗口函数对流式数据进行实时计算。主要实现在这两部分Spark Streaming、Structured StreamingSpark 2.3版本推出。 3. MLlib一个常用的机器学习算法库算法被实现为对RDD的Spark操作。该库包含各种可扩展的学习算法例如分类、回归等需要对大量数据集进行迭代操作的算法。 4. GraphX控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API包含控制图、创建子图、访问路径上所有顶点的操作等。 SparkUI Stage 页面 在Spark中内置的数据结构有RDD、DataFrame和DataSet其中 1. RDD弹性分布式数据集它代表一个可以被分区partition的只读数据集内部可以有很多分区每个分区又有大量的数据记录record。RDD是已被分区、不可变的数据集可以被并行操作。 2. DataFrame可以被视为一种特殊的DataSet。 3. DataSetSpark 1.6版本引入的接口类似于关系型数据库中的表提供数据表的schema信息比如列名、列数据类型等。 RDD、DataFrame、DataSet 对比 4、Flink Flink是一个强大而灵活的分布式数据处理框架被广泛地应用于流式数据处理和批处理任务并且具有许多优点如高性能、低延迟、强大的容错性、支持多种数据源和格式、易于使用等等。Flink的架构设计基于基于流的数据流和基于批处理的数据集两个API这使得它非常灵活可以适应各种数据处理任务的需求。Flink提供了多种高抽象层的API用于分布式任务的编写如 1. DataSet API用于处理静态数据的批处理操作将静态数据抽象成分布式的数据集。用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理。支持Java、Scala和Python编程语言。 2. DataStream API用于处理数据流的流处理操作将流式的数据抽象成分布式的数据流。用户可以方便地进行各种操作来处理分布式数据流。支持Java和Scala。 3. Table API用于查询结构化数据将结构化数据抽象成关系表并通过类SQL的DSL对关系表进行各种查询操作。支持Java和Scala。 4. Flink MLFlink的机器学习库。 5. GellyFlink的图计算库提供了与图计算相关的API和多种图计算算法实现。 这些API可以帮助用户更轻松地编写各种分布式任务从而更方便地处理数据并支持众多的编程语言和计算领域。此外Flink还提供了丰富的可扩展性和自定义性使用户能够轻松地根据自己的需求进行更深入的定制和优化。 Flink 组件栈 Flink相对于Spark具有其独特的优势比如更高层次的抽象、更简洁的调用方式、高的吞吐更少的资源占用等。但是Flink想要完全超越Spark还有一些问题需要解决如SQL的支持、批流一体的实现、机器学习、图计算等等。 对于数据开发者来说Spark相比于MapReduce支持的场景更广使用起来也更加容易。而Flink相比于Spark同样更易用。所以未来大数据开发的门槛将会越来越低如完全SQL化、低代码等技术的发展甚至会像传统ETL工具一样无代码。大数据从业者需要跟上技术的发展趋势不断更新自己的技术知识并不断提高自己的技能和能力以适应未来大数据行业的发展。 5、ClickHouse ClickHouse是俄罗斯搜索引擎公司Yandex于2016年开源的一款数据分析MPP数据库。作为数据库它在计算层面采用了许多技术如单机多核并行、分布式计算、向量化执行、SIMD指令、代码生成等以提高查询速度。在普通的大数据集群中ClickHouse可以在几秒钟内查询十几亿条数据因此在许多即席查询场景中被广泛使用。 ClickHouse具有成熟的稳定性和高性能可以用于处理海量数据。但是使用ClickHouse需要掌握特定的技术调优也比较复杂因此需要有相应的经验和技能。但是随着越来越多人对此感兴趣和认可ClickHouse也成为了大数据处理的一个重要工具之一。 ClickHouse界面 6、Doris ClickHouse是一个非常优秀的产品但也有一些缺点。比如ClickHouse过度依赖大宽表较难应对高并发的业务场景而且并不完全支持标准SQL和UDF等同时ClickHouse的集群运维也是比较复杂的需要一定的经验和技能。Apache Doris的诞生试图解决这些问题使得大数据查询和分析更加容易和高效。 Apache Doris是一个现代化的MPP分析型数据库产品由百度开源并贡献给Apache社区具有以下特点 1. 响应时间短。Apache Doris的响应时间非常短仅需要亚秒级的时间即可获得查询结果因此能够有效地支持实时数据分析。 2. 架构简洁扩展性高。Apache Doris的分布式架构非常简洁易于运维并且具备很高的扩展性可以支持10PB以上的超大数据集。 3. 满足多种数据分析需求。Apache Doris可以满足多种数据分析需求例如固定历史报表、实时数据分析、交互式数据分析和探索式数据分析等。 4. 支持多种数据源。Apache Doris支持多种数据源和多种数据格式的导入和导出还提供了灵活的数据模型支持多维数据分析、多维度数据查询和跨表联合查询。 Doris 示意图 在以上6种ETL计算引擎中ClickHouse和Apache Doris都是MPP分析型数据库产品。帆软推出的FineDataLink是一款ETL工具同时也是一个数据集成平台可以对接ClickHouse、Doris、StarRocks等MPP数据库这使得数据开发工程师在“从常规数据库到大数据转移”阶段——实现“ETL零学习成本”也使得企业拥有高性能存储的同时具备轻松驾驭数据洞察力从数据集成到BI自主分析。 FDL功能体验请点击FineDataLink功能体验 往期内容推荐 「ETL趋势」FDL数据开发支持版本管理、实时管道支持多对一、数据源新增支持神通-CSDN博客 什么是数据同步数据同步时发生中断怎么办_中断的数据同步怎么解决-CSDN博客 【数据同步】什么是ETL增量抽取?-CSDN博客
http://www.pierceye.com/news/249503/

相关文章:

  • 在线代理网页浏览网站山东省城乡住房建设厅网站
  • 网站建设需准备什么彩页模板图片
  • 怎么用网站源码建站网站换空间步骤
  • 酒店网站开发回扣商丘企业网站建设服务
  • 网站建设策划解决方案河北自助建站系统平台
  • 有没有做高仿手表的网站设计师的职责
  • struts2 做的网站seo公司怎样找客户
  • 帮别人做网站赚钱吗中山快速建站合作
  • 保靖网站建设做网站要运用到代码吗
  • 我用织梦5.7做个网站应该把淘宝客店铺链接放到哪frontpage可以制作网页吗
  • 潍坊优化网站排名在线网页设计培训机构
  • c做的网站ps做 网站标准尺寸
  • 老虎淘客系统可以做网站吗wordpress po mo
  • 网站的建设与维护那个网站做图片好
  • 昆山网站建设详细方案建设企业网站初始必备的六大功能
  • 做网站是前端还是后端网站规划 设计 制作 发布与管理过程
  • 黄山网站开发威县做网站哪里便宜
  • 网站怎么分类视频聚合网站怎么做不侵权
  • 有没有做问卷还能赚钱的网站套别人的网站模板吗
  • 东莞做汽车有没有买票的网站做谷歌推广一个月赚10万
  • 抚州城乡建设厅网站建设局官网查询
  • 汉中微信网站建设装修3d效果图怎么制作
  • wordpress 主题放哪站内关键词自然排名优化
  • 网站备案后经营做网站实例教程
  • 软件网站怎么做的python下载安装教程
  • 旅游网站开发分析报告网站建设教程搭建芽嘱湖南岚鸿信赖
  • 网站的配色方案高校网站建设意义
  • 滇中引水工程建设管理局网站网站开发怎样验收
  • ps制作网站logo阿里云网站备案拍照
  • 网站建设合同】wordpress翻书