当前位置: 首页 > news >正文

表白视频制作网站免费代理ip最新

表白视频制作网站,免费代理ip最新,wordpress带颜色的文字,wordpress评论等于注册本文节选自《基础软件之路#xff1a;企业级实践及开源之路》一书#xff0c;该书集结了中国几乎所有主流基础软件企业的实践案例#xff0c;由 28 位知名专家共同编写#xff0c;系统剖析了基础软件发展趋势、四大基础软件#xff08;数据库、操作系统、编程语言与中间件… 本文节选自《基础软件之路企业级实践及开源之路》一书该书集结了中国几乎所有主流基础软件企业的实践案例由 28 位知名专家共同编写系统剖析了基础软件发展趋势、四大基础软件数据库、操作系统、编程语言与中间件的领域难题与行业实践以及开源战略、生态建设与人才培养。 作者介绍 陈明雨百度 Doris 团队前技术负责人、Apache Doris 项目 管理委员会主席 注本文整理自 Apache Doris 项目管理委员会主席陈明雨在 DIVE 全球基础软件创新大会2022的演讲由李冬梅整理。 Apache Doris 是由百度自研并开源的一款 MPP大规模并行处理技术的分析型数据库产品其项目已于 2022 年 6 月正式从 Apache 孵化器 “毕业”成为 Apache 顶级项目。 Apache Doris 特性 Doris 数据流程如图 2-5-1 所示。 ​ 图 2-5-1 Doris 数据流程图 其中上游数据源包括 OLTP 数据库中的数据、业务的应用 日志、 Web 端的埋点日志以及本地文件等通过批处理或流处理 系统比如 Hadoop 、Spark 、Flink 等对数据进行加工以后把 数据 “灌入”Doris 中。 Doris 可以直接对外提供查询服务比如支持实时大屏的数 据展示服务、多维报表分析、用户画像场景支持等。同时用户 还可以通过 Doris-Spark(Flink)-Connector 等连接组件使用外部 系统直接读取 Doris 中存储的数据。最后用户还可以利用 Doris 高效的分布式 SQL 查询引擎对外部数据源如 Hive 、Iceberg、 Elasticsearch 等提供查询加速服务。 我们选取了六个 Doris 的特点向大家介绍 Doris 在分析型 数据库领域的一些特点。 极简架构 Doris 的第一个特点就是它的极简架构如图 2-5-2 所示。 ​ 图 2-5-2 Doris 极简架构 从图 2-5-2 可以看到Doris 只有两类服务节点FEFrontend 节点和 BEBackend 节点。除了这两类节点以外 Doris 不再依 赖任何第三方的服务。FE 、BE 节点都可以横向扩展以应对不 断增长的数据。 此外 Doris 支持 MySQL 协议和标准 SQL 语法用户通过 标准的 MySQL 客户端或者各种语言的 MySQL 连接库就可 以方便地接入 Doris并使用标准 SQL 进行数据分析。 通过极简的系统架构和较低的学习成本用户可以方便、快 速地把原有业务迁移到 Doris 上来。 高效自运维 在分布式系统中存在很多系统故障比如网络故障、磁盘 故障、节点下线甚至机房下线等。在这些故障发生的时候分 布式系统需要有一个很好的分布式管理层来自动进行故障恢复 降低用户的运维成本。如图 2-5-3 所示在磁盘故障或者节点上 下线时Doris 可以自动地在分片Tablet级别对数据进行均衡 或修复保证整个集群能够在较短的时间内从故障中恢复过来 从而保证整个集群的可用性和可靠性。 ​ 图 2-5-3 Doris 高效自运维 整个故障修复过程不会影响用户使用 Doris整个过程是一 个透明的、自动的过程。对于一个分布式系统来说较低的运维 成本和较高的故障容忍度可以极大地提升整个系统的健壮性 保证业务 7×24 小时提供可靠的服务。 高并发场景支持 市面上很多 OLAP 数据库都支持高吞吐的业务场景而对高 并发查询场景的支持并不是很友好。Doris 不仅支持高吞吐的业务 场景也提供了对高并发场景的支持。在单机情况下 Doris 可以 支持 1000 QPS 的高并发点查询场景同时可以通过横向扩展更 多的计算节点来提高 QPS 的峰值。 这得益于 Doris 内部的一些技术实现。如通过分区裁剪可 以保证用户的查询最终仅落到某一个具体的数据分片上避免不 必要的数据读取。 此外 Doris 内部还提供了不同类型的缓存。例如数据文件 块级别的缓存可以减少热点数据的磁盘 I/O 开销SQL 结果缓 存直接将查询结果进行缓存对于相同的查询语句可以直接返 回缓存的结果分区缓存可以缓存历史分区的数据并在用户查 询时将历史分区缓存的数据和最新分区的实时数据合并返回 最终的结果。 通过缓存机制降低查询时的磁盘 I/O 开销并减少需要实 时计算的数据量保证单个查询的资源开销足够小以提升同一 时刻整个系统能够承载的查询数量。 此外在后续的 2.0 版本中Doris 将通过包括短路规划、查 询计划缓存、PreparedStatement 等更多技术进一步提升高并发 场景的支持能力使得 Doris 能够在一些偏服务化Serving的 场景中发挥作用。 MPP 执行引擎 Doris 具有完备的 MPP 查询执行框架可以充分利用集群内 的计算资源完成高吞吐的多维数据分析请求。 MPP 查询执行框架的一个重要特点是其拥有对数据的重分布 Shuffle能力。首先数据扫描算子将数据从对应的存储节点读 出数据重分布可以将数据发送到更多的计算节点从而利用 更多的计算资源完成上层算子的计算。数据重分布能力使得查 询所能利用的计算资源不再和数据存储资源绑定从而提升集群 的资源利用率。Doris 内部 MPP 执行引擎示意如图 2-5-4 所示。 此外因为 Doris 采用无共享Share-Nothing的架构每个 节点都独立存储、管理整个数据集的一部分所以 Doris 的 MPP 查询执行框架会将查询计划切片不同的切片可以在不同的节 点上并行处理各自节点上存储的数据。同时在同一个节点内 Doris 还会将一个切片进一步拆分充分利用多核 CPU 的能力。通过节点间和节点内的并行执行进一步增强 Doris 的数据处理能力。 ​ 图 2-5-4 Doris 内部 MPP 执行引擎示意 在后续版本中Doris 还将引入 Pipeline 执行框架。该执行框 架会在现有的并行执行能力基础上为 Doris 提供细粒度的资源 管控、隔离能力进一步发挥 Doris 查询执行框架的能力。 明细与聚合模型的统一 Doris 的第五个特点是明细与聚合模型的统一。在实际业务 操作中用户可以首先将细粒度的原始数据存储在 Doris 中 这 一部分数据称为明细数据对应的表称为明细表。在明细表基 础上用户可以进一步建立针对任意维度的聚合表或称物化视图。 这里我们通过一个示例进行说明。如图 2-5-5 所示原始的 明细表包含 ID、日期、城市和消费四列。其中 ID、日期和城市 是维度列消费是指标列。 ​ 图 2-5-5 Doris 明细 聚合 如果用户查询 “某一个日期的消费的总和”则可以在明细表 上建立一个由“日期” 和“消费”列组成的物化视图。这个物化 视图会自动地将相同 “日期” 的“消费”数据进行预聚合累加 SUM然后把累加后的数据直接物化存储在节点上。当用户查询 某一日期的消费总和时可以直接读取已经预先算好的数据这 样能够极大地加速数据查询。在整个查询过程中不需要进行实 时的数据累加计算而是直接获取最终结果。同时明细数据依 然保留在明细表中用户依然可以自由查询明细数据。这就是明 细和聚合的统一。 Doris 也通过导入操作的事务性机制来保证明细表和所有 物化视图的数据的一致性。当用户将数据导入明细表时 Doris 会 自动生成对应的物化视图的数据并保证明细表和所有物化视图 的数据原子性生效。这样用户无须担心脏数据或者数据不一致 的问题。 此外 Doris 还支持针对物化视图的查询的自动路由。用户无 须指定要查询的具体物化视图 Doris 的查询优化器能够自动选择 最合适的物化视图并返回正确的数据。 目前上述能力仅限于单表上的操作。Doris 会在 2.0 版本中提 供多表物化视图的能力支持对物化视图定义连接Join、聚合、 过滤等操作进一步提升在复杂数据查询场景下的能力。 便捷数据接入 Doris 在数据接入方面做了非常多的工作来保证任何一个 数据源都可以很快地接入 Doris如图 2-5-6 所示。比如 Doris 支 持例行导入作业通过一条简单的 SQL 语句就可以订阅 Kafka 中 的数据并提供精确一次Exactly-Once的消费语义实时地 消费和存储流式数据。同时Doris 提供了 Flink 和 Spark 连接器 Connector通过这些连接器用户可以通过批处理和流处理系 统来读取 Doris 中的数据或写入数据到 Doris 中。 ​ 图 2-5-6 便捷的数据接入 Doris 同时提供流式的和批量的数据导入方式不管数据是 存在对象存储系统、HDFS 上还是 Kafka 中都可以通过适合 的导入方式来便捷地加工处理数据并存储到 Doris 中以进行 快速的查询分析。 Apache Doris 极速 1.0 时代 在已经发布的 Apache Doris 1.0 中主要突出以下三个特点极速、稳定和多源。 极速 在 1.0 版本中Doris 引入了全新的向量化执行引擎极大提 升了查询性能。向量化技术的提出已有十几年的历史而在近几 年通过 ClickHouse 等优秀的开源的数据库引擎这一技术真正 被带入生产级别的实践中让大家真正意识到向量化能够给数据 分析带来怎样的变革。 Doris 借鉴了包括 ClickHouse 在内的很多开源系统的优秀设 计 同时也结合自身的特点打造了一个完整的向量化执行引 擎。通过对所有的算子和函数进行向量化改造 Doris 极大地提升 了整体查询执行效率。这里我们从列式内存布局、向量化的计算 框架、 Cache高速缓存亲和度、虚函数调用、SIMD 指令集等 几个主要技术点介绍 Doris 在向量化执行引擎方面的技术实现。 列式内存布局 Doris 的存储引擎采用的是列式存储。在数据分析领域列 式存储相比行式存储有诸多优势比如更高的压缩比数据可以 按需读取以提升 I/O 的效率等。 虽然 Doris 采用列式存储但在 1.0 版本之前数据从磁 盘读取到内存后在内存中依然是以行的形式进行布局的如 图 2-5-7 中左边部分RowBatch所示。RowBatch 中的数据是 按行排列的这种内存布局对向量化计算框架不友好所以向量 化引擎改造的第一步就是把整个行式内存布局改为列式内存布 局即采用图 2-5-7 中右边部分Block数据结构。可以看到 在 Block 数据结构中数据是按列排列的这种布局可以充分利用 Cache 亲和度、 SIMD 指令集等特性从而加速查询。 ​ 图 2-5-7 列式内存分布 向量化的计算框架 基于改造后的列式内存布局 Doris 实现了全新的向量化计算 框架在新的计算框架中所有算子之间的数据都是以 Block 的 格式传递的如图 2-5-8 所示。 ​ 图 2-5-8 向量化的计算框架 在图 2-5-8 的左边原始的 Block 是 a 、b 两列我们在 b 列 上进行了一次 abs 函数计算。函数计算会生成一个新的列来存 储计算后的结果。之后我们会对列进行裁剪。比如如果上层 不再用到原始的 b 列我们会把 b 列删除最终往上一层算子只 传递 a 列和 abs 函数计算后的结果列。通过这种方式我们可以 通过内存预分配、内存复用等多种手段对算子提速。 Cache 亲和度 Cache 亲和度也跟内存布局息息相关。前文提到所有数据 都是以列的方式紧密排列在一个 Block 中的。所以在一次 CPU 指令中可以尽可能地在一个 CPU 缓存行Cache Line中处理 更多的数据。现代 CPU 有多级缓存比如 L1 、L2、主存每级 缓存的数据处理的延迟都是指数级增加的所以要尽可能地在更 贴近 CPU 的缓存中完成更多的数据处理。 虚函数调用 虚函数调用问题也是 Doris 之前版本的计算框架存在的问 题。现代 CPU 都提供多级流水能力以及分支预测能力。CPU 会 根据依赖关系将一条指令拆分到多个流水线Pipeline中并行 处理并且通过分支预测抢先执行一些预测后的计算逻辑如 图 2-5-9 所示。 ​ 图 2-5-9 虚函数调用 但是如果出现了预测失败那么多级流水就会被打乱从而 严重降低整个 CPU 在一个时钟周期内的处理能力。每一次虚函 数调用都会有一个虚函数表的查找操作这个查找操作会打断 CPU 的指令流水降低 CPU 的分支预测和指令流水的性能。所 以在新的向量化执行框架中Doris 引入了大量 C 模板和 C 11、 17 的新语言特性避免运行时的虚函数调用提升 CPU 分支预 测的准确度提高 CPU 的利用率。 SIMD 指令集 SIMD 指令能够在一条指令集中处理更多的数据。SIMD 指令 集的实现分为两种其中一种是自动向量化实现。现代化的 C 编译器可以智能地将一些函数转换为 SIMD 指令。比如图 2-5-10 所示的例子中for 循环是一个简单的两个数组的相加计算编译 器会自动地把这样一条指令变成一个 SIMD 指令。 ​ 图 2-5-10 SIMD 指令集 通过 SIMD 指令整个算法的耗时可以从 100 多 ms 降低到 30 多 ms 获得三倍的性能提升。这也就是说通过对代码级别 的改造以及编译器的自动编译优化可以显著提升一些简单计算 场景下的性能。 对于复杂的函数计算编译器的自动向量化可能无法完成 因此需要开发者通过手写 SIMD 指令的方式帮助提升一些算子 的效率。通过编译器的自动向量化和手写向量化可以极大地提 升很多算子的效率。 通过向量化引擎的改造Doris 在 ClickHouse 公司推出的 Clickbenchhttps://benchmark.clickhouse.com/ 性能测试中从 众多数据库中脱颖而出获得了前三的优异成绩。 稳定 Doris 1.0 的第二个主要特点就是 “稳定”。 首先 Doris 的 MPP 执行引擎是基于内存的即所有数据的 处理都需要在内存中。不论是导入操作、查询操作还是系统内 部的任务都会产生内存开销。所以 Doris 也是一个内存密集型 的系统。如果没有一个优秀的内存管理框架很容易出现 OOM Out Of Memory错误从而降低在高负载场景下或者复杂查询 场景下系统的稳定性。 在 1.0 版本中Doris 重构了整体内存管理框架目标就是 “对 OOM 说不”。 在 Doris 内部我们通过 MemTracker 对内存进行管理和跟 踪。MemTracker 是一个树状结构。根节点的 MemTracker 负责进 程级别的内存总控子节点由不同模块的 MemTracker 组成比 如查询模块的、导入模块的等。这些 Mem Tracker 共同组成了一 个完整的内存管理和跟踪框架。 再进一步不同模块的 MemTracker 还会有更细粒度的内存 管理。比如针对查询模块会对一个查询内部的多个执行分片 以及执行分片下面多个执行算子生成一个树状的 MemTracker 结构帮助我们观测一个查询任务的总内存开销、每一部分内存 开销等提升系统的可观测性。 在具体技术实现上每一个工作线程开始运行工作任务时 都会生成线程级别的 MemTracker同时还会基于 TcMalloc 的 Hook 机制统一监控所有内存的申请和释放操作保证不会遗漏 任何一部分内存使得整个内存是可控的且可被观测的。 内存管理的优化只是一个开始后续 Doris 还会提供细粒度 的 CPU 管理、 I/O 管理以及负载隔离机制使得不同的工作负载 可以在同一个 Doris 集群中无干扰地运行降低运维成本提升 使用体验。 多源 Doris 自 1.0 版本开始就全面开展湖仓一体的生态建设。新 版本中的多源数据目录Multi-Catalog功能能够帮助用户自 动同步和映射外部数据源的元信息并提供多种优化技术来提升 对外部数据源的查询能力。比如通过元数据缓存的能力提升访 问 HiveMetastore 等元数据服务的稳定性和性能。通过分区裁剪、 谓词下推以及对 Parquet 、ORC 等格式的文件裁剪、延迟物化、 预读功能的支持用户可以通过 Doris 获得比其他查询引擎快 3 10 倍的查询加速效果。 在新版本中 Doris 支持了 Hive 、Iceberg 、Hudi 、ES 、JDBC 等多种连接方式。用户可以将 Doris 作为查询加速层在不进行 数据迁移的情况下直接分析湖上数据以及对多个数据源进行联 邦查询。此外在后续的版本中Doris 会进一步支持湖仓能力 不仅提供对湖上数据的增量查询功能而且提供自管理的数据湖 表引擎真正实现极速、统一的湖仓一体能力。 以上就是 Doris 在 1.0 时代最主要的三个方向的进展 —极 速、稳定和多源。当然除此之外 Doris 还在不断添加和优化更 多特性欢迎大家前往 doris.apache.org 官网进行探索。 2023 年 Doris 会进入 2.0 时代。2.0 将是一次全面的进化。Doris 会在多模数据分析、湖仓一体、ETL、实时数据更新、查 询优化器、云原生等领域提供更多的功能并进行更多的功能 优化。 关于 Apache Doris 开源社区 Doris 在 2018 年进入 Apache 孵化器并于 2022 年正式 “毕 业”成为 Apache 顶级项目。整个社区的发展非常迅速截至 2023 年 4 月累计贡献者人数已接近 500每月活跃开发者人数 也超过 100 位。整个社区处于蓬勃发展的阶段也欢迎更多的人 加入社区 一起开发和使用 Doris。 作为一个 Apache 项目 Doris 也将秉承 “社区大于代码” 的 Apache 理念不断面向开发者和用户推出更多的社区活动。 Doris 的 Github 地址是 https://github.com/apache/doris。 在 Github 上可以找到很多丰富的新手任务不论是在校学 生、职场新手还是真正使用 Doris 的资深用户都可以通过新 手任务快速地加入 Doris 社区在提升自身技术能力的同时也 帮助 Doris 社区更好地发展。 基于云原生向量数据库 Milvus 的云平台设计实践 作者介绍 栾小凡Zilliz 合伙人与工程总监、LFAI Data 基金会技 术咨询委员会成员、康奈尔大学计算机工程硕士。先后任职于 Oracle 美国总部、软件定义存储创业公司 Hedvig、阿里云数据库 团队曾负责阿里云开源 HBase 和自研 NoSQL 数据库 Lindorm 的研发工作。 图书推荐 随着云计算和生成式 AI 的逐渐发展基础软件的技术栈也在发生变化市场现存的基础软件领域的图书相对较少且多数最近两年没有更新。但是基础软件领域已经发生了巨大变化我们现在所讲的基础软件是以云、AI 为底座的基础软件这些新的变化都可以在**《基础软件之路企业级实践及开源之路》**这本书里找到答案。 购买链接 正版购买链接https://item.jd.com/14328126.html
http://www.pierceye.com/news/11065/

相关文章:

  • 网站特色如何用魔方网表做门户网站
  • 找网页模板的网站好app网站开发费用
  • 做公司网站要什么资料刚学完网站开发
  • dw如何用表格做网站wordpress文章相关推荐
  • 聚美联盟网站怎么做wordpress 视频 广告
  • 建个商城网站需要多少钱企业seo培训
  • 怎么做盗版视频网站吗上海网络整合推广
  • 哪些企业会考虑做网站网站推广方法汇总
  • 设计师网站库二级域名是啥
  • 专门做鞋子的网站吗wordpress 本地化函数
  • 丽江建设公司网站天津的网站建设公司
  • 织梦小说网站fw可以做网站
  • 常德网站开发企业网站开发文档
  • 网站描述技巧网红营销概念
  • 网站百度权重洛阳市宜阳建设局网站
  • 开发网站用得最多的是什么语言凡科做网站的方法
  • 网站正在建设中 源码下载做威尼斯网站代理算是违法吗
  • 百度收录哪些网站吗仿站能被百度收录吗
  • icp备案添加网站网站建设国际深圳
  • 网站建设前提保定有那些网站
  • 做设计排版除了昵图网还有什么网站wordpress著名插件
  • 上海信息公司做网站中国设计网站官网地址
  • 外贸网站知名做外链惠水网站建设
  • 网站服务器是指什么做电脑网站用什么软件好用吗
  • 封开网站建设公司做一个中英文网站的价格
  • 前端学校网站开发视频教程wordpress列表缩略图
  • 给个做的网站湖南网站建设网络公司
  • 广西智能网站建设平台网上做兼职网站
  • 做家常菜的网站福州做网站设计公司
  • 企业网站服务费怎么做记账凭证深圳市建设局网站