西安网站设计公司,郑州大型网站建设价格,网页版微信二维码加载失败,百度软件应用市场云布道师
本文根据 2023 云栖大会演讲实录整理而成#xff0c;演讲信息如下 演讲人#xff1a;张治国|阿里云智能计算平台研究员、阿里云 MaxCompute 负责人 演讲主题#xff1a;MaxCompute架构升级及开放性解读 活动#xff1a;2023云栖大会
MaxCompute 发展经历了三个阶…云布道师
本文根据 2023 云栖大会演讲实录整理而成演讲信息如下 演讲人张治国|阿里云智能计算平台研究员、阿里云 MaxCompute 负责人 演讲主题MaxCompute架构升级及开放性解读 活动2023云栖大会
MaxCompute 发展经历了三个阶段MaxCompute1.0主旨是达到大规模的数据处理能力在性能和规模上提供给用户一个分布式处理平台MaxCompute2.0主旨是 Serverless强调弹性和性价比MaxCompute3.0 阶段主旨一体化包括湖仓一体、离线实时一体化等。 在整个 MaxCompute 发展过程中可以从五个维度看一下数仓的发展趋势
随着现代数据驱动各个不同业务的发展数据规模越来越大 在不同规模下应用越来越多元化其中包括数据结构化、半结构化和非结构化应用随着AI 的兴起AI 的应用也越来越多对数仓的要求也会越来越高数据的实时性、时效性要求越来越高我们需要更多做数据实时大批量的流式导入、实时数仓这方面的工作对数据的准确性要求也越来越高我们需要大规模数据治理、质量控制这方面的工作AI兴起大家都围绕着数据来做业务决策怎么从现有数据中产出更高的价值这也是大家对数仓发展的一个越来越高的要求
围绕这五个不同发展趋势阿里云提出 MaxCompute4.0 开放一体架构围绕近实时开放性、性价比、DataAI 一体化等多维度进行升级。 MaxCompute4.0 开放一体架构底层数据高并发、实时流式数据导入数据同时可以选择导入到 MaxCompute 自己的盘古存储系统也可以导入到 OSS 一些开放数据结构中内置存储选用的是自己的AliORC。在这之上设计了统一的语言数据管理服务可以纳管内置的存储数据同时可以通过 DF 同时管理 OSS 和 HDFS 上面的开放数据结构。通过一个开放存储的服务提供一个统一的接口给上层不同计算引擎做不同业务场景下的计算要求。再往上使用弹性计算资源调度可以很容易调度不同的计算引擎在整个计算平台上去计算数据。最上层是对接不同的开发平台和数据应用。
MaxCompute 4.0 开放性升级开放存储及计算架构
MaxCompute 4.0 的开放性升级有两方面一个是开放存储一个是开放计算架构。开放存储我们希望把内置的数据格式能够通过开源内存格式提供给不同计算引擎。开放计算架构希望内置计算引擎可以通过同样一个 API 可以高效访问数据湖上的数据。 开放结构最主要提供的价值因为现在用户的应用、计算各个不同场景需要不同的计算引擎和不同的计算方式MaxCompute 提供灵活开放的开源大数据 AI 引擎的计算方式给不同应用。并且在这种开放场景下我们也可以提供比较灵活的计算资源。 如上图所示左边是比较通用的一些场景如果大家已经用了 MaxCompute 现代一些计算同时需要一些 AI 计算或者一些其他计算可以通过 Storage API 对接底下统一的数据源做不同的计算这样可以提供一个数据零拷贝不需要为了不同计算把数据拷贝出去放到不同地方然后做计算。另外我们希望能够提供统一的管理可以纳管不同的数据源大家在云上或者别的地方有自己的计算资源也可以用自己的计算资源对接自己的数据做不同的计算。 现在数据的实时性方案很多在用的都是 Lambda 架构的模式Lambda 架构全链路数据治理都有很多痛点这中间会有一些数据融合、数据一致性问题。在MaxCompute4.0 升级的时候做了近实时处理框架的发布达到一份数据一份code可以低成本低运维统一实施和批量处理链路。整个架构我们用一个统一的数据组织结构和数据管理在这上面能够有统一的计算框架大家不用在实时和离线框架上用不同计算引擎最终实现所有数据不管实时还是离线都有统一的语言数据管理。
MaxCompute 4.0 开放性升级开放存储及计算架构
随着 AI 的兴起数据规模越来越大用户对数据计算的性价比方面有更高的追求MaxCompute4.0 在过去一年一直致力于做全方面的性价比提升。 计算高性能方面SQL 引擎方面在不断提高。在 HBO/HBS 根据历史查询数据历史的统计信息我们能做更好的数据优化及查询优化并且通过资源调度的优化提高性能。大家都知道大规模数据处理的时候最主要的核心步骤是数据的 shuffling我们做了很多工作来提高整个数据 shuffle 性能。除此之外MaxCompute4.0 还尝试通过推荐能够帮助大家做一些物化视图的总结根据物化视图消除重复性的计算。 在低成本方面根据数据的冷热访问的不同频率做到了分层存储。通过 JSON 半结构化数据的列存实现更好的压缩。 在性价比方面MaxCompute 通过弹性资源调度、自适应 SQL 引擎、存储优化、智能数仓四个方面技术优化实现了弹性 CU 最终降价 50%。
弹性资源调度当用户根据包年包月处理会有很多空闲时候虽然没有用计算资源但是这个计算资源还是会算到里面去如果有弹性资源就可以比较贴切计算的模型根据不同时间段给不同的 quota从而达到降本增效。后面我们根据你的历史比如过去三个月使用情况做一些不同的资源变配的推荐满足资源降低成本的能力。自适应的 SQL 引擎我们做了更多的工作可以分成 stage 和 stage 之间的自适应优化。在同一个 stage 不同算子之间我们也可以做到不同自适应算法。存储优化我们自研内部的数据格式 AliORC跟一些比较通用的 parquet 和 ORC 格式对比测试结果显示读写性能是其 2-6 倍压缩比我们比他们高大概 30%。我们会根据你数据的访问频次能够自动推荐你在哪些数据可以做冷存数据提供更高性价比的存储优化。智能数仓自研大数据对比开源大数据最大的区别就是我们是一个自闭环能够做自动优化将历史数据统一放到我们的原仓数据里根据原仓信息可以自动做一些存储方面和计算方面不同的优化。
MaxCompute 4.0 DataAIOne EnvOne DataOne Code
AI 是一个新的浪潮过去一年我们对数仓和AI如何结合做了很多思考。AI 整个应用的生命周期是数据收集、数据清洗、数据预处理、数据训练、数据推理。有数据表明大家认为 80% 的时间花在数据的处理上数据处理有很多痛点 大数据开发和 AI 开发是两个割裂的环境大数据开发很多时候大家用 SQL但是 AI 现在更多的用 Python 开发环境。 AI 更关注 AI 计算引擎对数据的大规模并发处理和分布式处理的能力有所欠缺很多时候用户要在自己本地做数据清理或者找数据开发师去做数据处理。 数据来源比较多样化很多数据大家会放在数据湖上没有一个统一的数据管理的平台能够帮忙做数据管理今天你处理了数据而另外一个人需要产生非常相近的数据但他不知道你这已经处理了这份数据他有可能重新跑一遍不光花了时间也花了资源。 开发迭代效率低因为两套系统导致整个开发链路都比较长效率低下。 我们希望能够从数仓方面帮助用户解决那些痛点。MaxCompute 4.0 主旨实现One EnvOne DataOne Code这背后核心就是提供一个 Python 的开发环境一个 Notebook 的开发体验。在 Data For AI 方面MaxCompute 全面升级DataFrame 能力发布分布式计算框架 MaxFrame100% 兼容 Pandas 等数据处理接口通过一行代码即可将原生 Pandas 自动转为 MaxFrame 分布式计算打通数据管理、大规模数据分析、处理到 ML 开发全流程打破大数据及 AI 开发使用边界实现大数据 AI 开发一体化大大提高开发效率。 另外在 AI For Data 方面我们提供一个 Python 大数据处理这样我们更容易使用一些丰富的 AI 和 ML 一些模型来做更好的数据挖掘和分析。 回头看整个 MaxCompute4.0我们希望做到数据的开放计算引擎的包容能够满足各种不同的数据计算场景的需求以及根据数据实时性会增加增量计算的能力满足大家对数据实时性的要求。后续 MaxCompute 也会持续在开放架构、增量处理、DataAI 三个方向持续发展。