图片做多的网站是哪个,织梦如何将wordpress,网站建站 免费,wordpress 分类标题简介#xff1a;本文主要介绍云知声 Atlas 超算平台基于 Fluid Alluxio 的计算加速实践#xff0c;以及 Fluid 是如何为 Atlas 带来全新的数据集管理方式的。
Fluid 是云原生基金会 CNCF 下的云原生数据编排和加速项目#xff0c;由南京大学、阿里云及 Alluxio 社区联合发…简介本文主要介绍云知声 Atlas 超算平台基于 Fluid Alluxio 的计算加速实践以及 Fluid 是如何为 Atlas 带来全新的数据集管理方式的。
Fluid 是云原生基金会 CNCF 下的云原生数据编排和加速项目由南京大学、阿里云及 Alluxio 社区联合发起并开源。本文主要介绍云知声 Atlas 超算平台基于 Fluid Alluxio 的计算加速实践以及 Fluid 是如何为 Atlas 带来全新的数据集管理方式的。
Atlas平台介绍
云知声是一家专注物联网人工智能服务公司。云知声的 AI 技术栈涵盖了信号、语音、图像、文本的感知和表达能力知识、理解、分析、决策等认知技术并朝着多模态人工智能系统方向发展。云知声 Atlas 超算平台作为底层基础架构支持着公司在 AI 各个领域的模型训练与推理服务的开展。云知声很早就开始布局建设业界领先的 GPU/CPU 异构 Atlas 计算平台和分布式文件存储系统该计算集群可为 AI 计算提供高性能计算和海量数据的存储访问能力。
云知声团队基于 Kubernetes 开源架构之上进行了相应的核心功能研发成功构建了浮点处理能力超过10 PFLOPS一亿亿次秒的 AI 超级计算服务平台。该平台支持主流机器学习架构开发者能够实现语音、语言、大数据、多模态等核心技术的高效研发。平台也开放了相应的算力与存储为中小微企业和院校机构提供定制化计算服务。
问题与挑战
Atlas 计算平台采用是计算与存储分离的架构目前整个平台的存储服务器、计算服务器之间以及计算与存储服务器之间的底层网络架构是由 100GB 的 InfiniBand 进行互联。 计算平台的模型训练数据存储系统由多套 PB 量级的高性能分布式文件系统 Lustre 组成。Lustre 分布式文件系统兼容 POSIX 接口多种深度学习框架能够直接进行数据读取。计算与存储分离的架构使计算跟存储能够独立进行扩容整体架构较为灵活。但是之前平台也遇到了数据访问效率低与底层存储带宽瓶颈等问题
存储宽带瓶颈
在存储资源相对固定的情况下随着平台用户的增加其带宽、元数据负载以及服务器的负载都呈现出来较大的上升。集群存在多个单机任务运行在同一个 GPU 节点造成 IO 资源的竞争由于 IO 的竞争导致了整个训练周期拉长了大大降低了研发影响效率。
海量小文件
第二个问题是模型训练数据集本身的特点问题。在降噪场景中有用户的任务存在接近 TB 量级的小文件导致底层分布式文件系统的的元数据服务压力很大。大量的小文件使得程序本身读数据的效率较低数据读取缓慢造成 GPU 大部分时间在等数据整体 GPU 的整体利用率较低延长了模型的训练周期。
数据种类多
由于平台支持的业务类型较广用户的数据类型较多文件大小类型也不同很难通过调优一套存储的参数来适配多种业务类型。结合用户的业务类型分析我们发现平台数据主要还是用来做模型训练占的比重比较大其余部分主要进行模型的推理与 CPU 密集型数据生成任务。
数据冗余
在平台中存在数据集重叠的问题同一个组内或者不同组有使用到相同的数据集但是却存储了多份造成了存储空间的浪费。
早期解决方案
如何通过最小的预算与架构改动来应对存储总带宽的瓶颈以及减少元数据服务器的压力云知声 Atlas 也进行一系列的探索与研发。
宽带限制
考虑到大量的并发读取会造成存储带宽达到极限造成存储卡顿或者存储系统瘫痪。平台通过限制每个计算节点的客户端带宽以及每个用户的 UID/GID 限制带宽但是该方法存在不够灵活、没办法充分利用 GPU 的计算能力的问题当有 2 个大 IO 的训练任务分配到了同一个节点由于节点的带宽限制2个训练任务的 IO 都有上限数据读取的速度限制导致 GPU 没办法充分发挥并行读取的优势通过监控发现该类型的 GPU 利用率在 40% 左右严重浪费了硬件资源。
聚合大文件
考虑到平台的小文件太多会对元数据造成较大的压力我们进行了相应的措施首先通过检测每个用户的 inode 数量与存储总量判断用户的小文件数量限制用户小文件的数量。第二是推行一系列数据聚合的工具让用户将小文件聚合成 lmdb、tfrecord 之类的大文件格式。
任务调度器重构
为了避免任务都聚集在同一个节点上我们通过定制任务调度器插件增加调度策略判断节点的计算资源的使用情况优先将任务调度到空闲节点避免多个任务跑在同一个节点造成的 IO 竞争但是该方案在平台的计算资源出现满载的情况下还是不可避免。
多级缓存
为了充分利用空闲的硬件以及减轻底层存储系统的压力在最早期平台研发了第一版本的缓存方案作作为过渡。该方法能够一定程度缓解存储的压力但是其对于数据的管理还是不够自动化,这只能作为我们过渡到新架构的一个临时替代解决的方案。
全新的架构
云知声在 2020 年开始调研 Alluxio并进行了一系列的测试包括功能的适配与性能测试等发现 Alluxio 能够满足目前云知声需求能够较为快速并且以较低的成本解决我们存在的几个痛点
Alluxio Fuse 提供了 POSIX 文件系统接口用户能够无缝的使用分布式缓存程序无需做更改Alluxio 支持对多种文件系统的支持包括分布式文件系统、对象存储等当我们平台后续引入新的存储Alluxio 缓存都能很好的进行支持保证我们整个缓存架构的稳定性Alluxio 提供较好的缓存管理Alluxio 的层次化存储机制能够充分利用内存、固态硬盘或者磁盘降低具有弹性扩张特性的数据驱动型应用的成本开销支持以 Kubernetes 或者容器的方式部署到平台中与现有的技术栈较为一致Alluxio 提供了 HA 支持保证了分布式缓存系统的高可用性。
相比早前的计算与存储分离的架构Alluxio 在计算与存储之间引入一层 Cache 层将底层存储的压力转移到各个计算节点的内存或者本地硬盘中用户的任务能享受本地存储带来的速度提升优势整个平台能够兼容分布式文件系统与本地硬盘两者的优势。
在使用 Alluxio 进行业务端整合时我们遇到了权限控制、以及数据挂载等问题。Fluid 提供了一种更加云原生的方式来使用 Alluxio, 其提供了一种全新的数据集管理方式缓存数据集跟云原生的资源一样能够被 kubernetes 进行相应的分配与调度有效的解决早期缓存与 kubernetes 使用方式独立的问题。
最终我们的架构是使用 Alluxio 作为 Fluid 的缓存加速引擎其负责做底层分布式文件系统到计算节点本地缓存介质的数据迁移以及缓存的管理为平台的应用程序提供了数据加速的功能。而 Fluid 负责缓存与应用的编排基于 Fluid平台能够感知缓存将之前需要很多人工的缓存操作转移到平台层智能化处理。 引入新架构后我们在自研的模型训练任务提交工具 atlasctl 将 fluid 功能进行集成尽可能的为用户屏蔽一些复杂的概念用户通过 atlasctl cache create 并指定添加一些参数信息例如缓存的大小缓存介质等即可创建缓存数据集。该工具的集成为用户屏蔽了负载的缓存机制信息让他们更加关注与数据与业务本身。
业务适配
Fluid Alluxio 为集群引入了全新的架构但是在具体场景适配方面我们还是遇到了一些问题这些问题我们第一时间与社区反馈社区都第一时间解决了我们的需求这里主要讲下几个比较重要的特性支持
hostpath 与 nonroot 的支持
在 Atlas 平台中我们对分布式文件系统设置了 nonroot,客户端的 root 是没有权限操作用户的目录的。如果在 Alluxio 缓存引擎使用 root 用户访问底层 UFS 会出现权限问题Fluid 还提供了 nonroot 支持支持在缓存引擎与数据集分别设置用户的 UID 与 GID缓存引擎的用户信息保证 Allluxio 能够成功读取到底层 UFS 的数据如果用户在数据集设置相同的 UID 与 GID 就可以实现任务端数据的读取如果将数据集的 UID 与 GID 设置成别的用户信息就可以实现数据集的共享该特性很好的解决了平台遇到的权限控制相关的问题以及数据存储冗余的问题。
多个挂载点的支持
由于用户的任务的数据通常是由不同的数据集组成这里的不同数据集可以是同一个存储系统的不同目录或者是不同存储系统。Alluxio 能够为应用程序提供统一命名空间。通过统一命名空间的抽象应用程序可以通过统一命名空间和接口来访问多个独立的存储系统。相比于连接每个独立的存储系统进行通信应用程序可以只连接到 Alluxio 通过 Alluxiofuse 让用户能够使用 POXIS 接口访问不同底层存储的缓存数据。
透明命名机制保证了Alluxio和底层存储系统命名空间身份一致性。不同的底层存储的目录与文件名都能够在 Alluxio 进行映射。
基于该特性用户的可以同时在同一个训练任务中为 2 个存储系统的数据进行缓存加速。该特性能够避免用户进行大量的数据迁移工作在 Atlas 平台中TB 量级的小文件的压缩打包、迁移与解压需要耗费几个小时运用该特性用户只需要更改下任务中数据的存储路径无需修改源代码即可运行程序。 缓存预热
平台中计算资源往往比存储资源更紧缺如果用户启动了 TB 量级的小文件训练任务底层存储系统与缓存系统之间的元数据同步以及数据的同步需要耗费大量时间。Alluxio 提供了 loadMetadata 与 loaddata 的功能Fluid 将 2 个功能进行了集成用户能够提前将远程存储系统中的数据拉取到靠近计算结点的分布式缓存引擎中使得消费该数据集的应用能够在首次运行时即可享受到缓存带来的加速效果。该功能能够有效的增加集群的 GPU 利用率避免在首次缓存时进行元数据同步的时候造成的耗时使得程序一开始运行就具有较好的 IO 读取速度整体的 GPU 利用率上升了。
参数调优
Alluxio 提供了较多的调优参数平台根据业务的特点进行相应的参数配置与调优针对几乎全是读的场景进行了一些通用参数的调优以及一些针对不同数据集的调优。
通用参数
打开 kernel_cache 以及将 alluxio.user.metadata.cache.enabled 设置为 true, 在客户端开启文件及目录元数据缓存。对于全读的场景可以配置 alluxio.user.metadata.cache.max.size 和 alluxio.user.metadata.cache.expiration.time以调整最多缓存文件及目录元数据缓存量和有效时间。通过设置 alluxio.user.file.passive.cache.enabledfalse 与 alluxio.user.file.readtype.defaultCACHE 来避免频繁逐出Cache Eviction造成缓存抖动。
业务测试
我们将业务按照数据集的大小分成了 3 种第一种是小文件单个文件的大小在 1M 以下的。第二种是中大型数据数据量在几百 G 左右的第三种是 T 级别大文件。
语音降噪场景
本次测试的模型是基于 Pytorch 框架搭建的 DLSE 模型数据文件数在 50 万左右 ,数据总大小是 183 GB采用内存作为 Alluxio 的缓存介质。
本次实验采用单机10卡的任务基于 Pytorch 原生的 DDP 框架进行多卡的通信对比测试了直接从分布式文件系统、从 Alluxio 缓存读取以及进行一轮预热之后再从 Alluxio 的实验。 通过第一轮的时间可以看出进行了 warmup 的缓存任务相比于直接从底层文件系统读取或者 Alluxio 的第一轮读取速度有了接近 10 倍的提速。Alluxio 在第一轮训练的时候由于数据需要做元数据同步与缓存数据因此在第一轮数据读取的时候缓存的优势还体现不出来。但是当第二轮读取的时候由于数据已经全部落入缓存介质中这时候考验的就是 Alluxio 本身的缓存命中率通过上面的实验结果也可以看出增速非常明显。 数据读取效率提升之后整体 GPU 利用率也得到了提升通过监控 GPU 的利用率发现采用 WarmUp 的 Alluxio 缓存GPU 的利用率基本稳定在 90% 左右同时我们看到数据缓存在内存中能够有效的降低底层存储的负载。
文字识别
本次实验采用基于 CRNN 的文字识别模型采用 Pytorch 的框架进行模型的构建数据源采用的是自采集的 125GB 的图像数据图像数据转换成了一个 lmdb 的大文件我们做了3 个对比测试直接从底层文件系统读取、从没有进行预热的 Alluxio 读取以及采用进行了预热的 Alluxio 读取。 我们发现采用预热的 Alluxio 节点的 IO 带宽流量相比于直接从底层分布式存储读取从 1300Mb/s 降为基本为0对于我们的平台收益是非常大的在不增加底层存储硬件的情况下这是最快而且相对廉价的降低存储系统带宽使用的方法。 读取缓存相对于直接读取底层存储计算节点 GPU平均使用率由 69.59% 提升到 91.46%表明消除 I/O 瓶颈可以提高大文件训练任务资源使用效率。
结论
通过引入 Fluid Alluxio 的新架构平台取得了一系列的收益。
加速模型训练通过上述的测试结果我们看到对于任务的提速效果非常明显能够直接利用本地存储的速度优势避免因为网络传输与资源竞争从而有效的加速模型训练过程中数据读取的耗时。降低底层存储负载新架构可以通过本地缓存分担底层存储系统的带宽与 IOPS 压力大幅度减少底层存储系统的负载有效的提高了底层存储系统的可用性。增加集群 GPU 利用率通过高效的 IO 读取消除用户程序数据读取的瓶颈 避免了 GPU 空转等待数据的现象提高了 GPU 的利用率从而提高了整个集群 GPU 使用率。避免同节点 IO 竞争新架构充分解决了我们早期遇到的同节点 IO 资源竞争、存储系统存在带宽瓶颈以及模型的训练效率不高的痛点。更加高效的缓存管理采用新架构以一种更加云原生的方式管理缓存工程师从之前单纯将数据载内存到现在缓存转变成可以管理与监控的资源Kubernetes 调度能够感知缓存进行相应的策略分配使得任务能够更加高效的运行。
后续规划
Fluid Alluxio 为我们带来了很大的收益目前我们也跟社区紧密持续合作中后续我们将在以下几个方面继续深入研究
持续反馈测试结果与问题以及提供更丰富的使用场景给社区不断的迭代优化 Alluxio 的性能总结与测试更多的数据类型提供参数调优实践反馈给社区增加 fluid 缓存智能化调度功能。
本文作者
吕冬冬云知声超算平台架构师 负责大规模分布式机器学习平台架构设计与功能研发负责深度学习算法应用的优化与 AI 模型加速。研究领域包括高性能计算、分布式文件存储、分布式缓存等。有多年的云原生开源社区经验。
刘青松云知声算法研究员负责机器学习平台和应用算法研发研究领域包括云原生架构研究、高性能计算、语音和视觉应用、机器学习算法等。
原文链接
本文为阿里云原创内容未经允许不得转载。