当前位置: 首页 > news >正文

搭建网站赚钱网站开发问题及解决

搭建网站赚钱,网站开发问题及解决,东莞网站建设哪里好,群晖wordpress搭建网站文#xff5c;蛋酱、张倩源#xff5c;机器之心现在的模型动辄数百、数千亿参数#xff0c;普通人训不动怎么办#xff1f;前不久#xff0c;谷歌发布了参数量为 1.6 万亿的语言模型Swith Transformer#xff0c;将 GPT-3 创下的参数量记录#xff08;1750 亿#xff0… 文蛋酱、张倩源机器之心现在的模型动辄数百、数千亿参数普通人训不动怎么办前不久谷歌发布了参数量为 1.6 万亿的语言模型Swith Transformer将 GPT-3 创下的参数量记录1750 亿推至新高。这些大模型的出现让普通研究者越发绝望没有「钞能力」、没有一大堆 GPU 就做不了 AI 研究了吗在此背景下部分研究者开始思考如何让这些大模型的训练变得更加接地气也就是说怎么用更少的卡训练更大的模型为了解决这个问题来自微软、加州大学默塞德分校的研究者提出了一种名为ZeRO-Offload的异构深度学习训练技术可以在单个 GPU 上训练拥有 130 亿参数的深度学习模型**让普通研究者也能着手大模型的训练。与 Pytorch 等流行框架相比ZeRO-Offload 将可训练的模型规模提升了 10 倍而且不需要数据科学家对模型做出任何改变也不会牺牲计算效率。论文链接https://arxiv.org/pdf/2101.06840.pdfZeRO-Offload 通过将数据和计算卸载offload至 CPU 来实现大规模模型训练。为了不降低计算效率它被设计为最小化与 GPU 之间的数据往来并在尽可能节省 GPU 内存的同时降低 CPU 的计算时间。因此对于一个参数量为 100 亿的模型ZeRO-Offload 可以在单个 NVIDIA V100 GPU 上实现 40 TFlops/GPU。相比之下使用 PyTorch 训练一个参数量为 14 亿的模型仅能达到 30TFlops这是在不耗尽内存的情况下所能训练的最大模型。ZeRO-Offload 还可以扩展至多 GPU 设置并实现线性加速最多可在 128 个 GPU 上实现近似线性加速。此外ZeRO-Offload 还可以和模型并行一起使用在一个 DGX-2 box AI 服务器上训练参数量超 700 亿的模型。与单独使用模型并行相比这一参数量实现了 4.5 倍的规模提升。在下文中我们将结合 Medium 博主 LORENZ KUHN 的一篇博客来详细了解这篇论文。ZeRO-Offload 是什么?ZeRO-Offload 是一种通过将数据和计算从 GPU 卸载到 CPU以此减少神经网络训练期间 GPU 内存占用的方法该方法提供了更高的训练吞吐量并避免了移动数据和在 CPU 上执行计算导致的减速问题。借助 ZeRO-offload使用相同的硬件能训练以往 10 倍大的模型即使在单个 GPU 上也是如此。比如在一个 32GB RAM 的 V100 GPU 上训练百亿参数的 GPT-2。此外ZeRO-offload 还能实现在多 GPU 设置中的近似线性扩展。对于研究者来说ZeRO-offload 适用的情况包括想训练更大的模型或者想更快地训练现在的模型因为 ZeRO-offload 允许训练更大的 batch size你正在使用 PyTorch并且愿意 / 能够使用微软的 DeepSpeed 库ZeRO-offload 的其他实现形式暂未推出你也可以尝试根据官方实现自行调整愿意接受一些建模时的限制比如当前版本的 ZeRO-Offload 需要搭配使用 Adam 的混合精度训练。如何使用ZeRO-Offload 在微软的 DeepSpeed 库中实现官方实现地址https://github.com/microsoft/DeepSpeed/blob/6e65c2cc084ecfc393c67a2f64639e8d08d325f6/deepspeed/runtime/zero/stage2.py在 DeepSpeed 中设置完毕后使用 ZeRO-Offload 就不需要太多额外的工作了只需要修改一些标志和配置文件。目前Hugging Face 的 transformers 库与 DeepSpeed 进行了实验性集成使用方法和基准测试结果参见https://huggingface.co/blog/zero-deepspeed-fairscaleFacebook 研究院的 fairscale 有 ZeRO 的部分实现ZeRO-Offload 正是基于 ZeRO 这一多 GPU 内存优化方法构建的。目前还不支持 CPU 卸载。ZeRO-Offload 的工作原理ZeRO-Offload 是基于 Zero Redundancy Optimizer (ZeRO) 构建的。ZeRO 是微软在 2020 年 2 月提出的一种万亿级模型参数训练方法用于数据并行和模型并行训练中的内存优化其中梯度、参数和优化器状态分布在多 GPU 内存中没有任何冗余。这使得 GPU 之间的通信开销保持在比较低的状态。▲与标准数据并行基准相比ZeRO 在三个阶段中节省的内存和通信用量让我们来回顾一下 ZeRO为了解决数据并行和模型并行存在的问题ZeRO 提供了三阶段的优化方法分别为优化器状态分割、梯度分割、参数分割三个阶段按顺序实施。在优化器分割状态ZeRO 降低了 3/4 的内存通信量和数据并行相同加入梯度分割降低了 7/8 的内存通信量和数据并行相同加入参数分割内存减少与数据并行度呈线性关系。例如在 64 个 GPU 上进行分割的时候可以将内存降至 1/64。在通信量上有 50% 的提升。在去年 9 月份的博客中微软这么介绍 ZeRO-OffloadZeRO-Offload 继承了 ZeRO-2 的优化器状态和梯度分割。但与 ZeRO-2 不同的是ZeRO-Offload 不在每块 GPU 上保持优化器状态和梯度的分割而是将二者卸载至主机 CPU 内存。在整个训练阶段优化器状态都保存在 CPU 内存中而梯度则在反向传播过程中在 GPU 上利用 reduce-scatter 进行计算和求均值然后每个数据并行线程将属于其分割的梯度平均值卸载到 CPU 内存中参见下图 g offload将其余的抛弃。一旦梯度到达 CPU则每个数据并行线程直接在 CPU 上并行更新优化器状态分割参见下图 p update。之后将参数分割移回 GPU再在 GPU 上执行 all-gather 操作收集所有更新后的参数参见下图 g swap。ZeRO-Offload 还利用单独的 CUDA 流来穷尽通信与计算中的重叠从而最大化训练效率。▲ZeRO-Offload 概览值得注意的是ZeRO-Offload 专为使用 Adam 的混合精度训练而设计。也就是说当前版本的 ZeRO-Offload 使用 Adam 的优化版本 DeepCPUAdam。其主要原因是避免 CPU 计算成为整个过程中的瓶颈。DeepCPUAdam 的速度是 Adam PyTorch 实现的 6 倍。实验结果最后来看一下 ZeRO-Offload 论文中提供的一些实验结果。下图 7 展示了利用 ZeRO-Offload 技术在 1 个、4 个或 16 个 GPU一个 DGX-2上可以训练的最大模型情况。下图 11 展示了每个 GPU 的吞吐量随 GPU 数量增加而呈现的变化情况。可以看出在 GPU 数量逐渐增加至 128 个的过程中ZeRO-Offload 几乎可以实现吞吐量的线性加速。下图 8 展示了使用 PyTorch、L2L 和 ZeRO-Offload 实现的每个 GPU 吞吐量差异。从中可以看出利用 ZeRO-Offload 实现的每个 GPU 吞吐量比 L2L 平均高出 14%最多高出 22%。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1]https://mp.weixin.qq.com/s?__bizMzA3MzI4MjgzMwmid2650806702idx1sn09c8b424faa9c80a902f746c38afd7c5scene21#wechat_redirect[2]https://mp.weixin.qq.com/s?__bizMzA3MzI4MjgzMwmid2650780231idx4sn2442d9bd2eb90943bbcc77966ac581ddchksm871a7639b06dff2f9018e05093c2b9437928b23d61719dd56c11e7188abc49d2c65bfc21ccaescene21#wechat_redirect[3]https://efficientdl.com/an-introduction-to-zero-offloading/
http://www.pierceye.com/news/691868/

相关文章:

  • 沈阳网络建网站个人电子商务网站建设的总体目标
  • asp 大型网站开发优化公司治理结构
  • 做外贸 建网站要注意什么ssr网站怎么做
  • 杭州做兼职网站建设老五wordpress
  • 网站建设工资怎么样网站曝光率
  • 亚泰国际建设股份有限公司网站app推广方案模板
  • pathon能做网站开发吗直播网站模板
  • 东莞网站设计网址html怎么添加图片为背景
  • 怎样自己做企业网站网上投诉平台
  • 平价网站建设宝安营销型网站制作
  • 中英网站怎么做seo团队管理系统
  • 做签到的网站上海网站se0优化公司
  • 网站开发技术说明文档网站审核员做点啥
  • 网站设计与网页设计的区别建设部资质查询网站
  • 教育网站制作哪家服务好网站建设运转
  • 山西省轻工建设有限责网站网件路由器无线桥接
  • 做网站 怎么选择公司wordpress lnmp1.4
  • 网站建设价格标准科技感设计感的展厅
  • 广州番禺建设银行网站登录做摄影网站的目的
  • 前端外包网站php网站开发哪个好
  • 网站开发与维护好找工作吗网站建设招标书模板
  • 浙江金顶建设公司网站房产获客软件
  • 什么网站比较容易做python做网站服务器
  • 东城网站建设微信小程序商店怎么开
  • 企业网站源码千博网站推广怎么做流量大
  • 福州最好的网站建设服务商浙江华临建设集团有限公司网站
  • cdr 做网站支付宝小程序开发者工具
  • 建一个全部由自己控制的网站需要多少钱手机网站大全
  • 酒店电子商务网站策划书网站排名下降的原因
  • 成都网站制作公司报价成都装修公司哪家好