当前位置：首页 > news >正文

网站用自己的电脑做服务器吗口碑最好的旅游网站

news 2025/11/23 23:15:54

网站用自己的电脑做服务器吗,口碑最好的旅游网站,个人手机版网站建设,当当网网站建设建议文 | 金雪锋源 | 知乎最近经常被问#xff0c;你看“万亿的模型都出来了#xff0c;你们训练的千亿模型是不是落伍了#xff1f;”我想说#xff1a;“虽然都叫超大模型#xff0c;但是类型是不一样的#xff0c;虽说每一类模型训出来都不容易#xff0c;不过澄清一下概… 文 | 金雪锋源 | 知乎最近经常被问你看“万亿的模型都出来了你们训练的千亿模型是不是落伍了”我想说“虽然都叫超大模型但是类型是不一样的虽说每一类模型训出来都不容易不过澄清一下概念还是必要的”。大概盘算了一下一年多来业界发布了非常多的大模型从去年OpenAI GPT-3 1750亿参数开始到年初华为盘古大模型 1000亿鹏程盘古-α 2000亿参数Google switch transformer 1.6万亿及近期的智源悟道2.0 1.75万亿参数 MoE快手1.9万亿参数推荐精排模型阿里达摩院M6 1万亿参数等很多小伙伴看的是眼花缭乱那究竟这些模型有没有差异如果有差异差异在哪里首先我想说这些模型都是基于Transformer结构但是在模型扩展上有非常大的不同。从计算角度看我们可以把这些大模分成3类稠密Transformer OpenAI GPT-3华为盘古/鹏程盘古αMindSpore支撑模型规模的扩展是全结构的扩容稀疏MoE结构Transformer Google Switch Transformer智源悟道2.0阿里M6。一般来说是选择一个基础的稠密模型通过MoE稀疏结构扩展FFN部分以此来达成模型的扩容高维稀疏特征推荐模型快手推荐精排我理解主要是推荐的高维稀疏特征Embedding需要超大参数推荐类模型是一个比较独立的计算特征网络这个我们最后分析。其中相似性非常大的是稠密Transformer和稀疏MoE结构Transformer下面我们以Google Switch Transformer来对比两者的差异。下面两张图是Google Switch Transformer论文中和T5的对比Switch Transformer是基于T5通过MoE稀疏结构扩展。我们用Switch-Base作为这次分析对比基准。Switch-Base是基于T5-Base的MoE稀疏扩展模型参数规模比T5-Base大33倍从计算角度看内存开销是T5的33倍算力开销和T5-Base一致。同时我们拿Switch-Base和T5-Large做一个对比。Switch-Base参数规模是T5-Large的10倍也就是说内存开销是T5的10倍算力开销是T5-Large的29%从下面这个表格的下游任务对比来看在同样的算力开销下Switch-Base的效果比T5-Base整体上要好这个优势是通过33倍的内存开销换取的但是同时Switch-Base在参数量比T5-Large大了10倍的情况下效果比T5-Large要差一些。所以我们不能单纯从参数规模来衡量一个网络的效果需要通过参数量和计算量来综合对比需要我们探索一种新的指标综合考虑内存和算力开销来评估一个模型。另外从Switch Transformer 1.6万亿模型来看其计算量只有稠密T5 130亿参数的10%参数量是其100倍如果从每个参数消耗的算力来计算1.6万亿稀疏模型只是稠密的千分之一即1.6万亿参数的Switch Transformer的计算量相当于10亿参数的稠密的Transformer。那么从训练角度来看MoE大模型的计算量较少重点是做好模型参数的切分从switch transformer的实践看主要使用数据并行MoE并行的组合而稠密的Transformer计算和通信量非常大所以盘古-α需要在2K张卡上进行训练同时也需要复杂的pipeline并行/算子级模型并行/数据并行等并行切分策略来确保2k集群的算力能被充分利用个人认为训练挑战更大。从推理的角度看MoE的模型参数量非常大我觉得可能需要通过蒸馏/量化等手段进行压缩才更适合使用挑战很大也是MoE模型推广面临的障碍。快手的1.9万亿参数网络是一种高维稀疏推荐网络拿Google WideDeep来对比更为恰当。快手推荐网络的优化应该是在后面的DNN层用了Transformer结构而模型头部的Embedding部分还是保持和传统深度学习推荐网络类似没有找到相关论文不对请指正。这类型网络为了表达高维稀疏特征会有一个超级大的Embedding参数主要是集中在头部的特征Embedding部分。这种类型网络的训练方式和前面讲的完全不同核心技术是Embedding的模型并行以及CPU/NPU的协同计算和存储。华为诺亚实验室在今年SIGIR 2021上发表的“ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table”是目前一种最好的训练方案之一也将会在MindSpore上开源。这里就不再展开分析。除了Transformer这种算法结构外还是有CNN类的超大模型也可以分成两类这两类模型也是稠密的参数量和计算量是成正比。超大分类层超大规模人脸识别、图像分类网络其典型特征是CNN特征抽取之后的FC分类层超级大。例如千万ID的人脸识别FC层的参数规模就达到了50亿。超大Activation遥感和超高分辨率图像处理这类网络参数量不大和传统CNN的参数量类似在百M级别。但是这种模型的输入数据以及计算过程中的Activation非常大。以遥感为例平均输入样本的分辨率就有[30000, 30000, 4]一个样本就有3.6GB大的图像有10GB以上中间层Activation也是GB级别的大小。所以总的来说在NLP、多模态、推荐、图像处理领域都有大模型目前业界比较火热讨论的主要是基于TransformerMoE结构的NLP及多模态大模型我们期望通过这篇文章让小伙伴能了解这些模型在计算上的差异。寻求报道、约稿、文案投放添加微信xixiaoyao-1备注“商务合作”后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集

查看全文

http://www.pierceye.com/news/759804/