广州网站优化公司,什么网站可以做动画,一般网站维护要多久,潍坊网站建设兼职核心结论
1#xff1a;LLM模型的性能主要与计算量C#xff0c;模型参数量N和数据大小D三者相关#xff0c;而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足: C ≈ 6ND
2. 为了提升模型性能#xff0c;模型参数量N和数据大小D需要同步放大#xff0c;但模型和数…核心结论
1LLM模型的性能主要与计算量C模型参数量N和数据大小D三者相关而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足: C ≈ 6ND
2. 为了提升模型性能模型参数量N和数据大小D需要同步放大但模型和数据分别放大的比例还存在争议。 首先看一下核心结论1是怎么推导得到的。 针对transformer结构Parameters 参数量不含embedding层为N每个Token前向传播消耗运算量C 约为 2N反向传播的运算量又是前向传播运算量的两倍所以每个Token需要花费的运算量C 约为 2N 2*(2N) 6N。现在Token的数量为D所以总的运算量为C 6N*D。 核心公式本部分来自参考2. 第一项是指无法通过增加模型规模来减少的损失可以认为是数据自身的熵例如数据中的噪音第二项是指能通过增加计算量来减少的损失可以认为是模型拟合的分布与实际分布之间的差。
根据公式增大 (例如计算量C)模型整体loss下降模型性能提升伴随 (例如计算量C) 趋向于无穷大模型能拟合数据的真实分布让第二项逼近0整体趋向于
结论验证 从图上可以看出
1当模型的参数量 N 为时图中紫色的线在 Token 数量达到 后图中红色的圈模型基本收敛继续增加训练的 Token 数量纵轴的Test Loss 并没有明显下降。
2如果此时增加模型的参数量N-。 纵轴的Test Loss从6.x-3.x。可以看出提升模型参数量带来的收益更大。 思考一个问题基于上图当模型的参数量 N 为时图中紫色的线
1模型达到收敛状态时需要消耗的算力C是多少
2模型达到收敛状态时的耗时是多久呢
先看答案下图红色箭头指向位置也就是图中紫色线的拐点。
1算力消耗
2耗时 如果没做实验怎么知道上面的答案呢
根据核心公式1,得到 Tips
PF-days: 如果每秒钟可进行1015次运算就是1 peta flops那么一天的运算就是1015×24×36008.64×1019这个算力消耗被称为1个petaflop/s-day。 再看个例子
下图是Baichuan-2技术报告中的Scaling Law曲线。基于10M到3B的模型在1T数据上训练的性能可预测出最后7B模型和13B模型在2.6T数据上的性能。 问题1在1T的数据上训练的10M-3B的模型是怎么推算训练7B/13B需要2.6T数据呢 2.38T 是理论数值与 2.6T基本一致了。
问题27B/13B模型的理论损失是多少呢
将10M-3B不同尺寸的模型训练到收敛状态即上图将每个模型的loss拐点记录进行拟合得到幂函数上图中蓝色粗线-scaling law将C 带入拟合函数就可以得到7B/13B模型的理论预期Loss了。 参考
1介绍一些Scaling Laws - 知乎
2解析大模型中的Scaling Law - 知乎