网站的引导页面是什么意思,推荐一下网站谢谢,广告设计制作图片,居士做网站一个框架#xff0c;和一篇论文#xff0c;改变了模型训练的规则
框架是BitNET 论文https://arxiv.org/abs/2410.16144 有人问我什么是1.58Bit 是这样的。
fp16是一般情况下模型训练后产物的精度。
比如qwen2 8B fp16#xff0c;文件大小15GB
如果量化成Q_4O#xff…一个框架和一篇论文改变了模型训练的规则
框架是BitNET 论文https://arxiv.org/abs/2410.16144 有人问我什么是1.58Bit 是这样的。
fp16是一般情况下模型训练后产物的精度。
比如qwen2 8B fp16文件大小15GB
如果量化成Q_4O也就4GB
量化相当于模型压缩会损失精度常见的精度是INT4 INT8
量化后模型小了小机器也能跑了。
但是比全精度fp16更容易产生幻觉胡说八道。
也就是说精度高硬件要求高更智能精度低硬件要求低更愚蠢
—好戏来了—
那篇论文提出了一种新的精度叫1.58bit约等于1bit
这种精度的模型如果按常理几乎无法使用因为精度太低。
但它提出了一种新的训练方法将模型中神经元的状态定义为三种-1 0 1
这种定义和SNN脉冲神经网络的神经元类似和人类大脑的神经元运作方式也类似。
-1低电压 0 正常 1 高于阀值
这种训练方式降低了精度为1.58bit但是训练后的模型和fp16精度的模型推理效果相差不大。
这意味着找到了一种低耗电低资源占用高产出的模型训练方法。
意味着在一台普通计算机上可以轻松运行8B甚至70B的模型。而且是全精度。
在更强性能的计算机上可以轻松运行406B的模型。并且和fp16精度性能相当。
我们使用的云的chat例如通义千问官网的chat不知道是全精度的还是量化后的。
如果拿全精度的跑分拿量化后的给用户用那纯粹是骗人。
但是1bit的诞生意味着厂商可以轻易的允许406B的模型并且性能等同于全精度fp16而耗能低的离谱。
但是也有缺陷将先有模型转换成1bit会导致模型幻觉增加想要实现最好的效果需要从头开始训练。
论文是中国人写的还封装了一个框架 BitNET这个框架隶属于微软。
总之这是深度学习领域比较疯狂的改变短短几天时间那个仓库就有了很多issue。
降低算力需求才能让模型走进千家万户。
这样也有助于提高模型的大小说不定未来我们使用的chat都是1000B的。
到那个时候AGI或许不再是问题人们也不需要工作了。都要饭去了。