山东省城乡住房和城乡建设厅网站,有没有教做网站的app,阳江房产网二手房林夏婷经纪人,桂林新闻稀疏计算可能是未来10年内最有潜力的深度学习方向之一#xff0c;稀疏计算模拟了对人脑的观察#xff0c;人脑在处理信息的时候只有少数神经元在活动#xff0c;多数神经元是不工作的。而稀疏计算的基本思想是#xff1a;在计算过程中#xff0c;将一些不重要的参数设置为…稀疏计算可能是未来10年内最有潜力的深度学习方向之一稀疏计算模拟了对人脑的观察人脑在处理信息的时候只有少数神经元在活动多数神经元是不工作的。而稀疏计算的基本思想是在计算过程中将一些不重要的参数设置为0从而减少计算量。而这种计算量的减少规模经常是10倍级别这为部署提速提供了想象力。业界已有一些公司例如墨芯科技在做这方面的工作并取得了一些成果大家可以看他们的宣传视频https://mp.weixin.qq.com/s/NHydrLhqJYGbvF7eY2m9RA下面推荐几篇经典的文章
The Lottery Ticket Hypothesis彩票假说
推荐理由 这是这个领域里非常经典的一篇文章作者提出了一种生成稀疏的高性能网络的简单方法在对网络进行训练后将所有小于某个阈值的权重设置为0对其进行剪枝将其余权重重置回其初始配置然后在保证被剪枝的权重处于冻结状态的情况下未经过训练从这个起始配置重新训练网络。在训练最多相同次数的迭代后它可以与原始网络的测试精度相匹配。论文地址 https://openreview.net/pdf?idrJl-b3RcF7相关解读 https://zhuanlan.zhihu.com/p/675189739 和 https://www.bilibili.com/read/cv2806397/
A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING 来自Jeff Dean的综述 推荐理由 尽管彩票假说给业界提供了想象力但是选择哪些参数裁掉仍是业界一个需要探索的问题。MoE结构提供了一种方案例如Mixtral 8✖️7B就是一种典型的MoE结构https://zhuanlan.zhihu.com/p/673527090。Jeff Dean的综述比较详细地介绍了什么是top-k routing、Upstream Scaling和Downstream Scaling 论文地址 https://arxiv.org/abs/2209.01667 相关解读 https://mp.weixin.qq.com/s/mTqCMYUqo1ifcmxlYHYm2A 和 https://huggingface.co/blog/zh/moe
SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot 推荐理由 该算法能够只用一张 A100(80G)在 4.5 个小时左右将 OPT-175B 的模型权重完成 60% 稀疏度的剪枝且能保持较高的精度。而且可以很好地扩展到 2:4 模式的半结构化剪枝以适配 A100 的稀疏计算。SparseGPT用来剪枝的思路其实和GPTQ有些类似都是利用海森矩阵贪心地进行迭代更新同时利用Cholesky分解来稳定数值计算论文地址 https://arxiv.org/pdf/2301.00774.pdf