网站内容建设的建议,企业网站做口碑营销,福建网站开发企业,如何利用网络进行推广和宣传主要参考资料 B站视频《【项目原作解读】RWKV Foundation侯皓文#xff1a;新型RNN模型RWKV#xff0c;结合Transformer的并行化训练优势和RNN的高效推理》 RWKV官网: https://www.rwkv.com/ 目录 前言RWKV由来模型架构关键结果劣势未来展望 前言
RNN无法并行化#xff0c;… 主要参考资料 B站视频《【项目原作解读】RWKV Foundation侯皓文新型RNN模型RWKV结合Transformer的并行化训练优势和RNN的高效推理》 RWKV官网: https://www.rwkv.com/ 目录 前言RWKV由来模型架构关键结果劣势未来展望 前言
RNN无法并行化Transformer的二次复杂度RWKV的改善。
RWKV由来
RNN的局限是无法进行并行化训练相较Transformer处于劣势。
继《Attention is all you need》横空出世后针对Transformer的二次Attention苹果提出AFT的线性AttentionRWKV受苹果启发提出时间衰减向量的概念。
模型架构
一个Embeding Input进入RWKV首先会进入Time-mixing模块会跟之前的文本信息进行一次融合。之后是channel-mixing模块会对每个词的channel进行混合和非线性增强非线性能力。
关键结果
在LAMBADA测试集中RWKV的劣势在参数量小的时候与Transformer有一定的差距因为Transformer可以将过去的数据集都拉出来重算一遍。 但是在7B时RWKV已经接近Tranformer14B时已经不相上下。因此从模型角度RWKV更有优势。 PS但是GPT-3已经是175B的数据量了。。。 GPT无所谓我有钱
再次重申RWKV的优越性时间复杂度更低。
数据量7B的RWKV至少需要CPU内存12GB 或者 显卡显存9GB。。。
劣势
RNN的特性让RWKV在对前文的记忆很差因此需要精心设计prompt。
未来展望
1RWKV可以进一步提高效率遗忘是不是更严重 2增加多模态现在只是decoder