湖南网红网站建设有限公司,建设网站的目的和意义是什么,企业网站设计要点,网站开发需求书马斯克真不愧是源神#xff0c;自开源X的推荐算法以及特斯拉智能驾驶算法后#xff0c;又说到做到#xff0c;开源旗下大模型Grok#xff01; 代码和模型权重已上线GitHub。官方信息显示#xff0c;此次开源的Grok-1是一个3140亿参数的混合专家模型#xff0c;远超OpenAI…马斯克真不愧是源神自开源X的推荐算法以及特斯拉智能驾驶算法后又说到做到开源旗下大模型Grok 代码和模型权重已上线GitHub。官方信息显示此次开源的Grok-1是一个3140亿参数的混合专家模型远超OpenAI GPT-3.5的1750亿。就是说这是当前开源模型中参数量最大的一个遵照Apache 2.0协议开放模型权重和架构。
消息一出Grok-1的GitHub仓库已揽获15K标星并且还在库库猛涨。
GitHub地址https://github.com/xai-org/grok-1?tabreadme-ov-file
目前Grok-1的源权重数据大小大约为300GB。 表情包们第一时间被吃瓜群众们热传了起来。 而ChatGPT本Chat也现身Grok评论区开始了和马斯克新一天的斗嘴…… Grok-1介绍
此次开源xAI发布了Grok-1的基本模型权重和网络架构。
具体来说是2023年10月预训练阶段的原始基础模型没有针对任何特定应用例如对话进行微调。
Grok-1是一个混合专家Mixture-of-ExpertsMOE大模型这种MOE架构重点在于提高大模型的训练和推理效率形象地理解MOE就像把各个领域的“专家”集合到了一起遇到任务派发给不同领域的专家最后汇总结论提升效率。决定每个专家做什么的是被称为“门控网络”的机制。 在GitHub页面上官方特别强调了Grok模型的巨大规模总共314B参数这意味着运行Grok需要强大的GPU和内存支持。
此外模型的权重文件以磁力链接的形式提供文件大小接近300GB这也是一个相当庞大的数字。 除了参数规模之外Grok在工程架构上也颇具创新精神——它并没有选择常见的Python、PyTorch或Tensorflow而是采用了Rust编程语言和新兴的深度学习框架JAX。
除了官方通告外一些专家通过深入分析代码等方式揭示了更多关于Grok的技术细节。例如斯坦福大学的Andrew Kean Gao就对Grok的技术细节进行了深入解释。
他指出Grok采用了旋转的embedding方式而非传统的固定位置embedding旋转位置的embedding大小为6144与输入embedding相同这种创新方法为Grok的性能和效率提供了新的可能性.
当然还有更多的参数信息 Transformer层数为64每层都有一个解码器层包含多头注意力块和密集块 key value大小为128多头注意力块中有48 个头用于查询8 个用于KVKV 大小为 128密集块密集前馈块扩展因子为8隐藏层大小为32768。窗口长度为8192tokens精度为bf16Tokenizer vocab大小为1310722^17与GPT-4接近embedding大小为614448×128
除了Gao还有英伟达AI科学家Ethan He何宜晖指出在专家系统的处理方面Grok也与另一知名开源MoE模型Mixtral不同Grok对全部的8个专家都应用了softmax函数然后从中选择top2专家而Mixtral则是先选定专家再应用softmax函数。
而至于有没有更多细节可能要看官方会不会发布进一步的消息了另外值得一提的是Grok-1采用的是Apache 2.0 license也就是说支持商用。