北邻京网站茵建设,南宁网络营销策划推广公司,灞桥微网站建设,建设网站需要提交什么资料近几天开源社区最大的热点#xff0c;莫过于埃隆马斯克信守承诺的最大开源模型Grok-1。
Grok-1 是一款 314B 大型专家混合 (Mixture of Expert#xff0c;MoE) Transformer#xff0c;作为基础模型#xff0c;基于大量文本数据进行训练#xff0c;没有针对任何具体任务进…近几天开源社区最大的热点莫过于埃隆马斯克信守承诺的最大开源模型Grok-1。
Grok-1 是一款 314B 大型专家混合 (Mixture of ExpertMoE) Transformer作为基础模型基于大量文本数据进行训练没有针对任何具体任务进行微调使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。
官方提供的详细模型参数如下 参数量 3140亿 架构 8个混合专家模型MoE每个Token使用2个专家 层数 64层 多头注意力 Q使用48个注意力头K/V 使用8个注意力头 嵌入尺寸 6,144 词表大小 131,072个Tokens采用SentencePiece 分词器 使用RoPE位置编码 支持激活分片和8位量化 最大序列长度上下文 8,192个Tokens
模型性能方面Grok-1官方发布的Benchmark超过GPT-3.5 和 LLaMa2 70BMMLU 为73%GMSK 为62.9%HumanEval 为63.2% 话题中的模型效果如何老规矩我们向大家提供推理实践教程~
更多大模型实战案例 实践合集《大模型实战宝典》2024版正式发布 模型链接和下载
Grok-1模型在ModelScope社区可下载
模型链接https://www.modelscope.cn/models/AI-ModelScope/grok-1/summary
社区支持直接下载模型的repo
from modelscope import snapshot_download
model_dir snapshot_download(AI-ModelScope/grok-1)Grok推理和评测
环境准备
Grok-1需要8卡A100运行。原始模型是Jax框架编写因此使用魔搭默认镜像无法工作为此需要使用Jax的镜像
docker pull ghcr.io/nvidia/jax:jax
# 如果国内用户无法拉取上面的镜像可以使用我们转储的镜像
# docker pull registry.cn-wulanchabu.aliyuncs.com/ed/jax:1.0进入docker实例之后对grok代码库进行克隆
git clone https://github.com/xai-org/grok-1.git
cd grok-1
pip install -r requirements.txt
# 修正Jax版本
pip install --upgrade jax[cuda12_local]0.4.23 -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html运行推理可以直接使用官方提供的样例
# cd grok-1
# 修改样例中的CKPT_PATH ModelScope下载的模型路径
python run.py显存占用 技术交流群
前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
我们建了大模型算法岗技术与面试交流群 想要进交流群、需要源码资料、提升技术的同学可以直接加微信号mlc2060。加的时候备注一下研究方向 学校/公司CSDN即可。然后就可以拉你进群了。 方式①、微信搜索公众号机器学习社区后台回复加群 方式②、添加微信号mlc2060备注技术交流 实践合集《大模型实战宝典》2024版正式发布
用通俗易懂方式讲解系列
用通俗易懂的方式讲解自然语言处理初学者指南附1000页的PPT讲解用通俗易懂的方式讲解1.6万字全面掌握 BERT用通俗易懂的方式讲解NLP 这样学习才是正确路线用通俗易懂的方式讲解28张图全解深度学习知识用通俗易懂的方式讲解不用再找了这就是 NLP 方向最全面试题库用通俗易懂的方式讲解实体关系抽取入门教程用通俗易懂的方式讲解灵魂 20 问帮你彻底搞定Transformer用通俗易懂的方式讲解图解 Transformer 架构用通俗易懂的方式讲解大模型算法面经指南附答案用通俗易懂的方式讲解十分钟部署清华 ChatGLM-6B实测效果超预期用通俗易懂的方式讲解内容讲解代码案例轻松掌握大模型应用框架 LangChain用通俗易懂的方式讲解如何用大语言模型构建一个知识问答系统用通俗易懂的方式讲解最全的大模型 RAG 技术概览用通俗易懂的方式讲解利用 LangChain 和 Neo4j 向量索引构建一个RAG应用程序用通俗易懂的方式讲解使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA用通俗易懂的方式讲解面了 5 家知名企业的NLP算法岗(大模型方向)被考倒了。。。。。用通俗易懂的方式讲解NLP 算法实习岗对我后续找工作太重要了。用通俗易懂的方式讲解理想汽车大模型算法工程师面试被问的瑟瑟发抖。。。。用通俗易懂的方式讲解基于 Langchain-Chatchat我搭建了一个本地知识库问答系统用通俗易懂的方式讲解面试字节大模型算法岗(实习)用通俗易懂的方式讲解大模型算法岗(含实习)最走心的总结用通俗易懂的方式讲解大模型微调方法汇总