河南卫生基层系统网站建设,成都网站建设定制开发系统,沈阳之道网站建设,广西南宁最新消息新闻前言
我司第二项目组一直在迭代论文审稿GPT(对应的第二项目组成员除我之外#xff0c;包括#xff1a;阿荀、阿李、鸿飞、文弱等人)#xff0c;比如
七月论文审稿GPT第1版#xff1a;通过3万多篇paper和10多万的review数据微调RWKV七月论文审稿GPT第2版#xff1a;用一万…前言
我司第二项目组一直在迭代论文审稿GPT(对应的第二项目组成员除我之外包括阿荀、阿李、鸿飞、文弱等人)比如
七月论文审稿GPT第1版通过3万多篇paper和10多万的review数据微调RWKV七月论文审稿GPT第2版用一万多条paper-review数据集微调LLaMA2 7B最终反超GPT4七月论文审稿GPT第2.5和第3版分别微调GPT3.5、Llama2 13B以扩大对GPT4的优势
所以每个星期都在关注各大公司和科研机构推出的最新技术、最新模型
而Google作为曾经的AI老大我司自然紧密关注所以当Google总算开源了一个gemma 7b作为有技术追求、技术信仰的我司那必须得支持一下比如用我司的paper-review数据集微调试下彰显一下gemma的价值与威力
此外去年Mistral instruct 0.1因为各种原因导致没跑成功时我总感觉Mistral应该没那么拉胯总感觉得多实验几次所以打算再次尝试下Mistral instruct 0.2 第一部分 通过我司的paper-review数据集微调Mistral 7B instruct 0.2
// 待更 第二部分 通过我司的paper-review数据集微调Google gemma
2.1 Google推出gemma试图与llama、Mistral形成三足鼎立之势
Google在聊天机器人这个赛道上可谓被双向夹击
闭源上被OpenAI的ChatGPT持续打压一年多(尽管OpenAI用的很多技术比如transformer、CoT都是Google发明的尽管Google推出了强大的Gemini)开源上则前有Meta的llama后有Mistral的来势汹汹
终于在24年2.21按耐不住推出了开源模型gemma(有2B、7B两个版本这是其技术报告这是其解读之一)试图对抗与llama、Mistral在开源场景上形成三足鼎立之势 2.1.1 gemma 7B的性能比肩Mistral 7B、超越llama 7B
Gemma 7B在 18 个基于文本的任务中的 11 个上优于相似参数规模的开放模型例如除了问答上稍逊于llama 13B其他诸如常识推理、数学和科学、编码等任务上的表现均超过了llama2 7B/13B、Mistral 7B 2.1.2 模型架构基于transformer解码器、多头/多查询注意力、RoPE、GeGLU
Gemma 模型架构基于 Transformer 解码器模型训练的上下文长度为 8192 个 token此外gemma还在原始 transformer 论文的基础上进行了改进改进的部分包括 多查询注意力7B 模型使用多头注意力(即MHA如下图左侧所示)而 2B 检查点使用多查询注意力(即MQA如下图右侧所示__ℎ 1关于GQA的更多介绍请参见《一文通透各种注意力从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA》) RoPE 嵌入Gemma 在每一层中使用旋转位置嵌入而不是使用绝对位置嵌入此外Gemma 还在输入和输出之间共享嵌入以减少模型大小GeGLU 激活标准 ReLU 非线性函数被 GeGLU 激活函数取代Normalizer LocationGemma 对每个 transformer 子层的输入和输出进行归一化这与仅对其中一个或另一个进行归一化的标准做法有所不同另gemma使用RMSNorm 作为归一化层
2.1.3 预训练、指令调优、RLHF、监督微调
对于 7B 模型谷歌在 16 个pod(共计4096 个TPUv5e)上训练模型他们通过 2 个pod对2B模型进行预训练总计 512 TPUv5e
在一个 pod 中谷歌对 7B 模型使用 16 路模型分片和 16 路数据复制对于 2B 模型只需使用 256 路数据复制
优化器状态使用类似 ZeRO-3 的技术进一步分片。在 pod 之外谷歌使用了 Pathways 方法通过数据中心网络执行数据复制还原
预训练 Gemma 2B 和 7B 分别在来自网络文档、数学和代码的 2T 和 6T 主要英语数据上进行训练。与 Gemini 不同的是这些模型不是多模态的也不是为了在多语言任务中获得最先进的性能而训练的 为了兼容谷歌使用了 Gemini 的 SentencePiece tokenizer 子集。它可以分割数字不删除多余的空白并对未知 token 进行字节级编码 至于词表gemma则比llama2 所用的32K大太多了为 256k 个 token(导致我们微调gemma 7b时在论文审稿所需要的理想长度12K之下且在已经用了qlora和flash attention的前提之下48g显存都不够详见下文)指令调优与RLHF 谷歌通过在仅文本、仅英语合成和人类生成的 prompt 响应对的混合数据上进行监督微调即SFT以及利用在仅英语标记的偏好数据和基于一系列高质量 prompt 的策略上训练的奖励模型进行人类反馈强化学习即RLHF对 Gemma 2B 和 Gemma 7B 模型进行微调 具体而言 gemma根据基于 LM 的并行评估结果来选择自己的混合数据以进行监督微调。给定一组留出的heldout prompt 让测试模型生成response并让基线模型生成相同prompt下的response然后让规模更大的高性能模型来预测哪个response更符合人类的偏好 gemma还构建不同的 prompt 集来突出特定的能力例如指令遵循、真实性、创造性和安全性等。gemma使用了不同的自动化LM裁判它们采用了多种技术比如思维链提示、对齐人类偏好等
// 待更