当前位置: 首页 > news >正文

宽屏大气通用企业网站源码asp模板源码程序生成静态html做社区网站

宽屏大气通用企业网站源码asp模板源码程序生成静态html,做社区网站,广州营销型网站建设哪家好,定西营销型网站建设大家好#xff0c;目前不少开源模型在通用领域具有不错的效果#xff0c;但由于缺乏领域数据#xff0c;往往在一些垂直领域中表现不理想#xff0c;这时就需要增量预训练和微调等方法来提高模型的领域能力。 但在领域数据增量预训练或微调时#xff0c;很容易出现灾难性…大家好目前不少开源模型在通用领域具有不错的效果但由于缺乏领域数据往往在一些垂直领域中表现不理想这时就需要增量预训练和微调等方法来提高模型的领域能力。 但在领域数据增量预训练或微调时很容易出现灾难性遗忘现象也就是学会了垂直领域知识但忘记了通用领域知识之前介绍过增量预训练以及领域大模型训练技巧。 今天给大家带来一篇增量预训练方法-Llama-Pro对LLMs进行Transformer块扩展后增量预训练过程中仅对新增块进行训练有效地进行模型知识注入并且极大程度地避免灾难性遗忘。 LLaMA Pro: Progressive LLaMA with Block Expansion LLaMA Pro: Progressive LLaMA with Block Expansion Paper: https://arxiv.org/abs/2401.02415 Github: https://github.com/TencentARC/LLaMA-Pro文章目录 技术交流群用通俗易懂方式讲解系列块扩展方法实验细节讨论分析写在最后 技术交流群 前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~ 我们建了大模型面试与技术交流群 想要进交流群、需要源码资料、提升技术的同学可以直接加微信号mlc2060。加的时候备注一下研究方向 学校/公司CSDN即可。然后就可以拉你进群了。 方式①、微信搜索公众号机器学习社区后台回复加群 方式②、添加微信号mlc2060备注技术交流 资料1 用通俗易懂方式讲解系列 用通俗易懂的方式讲解自然语言处理初学者指南附1000页的PPT讲解用通俗易懂的方式讲解1.6万字全面掌握 BERT用通俗易懂的方式讲解NLP 这样学习才是正确路线用通俗易懂的方式讲解28张图全解深度学习知识用通俗易懂的方式讲解不用再找了这就是 NLP 方向最全面试题库用通俗易懂的方式讲解实体关系抽取入门教程用通俗易懂的方式讲解灵魂 20 问帮你彻底搞定Transformer用通俗易懂的方式讲解图解 Transformer 架构用通俗易懂的方式讲解大模型算法面经指南附答案用通俗易懂的方式讲解十分钟部署清华 ChatGLM-6B实测效果超预期用通俗易懂的方式讲解内容讲解代码案例轻松掌握大模型应用框架 LangChain用通俗易懂的方式讲解如何用大语言模型构建一个知识问答系统用通俗易懂的方式讲解最全的大模型 RAG 技术概览用通俗易懂的方式讲解利用 LangChain 和 Neo4j 向量索引构建一个RAG应用程序用通俗易懂的方式讲解使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA用通俗易懂的方式讲解面了 5 家知名企业的NLP算法岗(大模型方向)被考倒了。。。。。用通俗易懂的方式讲解NLP 算法实习岗对我后续找工作太重要了。用通俗易懂的方式讲解理想汽车大模型算法工程师面试被问的瑟瑟发抖。。。。用通俗易懂的方式讲解基于 Langchain-Chatchat我搭建了一个本地知识库问答系统面试了字节大模型算法岗(实习)快被问哭了。。。。 块扩展方法 块扩展顾名思义就是在原始模型中每个Transformer块或者某几个Transformer块后增加一个Transformer块但为了保持扩展后的模型输出保持不变需要增加的块为恒等块输入输出相同如下图所示。 在构建恒等块过程中主要是将多头注意力层和FFN层中的最后一个线性层Linear权重置为0变成Zero-Linear即可保持经过该块的输入输出一致。 PS论文附录A中写了大段的推导公式来证明在此不做过多介绍。 块的增加方式是对原始模型的 个Transformer块分成 组每组中包含 个Transformer块对于每组后添加 个恒等块。代码实现具体如下 model AutoModelForCausalLM.from_pretrained(model_path, torch_dtypetorch.float16) ckpt model.state_dict()# original_layers是模型原始层数layers是模型最后达到层数 split int(original_layers / (layers - original_layers))layer_cnt 0output {} for i in range(original_layers):for k in ckpt:if (layers. str(i) .) in k:output[k.replace((layers. str(i) .), (layers. str(layer_cnt) .))] ckpt[k]layer_cnt 1if (i1) % split 0:for k in ckpt:if (layers. str(i) .) in k:if down_proj in k or o_proj in k:output[k.replace((layers. str(i) .), (layers. str(layer_cnt) .))] torch.zeros_like(ckpt[k])else:output[k.replace((layers. str(i) .), (layers. str(layer_cnt) .))] ckpt[k]layer_cnt 1assert layer_cntlayers for k in ckpt:if not layers in k:output[k] ckpt[k]torch.save(output, output_path) 实验细节 数据由代码和数学组成其中代码数据采用The-Stack-Dedup数据集中Python语言部分共22B Token数学数据采用Proof-Pile-2数据集中AlgebraicStack、OpenWebMath和ArXiv部分共55B详细如下表所示。 数据分布 基础模型为LLaMA2-7B模型通过块扩展方法将32层模型扩展到40层其中 、 、 每个组从4个Transformer块扩展到5个Transformer块。 对于代码和数学数据进行增量预训练批量大小为1024序列最大长度为4096预热比率为6%学习率为2e-4采用余弦学习率调度器BF16混合精度训练权重衰减为0.1。使用16个NVIDIA H800 GPU进行了15900个步骤的训练大约耗费2830个GPU/小时。 在ARC、HellaSwag、MMLU、TruthfulQA、Winogrande、GSM8K、GSM8K-PoT、HumanEval、MBPP等多个评测数据集中进行评测可以看出在保持通用任务能力不下降的情况下数学和代码能力较原始LLaMA2-7B模型有很大提升。 讨论分析 对比块扩展方法与正常训练和Lora方法之间的区别采用TRACE基准利用总体性能OP和逆向转移BWT指标进行评估。如下表所示块扩展方法整体提升较大。 对比块个数对块扩展方法的影响进行了不同个数块的实验并且对比了MoE的方法训练损失如下MoE方法的损失下降程度与添加四个块相当。 在代码和法律16.7B领域数据下进行增量预训练在通用任务以及领域任务上比较不同个数块之间的差异同时比较扩展块全部添加到模型底部或顶部之间的差别如下所示。可以发现块个数为8时效果最佳并且不能直接将扩展块全部堆积在头部或尾部需要分开插入。 写在最后 该方法主要通过增加恒定块扩展模型层数使模型在增量训练过程中仅训练新增层、冻结原始层保持模型原有能力防止模型出现灾难性遗忘现象。 但有两点存疑 目前来说mistral要好于llama为啥不用mistral进行实验 不用恒定块性能会差多少
http://www.pierceye.com/news/630198/

相关文章:

  • 做网站顾客提现金额后台私做网站名电子章
  • ps做网站素材文件打包开源软件开发
  • 焦作网站建设价格asp网站怎么运行
  • 宜昌市做网站的公司页面设计图片大全
  • 购买网站空间多少钱石家庄权威发布
  • 网站开发数据库动态管理网页制作商品页面模板
  • 电商网站设计模板平面设计师兼职网站
  • 网站建设的技术手段如何选择最好的域名
  • 汕头企业网站建设服务环境艺术设计网站推荐
  • 小米网站建设外贸网站建设哪家公司好
  • 怎样推广产品专业黑帽seo推广
  • 网站调用字体在阿里云备案网站通过
  • 手机网站做落地页石家庄网络营销
  • 如何把网站主关键词做到百度首页网站页面设计优化方案
  • 做门户网站多少钱做视频解析网站播放器和接口
  • 打开一个网站网站被挂马无法访问
  • 大连网站建设公司排名装饰设计公司哪个好
  • 苏州企业建设网站公司400电话网站源码
  • 贵州住房和城乡建设厅官网泰安千橙网站建设优化熊掌号
  • metro网站模板平面设计师网站
  • 怎样通过阿里云建设网站国内免费crm
  • 网站开发都需要学什么iis7网站建设
  • 网站 关键字it网站建设资讯网
  • 白银网站建设公司石家庄建行网站
  • 做网站全部乱码怎么办教学资源网站建设方案
  • 自己做的网站怎么添加文档做淘宝详情的网站
  • 安全认证的机票网站成就怎么做山东省住房和城乡建设厅政务服务
  • 海口网站建设方案咨询信息流优化师面试常见问题
  • 网上课程网站wordpress自定义页面分页
  • 自建站成本深圳网站建设营销服务平台