当前位置: 首页 > news >正文

潍坊网站建设 马小程序开发外包服务合同

潍坊网站建设 马,小程序开发外包服务合同,潮阳网站制作,茶楼网站源码1. 背景 本qiang~这段时间调研了LLM上下文扩展的问题#xff0c;并且实打实的运行了几个开源的项目#xff0c;所谓实践与理论相结合嘛#xff01; 此文是本qiang~针对上下文扩展问题的总结#xff0c;包括解决方案的整理概括#xff0c;文中参考了多篇有意义的文章并且实打实的运行了几个开源的项目所谓实践与理论相结合嘛 此文是本qiang~针对上下文扩展问题的总结包括解决方案的整理概括文中参考了多篇有意义的文章他山之石可以攻玉。 大语言模型的扩展有诸多意义如进行更长的会话、总结更长的文档等。 2. 上下文扩展方案 2.1 位置插值 位置插值(Position Interpolation)是Meta研究人员在去年发布的论文《EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION》提出的方案基线模型为LLAMALLAMA采用的位置编码是苏神提出的ROPE(如果苏神的文章理论不清楚推荐拜读下FireFly作者的《图解RoPE旋转位置编码及其特性》连接在文末)但ROPE的外推性效果不佳位置插值则做了进一步的改进优化。 位置插值的原理图如下 原理其实很简单通过线性降低输入位置索引以匹配原始上下文窗口大小然后通过少量微调工作然后将LLaMA 7B和65B模型初始的2048扩展到32768效率和效果均有保障。 位置插值的代码可以参考transformers中LlamaLinearScalingRotaryEmbedding方法该防范继承了ROPE的基础类LlamaRotaryEmbedding改动之处仅在于图中标红之处。 2.2 LongLoRA LongLoRA是港中文大学和MIT联合发出的论文《LONGLORA:EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS》提出的方法本论文的主要改进之处在于 1. 基于位置插值方法在上下文扩展任务中引入LoRA方法降低对硬件资源的专需。 2. 提出了shift short attention将attention的直接计算改进为分组计算且保障相邻组间信息共享。 3. 将norm层及embed层也加入到微调训练中该部分的参数占比相对较少。 LoRA大家应该很熟悉下面将重点介绍shift short attention。原理图如下 (1) 首先将head维度的特征拆分为2块 (2) 然后将其中一组的特征被移动移动大小为group size的一半 (3) 将tokens拆分成组且reshape为batch维然后attention计算 (4) 最后将计算后的结果进行还原。 shift short attention的伪代码如下具体代码可以参考LongLoRA的github仓库 2.3 LongQLoRA LongQLoRA的论文是《LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS》主要的思想就是在LongLoRA的基础上引入了量化操作进一步降低了显卡需求。(Ps: 其实LongLoRA项目本身也集成了量化微调) LongQLoRA仅在一张32G的V100上可以将LLaMA2的7B和13B从4096扩展到8192甚至12K仅需要1000步微调即可。 LongQLoRA本身也是基于transformers架构因此引入量化配置仅需要些许改动即可具体如下 3. 总结 一句话足矣~ 本文主要展示了LLM长文本扩展的方法包括位置插值、LongLoRA、LongQLoRA等论文的简单概述。 此外所有的论文最好能够结合源码进行开展目前本qiang~就在践行这一条路线欢迎大家一块交流。 4. 参考 (1) ROPE原理: https://spaces.ac.cn/archives/8265 (2) 图解ROPE: https://mp.weixin.qq.com/s/-1xVXjoM0imXMC7DKqo-Gw (3) 位置插值论文: https://arxiv.org/pdf/2306.15595v2.pdf (4) LongLoRA论文: https://arxiv.org/pdf/2309.12307v2.pdf (5) LongLoRA代码https://github.com/dvlab-research/longlora (6) LongQLoRA论文https://arxiv.org/pdf/2311.04879v2.pdf (7) LongQLoRA代码https://github.com/yangjianxin1/longqlora
http://www.pierceye.com/news/454777/

相关文章:

  • 渭南做网站的公司商业网站后缀名
  • 凡科建站电话邙山网站建设
  • 哪些网站可以做ppi小程序源码什么意思
  • 做公司网站都需要哪些东西产品画册设计公司
  • 网页优化与网站优西安开发网站建设
  • 大连建设监察执法网站免费icp备案服务码
  • 潮州做网站京东网站建设步骤
  • 遂宁模板建站公司懂福溶州做戒网站
  • 百度网站下拉排名农村电商平台发展现状
  • 移动端网站开发与网页开发区别wordpress首页文章显示
  • 有什么网站是layui做的wordpress 微信咨询菜单
  • 湖南网站seo营销x cache wordpress
  • 网站建设太金手指六六十八知名网站建设推荐
  • WordPress找不到站点做好评做销量的网站
  • 网站建设项目经历东莞市官网网站建设企业
  • FileZilla做网站程序开发的难点
  • 网站开发前端制作网站flsh怎么做
  • 建设网站需申请什么手续如何申请公司名称注册
  • 中山网站制无锡公司建立网站
  • 优化推广网站网站建设的岗位职责
  • 网站建设制作设计优化兰州如何用织梦建网站
  • wordpress 网站禁用全屏代码百度怎么建设网站
  • 强军网网站建设北京各大网站推广服务公司
  • 西安优秀的集团门户网站建设公司网站建设中 优秀账户的标准
  • 网站建设的对比分析移动设备网站开发注意点
  • 在word上怎么做网站链接网站开发试题
  • 自己做网站新手入门淮北论坛招聘网
  • 建网站的意义大学跳蚤市场网站建设
  • 平阳做网站成都网站优化公司哪家好
  • 庆阳北京网站建设广东省建设工程执业中心网站