当前位置: 首页 > news >正文

快站建站教程自建站

快站建站教程,自建站,合肥网站,江苏通力建设官方网站context阶段和generation阶段的不同 context阶段#xff08;又称 Encoder#xff09;主要对输入编码#xff0c;产生 CacheKV(CacheKV 实际上记录的是 Transformer 中 Attention 模块中 Key 和 Value 的值#xff09;#xff0c;在计算完 logits 之后会接一个Sampling 采…context阶段和generation阶段的不同 context阶段又称 Encoder主要对输入编码产生 CacheKV(CacheKV 实际上记录的是 Transformer 中 Attention 模块中 Key 和 Value 的值在计算完 logits 之后会接一个Sampling 采样模块采样出来第一个生成的 token并将这个 token 和 CacheKV 作为 generation阶段的输入 generation阶段又称 Decoder在一个 While 循环里读取 token 和 CacheKV 后通过自回归解码的方式每循环一次产生一个 token。generation阶段自己的输出作为自己的输入不断回归迭代就是「自回归」。在 While 处判断需要继续生成在 Attention 中计算出token对应的 CacheKV 信息存储下来并拼接上所有的历史 CacheKV 信息进行计算最后采样出来下一个 token。While 循环检测到「eos」生成结束就会退出循环本次生成推理过程结束。 在 DecoderSelfAttention 中查询的序列长度始终为 1因此使用自定义的 fused masked multi-head attention kernel 来处理。 另一方面ContextSelfAttention 中查询的序列长度是最大输入长度因此我们使用 cuBLAS 来利用tensor core。 context阶段sequence length等于input_length(并行可以类比训练的前向过程causal attention)generation阶段sequence length等于1一个token一个token循环进行decoder。 以 175B 的 GPT-3 模型输入 1000 个 token生成 250 个 token 为例那么 Context 阶段的激活 Shape 为 [B, 1000, 12288]其中 B 为 batch_size第二维为输入 token 数第三位为 hidden size。而对于 Generation 阶段由于每次输入输出都是固定的 1 个 token是通过循环多次来产生多个输出 token所以 Generation 阶段的激活 Shape [B, 1, 12288]的第二维始终为 1Generation 的激活显存占用是远小于 Context 阶段的。 再来看计算量这里可以看到挺多有趣的结论 ---Context/Generation 的计算量均随 batch size 增大而正比增大这个很好理解因为 batch 内每个样本的计算量是一致的 ---Context/Generation 的访存量随 batch size 增大却基本不变访存量可以分为权重访存和激活访存很显然激活的访存是随 batch size 增大而增大的但是权重访存却不会随 batch size 变化而变化而由于激活的访存量远小于权重的访存量就会出现总访存量几乎不随 batch size 变化而变化 Context 是计算密集型的任务compute bound而 Generation 是访存密集型的任务IO bound显存带宽指的是 GPU 计算单元与显存之间的数据传输速度。这是由于 Context 的计算量大 Generation 由于每次都只计算 1 个 token所以计算量远小于 Context但是两个阶段权重的访存量确实一致的因为Generation 要循环调用所以 Generation 阶段反而是访存密集型的任务。 量化的优缺点 量化通过使用较少的比特数来表示模型参数从而减小模型的内存占用。此外由于整数乘法要快于浮点数乘法量化通常可以提高推理速度。然而量化运算的一个缺点是会引入误差随着模型参数量的增加误差累积会变得更加明显。
http://www.pierceye.com/news/255532/

相关文章:

  • 个人做电商网站赚钱吗门业网站模板
  • 企业产品微网站收费吗wordpress移服务器改域名
  • 原创文章网站网站建设团队介绍
  • WordPress建站详细过程安康建设网站
  • 仿视频网站开发wordpress下载文件
  • 专业的个人网站建设哪家建筑施工企业专职安全生产管理员
  • 企业网站模板php全球网站排名前100
  • 1688网站可以做全屏吗有哪些网站是织梦做的
  • vue2.0网站开发做网站没有成本的方法
  • 手机网站和app有什么区别流量对网站排名的影响因素
  • 北京全网营销推广公司网站建设以及seo
  • 免费html网站代码骨科医院网站模板
  • 华强方特网站开发辽宁工程技术大学电子信息网
  • 信誉好的网站建设案例微网站后台录入
  • 网站ui界面设计模板WordPress能连接支付端口吗
  • 网站建设与维护ppt模板下载昆明 网站搭建
  • 手机网站建设浩森宇特摄影作品投稿平台
  • 网站类网站开发犯罪吗肇东网站建设云聚达
  • 云南通耀建设工程有限公司网站少儿编程老师需要具备什么条件
  • 陕西交通建设集团蓝商分公司网站wordpress增加模板
  • 创建网站目录权限建网站域名注册后需要
  • 现在还有企业做网站的吗浏览器登录入口
  • 如何进行目的地网站建设阳江网站建设推广
  • 移动网站搭建如何做高并发网站的架构设计
  • 网站特效网网站制作出租
  • 公司商标设计logo图案优化专业的公司
  • 郑州网站设计见效快微信公众平台小程序入口
  • 自动化毕设题目网站开发自家电脑做网站服务器w7花生壳
  • 网站文件目录结构wordpress 短信发送
  • 合肥专业做网站的公司东莞阳光网投诉电话