当前位置: 首页 > news >正文

江西网站建设与推广做游戏网站要通过什么审核

江西网站建设与推广,做游戏网站要通过什么审核,广西住建厅考试培训中心,惠州做棋牌网站建设多少钱揭秘Transformer的无限可能#xff0c;Meta研究发现Transformer其实是多状态RNN 引言#xff1a;重新定义Transformer的视角 在自然语言处理#xff08;NLP#xff09;的领域#xff0c;Transformer架构自2017年提出以来#xff0c;已经成为了一种主流的模型#xff0…揭秘Transformer的无限可能Meta研究发现Transformer其实是多状态RNN 引言重新定义Transformer的视角 在自然语言处理NLP的领域Transformer架构自2017年提出以来已经成为了一种主流的模型它在多种任务中取得了前所未有的成功。与此同时循环神经网络RNN这一曾经的主流架构逐渐被边缘化。然而本文的研究提出了一个颠覆性的观点即使Transformer在概念上与RNN有所不同但在某些情况下仅包含解码器的Transformer实际上可以被视为一种无限多状态的RNNMSRNN——一种具有无限隐藏状态大小的RNN变体。 通过将预训练的Transformer转换为有限的MSRNN我们可以通过固定其隐藏状态的大小来实现这一点。这种转换不仅揭示了Transformer在实践中常常表现为RNN的行为而且还为缓解其最大的计算瓶颈之一——缓存大小提供了可能的解决方案。本研究提出了一种名为TOVA的新策略它通过仅基于注意力分数来选择保留哪些令牌相比于现有的缓存压缩技术TOVA更为简单。实验结果表明TOVA在多个长期任务中的表现超越了所有其他基线策略同时与完整无限模型几乎持平有时仅使用原始缓存大小的1/8。 我们的研究不仅重新定义了Transformer的理解还为减少推理过程中的内存消耗提供了实际的方法有望在硬件资源受限的情况下推广Transformer模型的使用。 本文内容由 赛博马良「AI论文解读达人」 智能体生成人工整理排版。 「AI论文解读达人」 可提供最热AI论文推荐、论文解读等功能。 传送门 https://www.saibomaliang.com/generate?agent_id68248fd1-32f9-4869-a35d-b6086ac0ebcf 论文标题、机构、论文链接和项目地址(如有) 论文标题Transformers are Multi-State RNNs 机构The Hebrew University of Jerusalem, FAIR, AI at Meta 论文解读链接 https://www.saibomaliang.com/generate?session_id210b194f-c5c4-4a1c-8d81-8ddae744aa4a 项目地址未提供具体链接但论文中提到公开发布了相关代码。 Transformer与RNN的联系一种新的视角 1. Transformer的无限多状态RNNMSRNN理论 在对自然语言处理NLP模型的发展历程进行回顾时我们发现Transformer模型Vaswani et al., 2017已经取代了循环神经网络RNNs; Elman, 1990成为了NLP领域的首选架构。尽管Transformer与RNN在概念上被认为有着显著的不同——Transformer能够直接访问序列中的每个标记而RNN则通过维护先前输入的递归状态来处理信息——我们在本工作中展示了仅包含解码器的Transformer实际上可以被概念化为无限多状态的RNNMSRNN这是一种具有无限隐藏状态大小的RNN变体。随着每个解码步骤中先前标记数量的增加Transformer对应于具有无限状态数的MSRNN。 2. 将Transformer转化为有限MSRNN的方法 我们进一步展示了通过限制每一步处理的标记数量预训练的Transformer可以被压缩成有限的MSRNN。我们观察到一些现有的Transformer缓存压缩技术可以被视为这种转换策略并引入了一种新的策略即TOVA这种策略相比于这些策略更为简单。我们的实验表明TOVA在多个长期任务上的表现超过了所有其他基线策略同时与完整的无限模型几乎持平在某些情况下仅使用原始缓存大小的1/8。 提出TOVA策略简化的有限MSRNN压缩方法 1. TOVA策略的工作原理 TOVA策略基于一个简单的原则仅根据它们的注意力分数来选择保留在多状态中的标记。在每个解码步骤中我们考虑当前查询对所有当前多状态中的标记以及当前标记的softmax归一化注意力分数。得分最低的标记将被丢弃。这种策略相比于上述策略做出了更少的假设它既不固定最近的标记窗口也不偏好序列中早期的标记。我们的分析表明尽管TOVA策略存在轻微的近期偏见但大量的近期标记被丢弃而一些初始标记在数千个解码步骤中被保留表明它们对于成功解码确实很重要。 2. TOVA策略与现有方法的对比 我们的实验结果表明TOVA策略在长期任务的评估中超越了所有现有策略并且在多数情况下使用1/8至1/4的多状态大小就能与无限MSRNN模型即常规预训练的Transformer的性能相媲美。此外我们的分析还发现并非所有最近的标记都是重要的有些可以安全地丢弃。我们还强调了在序列中保留第一个标记的重要性并突出了其他一些可能令人惊讶的重要标记例如所有格名词。我们的结果揭示了Transformer解码器LLMs的行为虽然它们被训练为无限MSRNNs但它们在实践中通常表现为有限MSRNNs。我们的结果还具有实际的好处——我们提出的方法在推理过程中大幅度减少了内存消耗导致LLM缓存大小减少了多达88%。 实验设置评估压缩策略的性能 1. 长范围评估的三种类型 在评估压缩策略的性能时我们采用了三种长范围评估类型语言建模、长范围理解和长文本生成。语言建模任务使用PG-19测试集该测试集包含平均长度为70k令牌的100本完整书籍。长范围理解任务则采用了ZeroSCROLLS基准测试中的两个测试集分别关注长范围摘要和长范围问答。长文本生成任务则通过提示促使模型生成长篇故事并使用GPT-4作为评估器比较不同种子生成的故事质量。 2. 选用的Transformer LLM家族 实验中选用了三个最先进的Transformer LLM家族LLaMA-2、Mistral和Yi每个家族提供了约7B参数的版本进行评估。对于语言建模任务使用了模型的原始版本。对于长范围理解任务还考虑了三个经过微调的版本LLaMA-2-chat、Mistral-Instruct和neural-chat这些版本在特定指令任务中表现出色。最后对于文本生成任务使用了专门为故事生成微调的MythoLogic版本。 实验结果TOVA策略的表现 1. 语言建模任务的结果 在语言建模任务中TOVA策略在所有多状态大小中均优于其他策略并且在使用1/8至1/4的上下文大小时与完整上下文的顶线模型的结果相当图3。这表明TOVA策略在保留关键信息的同时大幅减少了所需的上下文长度。 2. 长范围理解任务的结果 在长范围理解任务中TOVA策略在所有多状态大小中一致地优于其他基线策略。在SQuALITY数据集上使用1/8至1/4的完整上下文大小TOVA的结果与顶线模型相差不到一个点图4。在QASPER基准测试上尽管TOVA策略需要一半的完整多状态大小才能与顶线模型的结果相当但它仍然优于其他基线策略图5。 3. 长文本生成任务的结果 在长文本生成任务中限制多状态大小会导致生成的文本更短。然而TOVA策略在多状态大小为1024时能够保持与完整模型相同的平均故事长度。通过GPT-4对生成的故事进行评估TOVA策略在与顶线模型的比较中获得了平均胜率图6。尽管评估长篇故事的质量具有挑战性但TOVA策略在生成长文本方面的表现仍然与无限MSRNN模型相当。 综上所述TOVA策略在各项任务中表现出色特别是在使用远小于原始缓存大小的情况下仍能与完整模型相媲美显示出其在压缩Transformer LLM缓存方面的巨大潜力。 分析哪些Token更重要 在深入探讨Transformer模型的行为时了解哪些Token在模型中扮演关键角色是至关重要的。本章节将分析保留和丢弃Token的趋势以及特定Token的重要性。 1. 保留和丢弃Token的趋势 研究表明并非所有最近的Token都是重要的有些可以安全地从记忆中丢弃。此外研究还显示了序列中第一个Token的重要性并强调了其他一些意外重要的Token例如所有格名词。这些发现揭示了Transformer解码器LLMs的行为虽然它们被训练为无限MSRNNs但在实践中它们通常表现为有限MSRNNs。这些结果还具有实际的好处它们提出的方法大幅度减少了推理过程中的内存消耗导致LLM缓存大小减少了多达88%。 2. 特定Token的重要性 通过分析TOVA策略保留的Token我们发现尽管大多数压缩策略如Sec. 3.3中提到的保留了最近的TokenTOVA策略却显示出了明显的窗口趋势表明了最近Token对解码的重要性。然而我们也观察到许多较旧的Token被保留下来。实际上只有73-76%的Token是最近的其余的是较旧的。这表明尽管最近的Token很重要但远远不够。重要的是与之前手工制作的最近窗口不同我们的方法自动识别了它。 此外通过将每个Token映射到其词性标记POS-tag我们发现标点符号和其他特殊符号往往被保留。然而我们还发现了其他倾向于保留更长时间的Token例如所有格名词POS和专有名词NNPS。研究这些Token的作用是一个令人兴奋的研究方向我们将在未来的工作中探讨。 讨论Transformer作为有限MSRNN的行为 Transformer模型通常被视为与RNNs不同的架构因为它们可以直接访问序列中的每个Token而不是像RNNs那样维护前一个输入的重复状态。然而最近的研究表明仅解码器的Transformer实际上可以被概念化为具有无限隐藏状态大小的多状态RNNsMSRNNs。通过限制每一步处理的Token数量Transformer可以被压缩成有限的MSRNNs。 本文介绍的TOVA策略通过仅基于它们的注意力分数来选择保留哪些Token表现出比现有策略更优越的性能。此外我们的结果表明在许多情况下使用TOVA策略的有限MSRNNs在性能上与相应的无限MSRNNs相当同时只需要1/8–1/4的多状态大小。值得注意的是尽管Transformer没有被训练为这样它们通常的功能类似于有限MSRNNs。 这些发现不仅揭示了Transformer的内部工作机制以及它们与RNNs的联系而且还具有实际价值——它们可以显著减少Transformer LLMs的缓存大小从而可能增加它们被具有有限硬件访问的用户采用的可能性。 相关工作Transformer、RNN和有限KV缓存 在自然语言处理NLP领域Transformer模型自2017年由Vaswani等人提出以来已经取代了循环神经网络Recurrent Neural Networks, RNNs成为了主流架构。与RNNs不同Transformer模型能够直接访问序列中的每个token而不是像RNNs那样维护一个反复出现的先前输入的状态。然而最近的研究表明仅包含解码器的Transformerdecoder-only transformers实际上可以被概念化为具有无限隐藏状态大小的多状态RNNsinfinite multi-state RNNs, MSRNNs。 1. Transformer与RNN的关系 在本项工作中我们展示了解码器仅包含Transformer的自回归性与RNNs的核心原则——保留从一个步骤到下一个步骤的状态——是一致的。基于这一观察我们正式将仅包含解码器的Transformer重新定义为MSRNNs的一种形式。重要的是随着每个解码步骤之前的tokens数量的增长Transformers对应于具有无限数量状态的MSRNNs。我们进一步展示了通过限制每个步骤处理的tokens数量Transformers可以被压缩成有限的MSRNNs。 2. 有限KV缓存 在先前的工作中已经提出了几种压缩策略这些策略有效地限制了预训练基于Transformer的大型语言模型LLMs的容量。这些压缩策略通常被称为KV缓存技术例如H2O策略和Windowi策略它们通过聚合整个序列的注意力分数并保留得分最高的tokens来动态选择非窗口tokens。我们的定义将这些工作框定为将预训练的Transformers从无限转换为有限的MSRNNs。 结论Transformer作为MSRNN的实践意义 我们的研究结果表明尽管Transformer模型在理论上被训练为无限的MSRNNs但在实践中它们通常表现为有限的MSRNNs。我们提出的方法TOVAToken Omission Via Attention在多个长期任务中的表现超过了所有现有策略并且与完整的无限模型相比性能几乎相同而在某些情况下只使用了原始缓存大小的1/8。 我们的分析还发现并非所有最近的tokens都需要保留在内存中有些可以安全地丢弃。此外我们还展示了保留序列中的第一个token的重要性并强调了其他一些可能令人惊讶的重要tokens如所有格名词。这些发现不仅揭示了Transformer解码器LLMs的行为并且还具有实际价值——我们提出的方法大幅度减少了推理过程中的内存消耗导致LLM缓存大小减少了多达88%。 总的来说我们的工作不仅阐明了Transformers的内部工作原理及其与RNNs的联系还具有实际应用价值可以显著减少Transformer LLMs的内存占用从而可能增加其在硬件资源有限的用户中的采用率。 本文内容由 赛博马良「AI论文解读达人」 智能体生成人工整理排版。 传送门 赛博马良——懂流量密码的新媒体AI员工定制平台
http://www.pierceye.com/news/210206/

相关文章:

  • 哈尔滨做网站哪好免费网站模板
  • 网站怎么做才有效果如何用博客网站做cpa
  • 网站申请书博客系统做网站
  • 灰色行业老域名做网站不收录初学者的网站建设
  • 网站做成微信小程序贵州企业seo
  • 在淘宝做印刷网站怎么办wordpress 主题 edu
  • 成都设计公司网站线上线下一体化营销
  • 网站你懂我意思正能量晚上下载注册公司需要多少钱手续费
  • 在线html网站开发广州网站排名优化公司
  • 如何在免费网站上做推扩自己怎么来建设网站
  • 福安市教育局建设网站做架构图简单的网站
  • 如何快速进行网站开发seo是什么东西
  • 网站建设需要具备哪些学编程多少钱学费
  • 建设工程许可证在那个网站办金融行业网站制作
  • 邢台专业做网站价格信息流广告是什么
  • 网站开发的母的目的和意义.建设购物平台网站
  • 立方米网站建设做淘宝客网站用什么程序好
  • 怎样做网站挣钱建筑资料软件
  • 涿州建设局网站苏州市高新区建设局网站
  • 个人soho要怎么做企业网站成都包装设计公司
  • 网站开发 chrome浏览器崩溃ruhe用dw做网站
  • 全屏网站 图片优化个人网站cms系统
  • 做我女朋友程序网站邵东做网站
  • 建设网站如何挂到网上wordpress首页添加幻灯
  • 汕头正规网站建设模板总部城乡建设网站 资料员
  • vs 2017c 怎么建设网站网站建设的数字化和互联网化
  • 南昌网站设计公司海南营销网站建设
  • 购物网站素材个人搭建网站教程
  • 青岛网站建设哪里好模板建站服务公司
  • 青色网站欣赏wordpress中文购物