当前位置: 首页 > news >正文

黄岐建网站阿里云 有企业 网站吗

黄岐建网站,阿里云 有企业 网站吗,陕西住房和城乡建设网站,建设一个企业网站多少钱目录 01 算法原理 02 骨干架构 03 实验结果 一种崭新的大语言模型#xff08;LLM#xff09;架构有望取代当前主导 AI 领域的 Transformer#xff0c;并在性能上超越 Mamba。 论文地址#xff1a;https://arxiv.org/abs/2407.04620 本周一#xff0c;关于 Test-Time Tr…目录 01 算法原理 02 骨干架构 03 实验结果 一种崭新的大语言模型LLM架构有望取代当前主导 AI 领域的 Transformer并在性能上超越 Mamba。 论文地址https://arxiv.org/abs/2407.04620 本周一关于 Test-Time TrainingTTT的研究论文在人工智能社区引发了广泛讨论。 该研究由斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta 的研究人员共同完成。他们设计了一个新架构 TTT利用机器学习模型取代了 RNN 的隐藏状态。 通过输入 token 的梯度下降该模型能够压缩上下文。 研究作者之一 Karan Dalal 表示他相信这将彻底改变语言模型的方法。 没体验过OpenAI最新版GPT-4o快戳最详细升级教程几分钟搞定升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952如何使用WildCard正确方式打开GPT-4o目前 WildCard 支持的服务非常齐全可以说是应有尽有 官网有更详细介绍WildCard TTT 层直接取代了 Attention并通过表达性记忆实现了线性复杂性架构使模型能够在上下文中训练数百万甚至数十亿个 token 的 LLM。 在对比 125M 到 1.3B 参数规模的大模型时研究发现 TTT-Linear 和 TTT-MLP 均能匹敌或超越最强大的 Transformers 和 Mamba 架构方法。 TTT 层作为一种新的信息压缩和模型记忆机制可以直接替代 Transformer 中的自注意力层。 这不仅在理论上具有线性复杂度而且在实际运行时间上也更快。 在论文上线后作者公开了代码与 jax 以供人们训练和测试https://github.com/test-time-training/ttt-lm-jax 还有 PyTorch 推理代码https://github.com/test-time-training/ttt-lm-pytorch 01 算法原理 长上下文的挑战是 RNN 层本质上所固有的与自注意力机制不同RNN 层必须将上下文压缩为固定大小的隐藏状态更新规则需要识别数千甚至数百万个 token 之间的底层结构和关系。 研究团队首先观察到自监督学习可以将大量训练集压缩为 LLM 等模型的权重而这些模型通常对其训练数据之间的语义联系有深刻理解。 受此启发团队设计了一类新的序列建模层其中隐藏状态是一个模型更新规则是自监督学习的一个步骤。 由于更新测试序列上的隐藏状态过程相当于在测试时训练模型因此这种新层被称为测试时训练Test-Time Training, TTT层。 团队引入了两个简单的实例TTT-Linear 和 TTT-MLP其中隐藏状态分别是线性模型和两层 MLP。TTT 层可以集成到任何网络架构中并进行端到端优化类似于 RNN 层和自注意力。 为了让 TTT 层更加高效该研究采取了一些改进措施 首先类似于在常规训练期间对小批量序列采取 gradient step 以获得更好的并行性该研究在 TTT 期间使用小批量 token。 其次该研究为每个 TTT 小批量内的操作开发了一种双重形式以更好地利用现代 GPU 和 TPU。双重形式的输出与简单实现等效但训练速度快了 5 倍以上。 如图 3 所示TTT-Linear 在 8k 上下文中比 Transformer 更快与 Mamba 相当。 研究团队认为所有序列建模层都可以看作将历史上下文存储到隐藏状态中如图 4 所示。 例如RNN 层如 LSTM、RWKV 和 Mamba 层将上下文压缩为跨时间的固定大小状态。这种压缩会产生两种后果 一方面将输入标记 x_t 映射到输出 token z_t 是高效的因为每个 token 的更新规则和输出规则都需要恒定的时间。   另一方面RNN 层在长上下文中的性能受限于其隐藏状态 s_t 的表现力。 自注意力也可以从上述角度来看待只不过它的隐藏状态通常称为 Key-Value 缓存是一个随 t 线性增长的列表。 它的更新规则是将当前的 KV 元组追加到该列表中而输出规则则扫描 t 前的所有元组以形成注意力矩阵。 隐藏状态明确存储了所有历史上下文无需压缩这使得自注意力在长上下文方面比 RNN 层更具表现力。 然而扫描这个线性增长的隐藏状态所需的时间也是线性增长的。为了保持长上下文的高效和表现力研究者需要一种更好的压缩启发式。 具体来说需要将成千上万或上百万的 token 压缩到一个隐藏状态中从而有效捕捉它们的底层结构和关系。这听起来似乎有些高难度但实际上很多人都对这种启发式非常熟悉。 02 骨干架构 将任何 RNN 层集成到更大架构中的最简洁方法是直接替换 Transformer 中的自注意力在这里称为骨干。 然而现有的 RNN如 Mamba 和 Griffin 等都使用了与 Transformer 不同的骨干层。最值得注意的是它们的骨干层在 RNN 层之前包含了时间卷积这可能有助于收集跨时间的局部信息。 在对 Mamba 主干网进行试验后研究者发现它也能改善 TTT 层的困惑度因此将其纳入了建议方法中详见图 16。 03 实验结果 在实验中研究人员将 TTT-Linear 和 TTT-MLP 与两种基线模型——Transformer 和 Mamba 进行了比较。 从图 11 中可以得出以下结论 2k 上下文TTT-Linear (M)、Mamba 和 Transformer 的性能相当因为它们的曲线大多重叠。在 FLOP 预算较大的情况下TTT-MLP (M) 的性能略显不足。尽管 TTT-MLP 在各种模型大小下的困惑度比 TTT-Linear 更优但额外的 FLOPs 成本抵消了这一优势。  8k 上下文TTT-Linear (M) 和 TTT-MLP (M) 的表现显著优于 Mamba这与 2k 上下文中的观察结果形成鲜明对比。即使是使用 Transformer 主干网络的 TTT-MLP (T) 在 1.3B 参数规模时也略胜 Mamba。一项显著发现是随着上下文长度的增加TTT 层相对于 Mamba 层的优势也在扩大。  当上下文长度达到 8k 时Transformer 在每种模型尺寸下的困惑度表现依旧良好但由于 FLOPs 成本的增加其竞争力已明显下降。 如何使用WildCard正确方式打开GPT-4o目前 WildCard 支持的服务非常齐全可以说是应有尽有 官网有更详细介绍​​​​​WildCard 推荐阅读 GPT-4o不仅能写代码还能自查Bug程序员替代进程再进一步 GPT-4替代大学生参加考试94%成功作弊未被发现
http://www.pierceye.com/news/7104/

相关文章:

  • 阿里云服务器上做淘宝客网站网站后台搭建图文
  • 中国建设銀行网站投诉电话七彩发光字生成器
  • 做国外的众筹网站重庆做网站有哪些
  • 北京手机网站开发公司WordPress标签伪
  • 宿州做企业网站公司wordpress主题清除数据库
  • 俱乐部网站模板风铃上做的网站发布时号码填写
  • 免费的网站建设开发天津快速排名
  • 网站发布平台购物网站建设和使用
  • 网站 流程优化公众号流量投放
  • 南城网站建设公司信息wordpress音乐直链插件
  • 六感程序网站建设河南建设厅八大员查询网站
  • 公司网站建设包含的内容天津平台公司
  • 网站如何自己做优化广州优壹网络科技有限公司
  • 网站做下要多少用wordpress 登录界面
  • 网站建设一般要素黄金网站app视频
  • 网站建设和网络优化的区别建设局网站公示的规划意味着什么
  • 找工作的网站郑州网站运营
  • 淄博网站建设0533cl公司做网站那个网站好
  • vps 需刷新几次才能打开网站自适应网站主要用什么做
  • 广州微信网站建设费用html5新特性
  • 域名网站查询什么是c2c模式
  • 网站建设敬请期待图片素材教育网站建设市场分析计划书
  • 网站建站公司官网wap建站软件
  • 外贸网站的建设重庆市建设工程信息网官网入口网址
  • 微信软文范例大全100天津网站的优化
  • 高端购物网站建设做捐款网站
  • 网站域名费用交给谁营销网络世界地图
  • 物流系统网站建设 的网站描述网站开发服务外包合同
  • 做订单管理网站用什么软件网站开发工具安全性能
  • 淘宝客cms网站模板下载wordpress打开慢 插件