黄岐建网站,阿里云 有企业 网站吗,陕西住房和城乡建设网站,建设一个企业网站多少钱目录
01 算法原理
02 骨干架构
03 实验结果 一种崭新的大语言模型#xff08;LLM#xff09;架构有望取代当前主导 AI 领域的 Transformer#xff0c;并在性能上超越 Mamba。 论文地址#xff1a;https://arxiv.org/abs/2407.04620 本周一#xff0c;关于 Test-Time Tr…目录
01 算法原理
02 骨干架构
03 实验结果 一种崭新的大语言模型LLM架构有望取代当前主导 AI 领域的 Transformer并在性能上超越 Mamba。 论文地址https://arxiv.org/abs/2407.04620 本周一关于 Test-Time TrainingTTT的研究论文在人工智能社区引发了广泛讨论。 该研究由斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta 的研究人员共同完成。他们设计了一个新架构 TTT利用机器学习模型取代了 RNN 的隐藏状态。 通过输入 token 的梯度下降该模型能够压缩上下文。 研究作者之一 Karan Dalal 表示他相信这将彻底改变语言模型的方法。 没体验过OpenAI最新版GPT-4o快戳最详细升级教程几分钟搞定升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952如何使用WildCard正确方式打开GPT-4o目前 WildCard 支持的服务非常齐全可以说是应有尽有
官网有更详细介绍WildCard TTT 层直接取代了 Attention并通过表达性记忆实现了线性复杂性架构使模型能够在上下文中训练数百万甚至数十亿个 token 的 LLM。 在对比 125M 到 1.3B 参数规模的大模型时研究发现 TTT-Linear 和 TTT-MLP 均能匹敌或超越最强大的 Transformers 和 Mamba 架构方法。 TTT 层作为一种新的信息压缩和模型记忆机制可以直接替代 Transformer 中的自注意力层。 这不仅在理论上具有线性复杂度而且在实际运行时间上也更快。 在论文上线后作者公开了代码与 jax 以供人们训练和测试https://github.com/test-time-training/ttt-lm-jax 还有 PyTorch 推理代码https://github.com/test-time-training/ttt-lm-pytorch 01 算法原理 长上下文的挑战是 RNN 层本质上所固有的与自注意力机制不同RNN 层必须将上下文压缩为固定大小的隐藏状态更新规则需要识别数千甚至数百万个 token 之间的底层结构和关系。 研究团队首先观察到自监督学习可以将大量训练集压缩为 LLM 等模型的权重而这些模型通常对其训练数据之间的语义联系有深刻理解。 受此启发团队设计了一类新的序列建模层其中隐藏状态是一个模型更新规则是自监督学习的一个步骤。
由于更新测试序列上的隐藏状态过程相当于在测试时训练模型因此这种新层被称为测试时训练Test-Time Training, TTT层。 团队引入了两个简单的实例TTT-Linear 和 TTT-MLP其中隐藏状态分别是线性模型和两层 MLP。TTT 层可以集成到任何网络架构中并进行端到端优化类似于 RNN 层和自注意力。
为了让 TTT 层更加高效该研究采取了一些改进措施 首先类似于在常规训练期间对小批量序列采取 gradient step 以获得更好的并行性该研究在 TTT 期间使用小批量 token。 其次该研究为每个 TTT 小批量内的操作开发了一种双重形式以更好地利用现代 GPU 和 TPU。双重形式的输出与简单实现等效但训练速度快了 5 倍以上。 如图 3 所示TTT-Linear 在 8k 上下文中比 Transformer 更快与 Mamba 相当。 研究团队认为所有序列建模层都可以看作将历史上下文存储到隐藏状态中如图 4 所示。 例如RNN 层如 LSTM、RWKV 和 Mamba 层将上下文压缩为跨时间的固定大小状态。这种压缩会产生两种后果 一方面将输入标记 x_t 映射到输出 token z_t 是高效的因为每个 token 的更新规则和输出规则都需要恒定的时间。 另一方面RNN 层在长上下文中的性能受限于其隐藏状态 s_t 的表现力。 自注意力也可以从上述角度来看待只不过它的隐藏状态通常称为 Key-Value 缓存是一个随 t 线性增长的列表。 它的更新规则是将当前的 KV 元组追加到该列表中而输出规则则扫描 t 前的所有元组以形成注意力矩阵。 隐藏状态明确存储了所有历史上下文无需压缩这使得自注意力在长上下文方面比 RNN 层更具表现力。 然而扫描这个线性增长的隐藏状态所需的时间也是线性增长的。为了保持长上下文的高效和表现力研究者需要一种更好的压缩启发式。 具体来说需要将成千上万或上百万的 token 压缩到一个隐藏状态中从而有效捕捉它们的底层结构和关系。这听起来似乎有些高难度但实际上很多人都对这种启发式非常熟悉。 02 骨干架构 将任何 RNN 层集成到更大架构中的最简洁方法是直接替换 Transformer 中的自注意力在这里称为骨干。 然而现有的 RNN如 Mamba 和 Griffin 等都使用了与 Transformer 不同的骨干层。最值得注意的是它们的骨干层在 RNN 层之前包含了时间卷积这可能有助于收集跨时间的局部信息。 在对 Mamba 主干网进行试验后研究者发现它也能改善 TTT 层的困惑度因此将其纳入了建议方法中详见图 16。 03 实验结果
在实验中研究人员将 TTT-Linear 和 TTT-MLP 与两种基线模型——Transformer 和 Mamba 进行了比较。 从图 11 中可以得出以下结论 2k 上下文TTT-Linear (M)、Mamba 和 Transformer 的性能相当因为它们的曲线大多重叠。在 FLOP 预算较大的情况下TTT-MLP (M) 的性能略显不足。尽管 TTT-MLP 在各种模型大小下的困惑度比 TTT-Linear 更优但额外的 FLOPs 成本抵消了这一优势。 8k 上下文TTT-Linear (M) 和 TTT-MLP (M) 的表现显著优于 Mamba这与 2k 上下文中的观察结果形成鲜明对比。即使是使用 Transformer 主干网络的 TTT-MLP (T) 在 1.3B 参数规模时也略胜 Mamba。一项显著发现是随着上下文长度的增加TTT 层相对于 Mamba 层的优势也在扩大。 当上下文长度达到 8k 时Transformer 在每种模型尺寸下的困惑度表现依旧良好但由于 FLOPs 成本的增加其竞争力已明显下降。 如何使用WildCard正确方式打开GPT-4o目前 WildCard 支持的服务非常齐全可以说是应有尽有
官网有更详细介绍WildCard 推荐阅读 GPT-4o不仅能写代码还能自查Bug程序员替代进程再进一步 GPT-4替代大学生参加考试94%成功作弊未被发现