当前位置：首页 > news >正文

发新闻稿平台全网seo

news 2025/12/20 20:20:08

发新闻稿平台,全网seo,南通高端网站设计建设,dante wordpress主题大模型技术论文不断#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读#xff0c;主题还是围绕着行业实践和工程量产。若在某个环节出现卡点#xff0c;可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技#xff08;Mamba,xLSTM,KAN#xff09;则提… 大模型技术论文不断每个月总会新增上千篇。本专栏精选论文重点解读主题还是围绕着行业实践和工程量产。若在某个环节出现卡点可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技Mamba,xLSTM,KAN则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。近年来Transformer 模型作为自然语言处理领域的重要里程碑为语言建模等任务带来了显著的进展。然而最近出现的诸如Mamba的状态空间模型SSM表现出了令人瞩目的潜力尤其是在小到中等规模的情况下甚至在某些情况下表现出了超越 Transformer 的性能。这些新型模型的出现为带来了全新的思路和可能性通过对结构化半可分离矩阵的各种分解方法的理论研究可以将状态空间模型SSM与注意力机制Attention的变种进行紧密关联进而提出一种状态空间对偶SSD的理论框架。状态空间对偶使得研究人员设计一种新的架构 (Mamba-2)其核心层是对 Mamba选择性SSM进行改进速度提高了2-8倍同时在语言建模方面能够保持对Transformers的压力。概览 Mamba-2的关键点在于结构化状态空间对偶性简称SSD。它主要涉及到如下的关键点 SSD模型是一个特定的层有点类似S4,、S5或者注意力层它可以合并到深度神经网络中的某一层。 SSD框架是这个模型的通用推理框架 SSD算法是一种比以前的SSM系列更高效计算的算法层相对于S4 Layer和S5 Layer 我想读者应该要学会接受层这个概念每个层里面封装了一段数据处理的逻辑。很多的深度的神经网络都是将一个一个的块或者层叠加和组合产生很多奇妙的化学反应。 SSD最大的作用在于将SSM和各种注意力变体联系了起来。 SSD模型的矩阵A与多头SSM 先来看看Mamba-1的算法其中xt为t时刻的输入yt为t时刻的输出。定义的 ∈→∈映射。将和视为标量将隐藏状态ℎ视为长的一维向量其中是一个独立的超参数称为状态大小、状态维数或状态扩展因子。选择性状态空间模型SSM允许 (,,)矩阵参数随时间变化这里张量的形状为∈(,)张量A的形状为∈(,,)张量B的形状为B∈(,)。可以理解为T*N的矩阵为了让计算更加的高效一般而言结构化SSM通常采用对角矩阵来构造。在这种情况下的矩阵其实只要存储×矩阵的对角线元素就可以了。那么可以简化为∈(,)。 Mamba-2的SSD层只做了一个小的修改它将对角线矩阵进一步限制为“矩阵I乘以标量”也就说矩阵的对角线元素必须都是相同的值其余的元素都为0。在这种情况况下可以只用表示也可以识别为t。因为它是一个标量所以也可以表示为at。 SSM的基本方程仅针对单维输入x∈RT 定义。若 X∈R(T,P) 有P个单独的通道那么就可以对每个通道使用相同的动态参数矩阵ABC这就是SSM单头模型的定义。P一般称之为头部的维度。下面的图展示了SSM和Transformer的head的概念。左边每个维度都对应一个独立的SSMp1而右边则是Transformer的多头注意力忘记了可以温习一下多个头完全可以独立构建在研究论文中它采用了一个单头来研究。其实扩展到多头也是一样的原理在 Mamba-2P的取值和Transformer保持一致为64或者128。一个单头有P通道按照这个尺寸可以扩展到d_model维度。所以选择性的SSM模型可以用如下的式子表示看过Mamba专栏的读者都会发现矩阵A在不同的SSM有不同的构造方法从结构化、对角化到标量不断地进化着。 SSD模型按照这个式子再假设A为标量I矩阵乘以一个标量那么SSM怎么来表示呢。下来定义一个矩阵L这里的ai为输入相关的标量然后定义M为最后 M通过基本矩阵乘法对将一维输入映射到一维输出的序列变换进行编码。x∈RT→y∈RT 或者说yMx和之前式1是一样的。对于式子三重命名(C,B,X)↦(Q,K,V)可以得到是不是很眼熟这个公式和注意力机制很相似事实上如果全部at1 那么L就是下三角形的因果掩码公式三等价于因果注意力。不熟悉的回头去温习下。那么SSD的这种构造方法如何成为SSM和Attention的桥梁呢 SSD拉手SSM 所谓的“对偶性”Duality是指在方程中定义的两个模型式1在对标量恒等式结构画At的情况下实际上是式3完全相同的模型。与以前的 SSM 相比SSD与Mamba 的核心层几乎相同但在循环A矩阵上具有更多的结构。 1) Mamba-1 S6在A上使用对角线结构而Mamba-2 SSD在A上使用标量次恒等式结构。 2) Mamba-1的head尺寸为P1即所有通道完全由单独的SSM独立控制见上图而Mamba-2的head尺寸为P1 默认情况下P64。 3) 通过A限制标量-时间-恒等式的对角线结构递归中的动态参数(SSM(ABC))在状态空间的所有的输入N元素之间共享也在给定head的所有P 通道中共享。换言之单个SSM head具有总状态大小为P×N, 都由Mamba-1中的单独控制而在Mamba-2中则由单个共享递归控制。进行这些的主要动机还是在于效率。那么共享动态参数SSMABC会不会对性能有所损伤。在Mamba中引入选择性例如A 取决于输入X 的主要原因之一是让 SSM 能够控制是记住还是忽略特定信息。若这些信息应该被忽略那么整个状态可以一起忽略它。因此若动态参数SSMABC在所有功能之间共享应该也不是不可以不过还需要观察。 SSD拉手注意力机制与标准注意力机制相比SSD也只有两个区别其一softmax 规范化被丢弃。其二在乘法中使用了单独的元素掩码矩阵。第一个差异其实在线性RNN已经解释过了。可以链接回去温习第二个区别是 SSD 与标准线性注意力的区别刚才推导的式子中多出来一个掩码矩阵L导致标准注意力分数〈Qi,Kj〉会因权重的问题而减弱。毕竟不过通过不同的掩码矩阵L利用Structured Masked Attention(SMA)。如下图所示可以构造出很多经典的注意力。在继续下篇之前建议读者回去温习下Mamba然后再继续攀登Mamba-2。

查看全文

http://www.pierceye.com/news/397264/