福州网站设计网站系统制作,跨境电商是什么意思,有没有好玩的网页游戏,阿克苏交通建设局网站paper: https://arxiv.org/pdf/2106.09685.pdf code: https://github.com/microsoft/LoRA
摘要
作者提出了低秩自适应#xff0c;或称LoRA#xff0c;它冻结了预先训练的模型权值#xff0c;并将可训练的秩分解矩阵注入变压器架构的每一层#xff0c;大大减少了下游任务的…paper: https://arxiv.org/pdf/2106.09685.pdf code: https://github.com/microsoft/LoRA
摘要
作者提出了低秩自适应或称LoRA它冻结了预先训练的模型权值并将可训练的秩分解矩阵注入变压器架构的每一层大大减少了下游任务的可训练参数的数量。 学习到的过度参数化模型实际上存在于一个较低的内在维度上。作者假设模型适应过程中权重的变化也具有较低的“内在秩”这导致了作者提出的低秩适应LoRA方法。LoRA允许作者通过优化适应过程中密集层变化的秩分解矩阵来间接训练神经网络中的一些密集层同时保持预先训练的权值冻结如图1所示。
方法
一个神经网络包含许多密集的层它们可以执行矩阵乘法。这些层中的权重矩阵通常具有全秩。Aghajanyan等人在2020年的一项研究发现即预训练语言模型在面向特定任务时显示出一种特殊的属性它们具有低“内在维度”。这意味着尽管这些模型可能包含数百万到数十亿的参数代表着极其高维的参数空间但当它们适应或学习新的特定任务时实际上只需要一个相对较小的参数子集。简单来说模型能够在这样一个由较少参数构成的“更小的子空间”内有效地学习和适应。受此启发作者假设权重的更新在适应过程中也有一个较低的“内在秩”。对于预先训练的权值矩阵 W 0 ∈ R d × k W_0∈R^{d×k} W0∈Rd×k作者用低秩分解 W 0 ∆ W W 0 B A W_0 ∆WW_0BA W0∆WW0BA表示后者来约束其更新其中 B ∈ R d × r B∈R^{d×r} B∈Rd×r A ∈ R r × k A∈R^{r×k} A∈Rr×k和秩 r ≪ m i n ( d , k ) r \ll min(d,k) r≪min(d,k)。在训练过程中 W 0 W_0 W0被冻结不接收梯度更新而A和B包含可训练的参数。注意 W 0 W_0 W0和 ∆ W B A ∆WBA ∆WBA都与相同的输入相乘它们各自的输出向量按坐标求和。对于 h W 0 x h W_0x hW0x作者修改后的前向公式为 h w 0 x △ W x w 0 x B A x hw_0x\bigtriangleup Wxw_0xBAx hw0x△Wxw0xBAx。如图1所示首先初始化对A使用高斯初始化B初始化为0,所以 ∆ W B A ∆WBA ∆WBA在训练开始时为零。然后作者用 α r \frac{\alpha}{r} rα缩放 ∆ W x ∆Wx ∆Wx即相乘其中α是r范围的一个常数固定 α \alpha α一开始的 r r r将 r r r作为超参数调整。当作者改变r时这种缩放有助于减少重新调优超参数的需要。