大型购物网站,hishop官网,具体c2c网站建设实例,软件开发需求分析模板文献阅读#xff1a;LESS: Selecting Influential Data for Targeted Instruction Tuning 1. 文章简介2. 方法介绍 1. Overview2. 原理说明 1. SGD上的定义2. Adam上的定义 3. 具体实现 1. Overview1. LoRA使用2. 数据选择3. LESS-T 3. 实验考察 结论 1. 实验设计2. 主…文献阅读LESS: Selecting Influential Data for Targeted Instruction Tuning 1. 文章简介2. 方法介绍 1. Overview2. 原理说明 1. SGD上的定义2. Adam上的定义 3. 具体实现 1. Overview1. LoRA使用2. 数据选择3. LESS-T 3. 实验考察 结论 1. 实验设计2. 主要结果3. 细节讨论 1. 计算复杂度分析2. warmup是否必要3. checkpoint的影响N的影响4. LoRA Dimension的影响 4. 总结 思考 文献链接https://arxiv.org/abs/2402.04333Github链接https://github.com/princeton-nlp/LESS
1. 文章简介
这篇文章是陈丹琦大佬在今天二月给出的关于LLM Tuning的一篇新作。
这篇文章同样是一篇比较fundamental的基础研究工作考察的是LLM训练或者说任意模型训练时如何最优化的选择训练数据从而在尽可能不损失模型性能的情况下最优化模型训练的效率使得模型收敛的又快又好。
相似的工作之前有主动学习相关的一系列工作这里倒是有些区别因为主动学习感觉还是对于未标注数据进行最优化的选取但是这里的LESS方法感觉还是在已有的标注数据当中选取一个子集使得模型获得足量且优秀的训练结果。
下面我们就来看看文中给出的具体实现方法和对应的实验考察。
2. 方法介绍
1. Overview
首先我们来看一下LESS的整体的原理说明和实现。
LESS的全程的话是Low-rank gradiEnt Similarity Search其整体的思路的话其实还是比较直接的就是通过数据在模型进行反向传播时产生的梯度大小来判断数据对于模型训练的影响程度然后选择最有影响的这部分数据来进行模型finetune即可。
但是这里会涉及到几个问题
具体定义上的问题即如何判断数据对于模型训练的影响程度大小对每一个数据都进行反向传播进行判断的话基本也就等于跑完一个epoch了这种效率的话就有点舍本逐末了因此需要考察一下如何对效率进行优化。
下面我们就来看一下文中对于这两个问题的处理。
2. 原理说明
首先我们来看一下文中是如何来定义一条数据对于模型训练影响的大小的。
1. SGD上的定义
首先文中在SGD上面进行了一下简单的考察显然对于一步训练前后我们可以将其在测试集上的变化一阶泰勒展开得到 l ( z ′ ; θ t 1 ) l ( z ′ ; θ t ) ⟨ ∇ l ( z ′ ; θ t ) , θ t 1 − θ t ⟩ l(z; \theta^{t1}) l(z; \theta^{t}) \langle \nabla l(z; \theta^{t}), \theta^{t1} - \theta^{t} \rangle l(z′;θt1)l(z′;θt)⟨∇l(z′;θt),θt1−θt⟩
其中参数的改变量则有可以通过训练过程中的一轮参数迭代过程来表达即 θ t 1 − θ t − η t ∇ l ( z ; θ t ) \theta^{t1} - \theta^{t} -\eta_t \nabla l(z; \theta^t) θt1−θt−ηt∇l(z;θt)
此时我们即可得到测试集上一轮迭代测试集上loss的变化大小可以写为 l ( z ′ ; θ t 1 ) − l ( z ′ ; θ t ) − η t ⋅ ⟨ ∇ l ( z ′ ; θ t ) , ∇ l ( z ; θ t ) ⟩ l(z; \theta^{t1}) - l(z; \theta^{t}) -\eta_t \cdot \langle \nabla l(z; \theta^{t}), \nabla l(z; \theta^t) \rangle l(z′;θt1)−l(z′;θt)−ηt⋅⟨∇l(z′;θt),∇l(z;θt)⟩
因此我们就可以定义某一条训练数据对于某一条测试数据在N轮训练当中的影响程度如下 I n f S G D ( z , z ′ ) ∑ t 0 N − 1 l ( z ′ ; θ t ) − l ( z ′ ; θ t 1 ) ∑ t 0 N − 1 η t ⋅ ⟨ ∇ l ( z ′ ; θ t ) , ∇ l ( z ; θ t ) ⟩ \begin{aligned} \mathop{Inf}_{SGD} (z, z) \sum\limits_{t0}^{N-1} l(z; \theta^{t}) - l(z; \theta^{t1}) \\ \sum\limits_{t0}^{N-1} \eta_t \cdot \langle \nabla l(z; \theta^{t}), \nabla l(z; \theta^t) \rangle \end{aligned} InfSGD(z,z′)t0∑N−1l(z′;θt)−l(z′;θt1)t0∑N−1ηt⋅⟨∇l(z′;θt),∇l(z;θt)⟩
2. Adam上的定义
但是在我们当前的训练过程中我们更常使用的优化器并不是SGD而是Adam因此文中对Adam优化器的情况进行了一下调整。
文中首先回顾了一下Adam优化器的计算 θ t 1 − θ t − η t Γ ( z ; θ t ) Γ ( z ; θ t ) m t 1 v t 1 ϵ m t 1 β 1 m t ( 1 − β 1 ) ∇ l ( z ; θ t ) 1 − β 1 t v t 1 β 2 v t ( 1 − β 2 ) ∇ l ( z ; θ t ) 2 1 − β 2 t \theta^{t1} - \theta^{t} -\eta_t \Gamma (z; \theta^t) \\ \Gamma (z; \theta^t) \frac{m^{t1}}{\sqrt{v^{t1} \epsilon}} \\ m^{t1} \frac{\beta_1 m^t (1-\beta_1) \nabla l(z; \theta^t)}{1-\beta_{1}^{t}} \\ v^{t1} \frac{\beta_2 v^t (1-\beta_2) \nabla l(z; \theta^t)^2}{1-\beta_{2}^{t}} θt1−θt−ηtΓ(z;θt)Γ(z;θt)vt1ϵ mt1mt11−β1tβ1mt(1−β1)∇l(z;θt)vt11−β2tβ2vt(1−β2)∇l(z;θt)2
因此我们可以很直接地将influence的定义迁移至Adam优化器上得到 I n f A d a m ( z , z ′ ) ∑ t 0 N − 1 l ( z ′ ; θ t ) − l ( z ′ ; θ t 1 ) ∑ t 0 N − 1 η t ⋅ ⟨ ∇ l ( z ′ ; θ t ) , Γ ( z ; θ t ) ⟩ \mathop{Inf}_{Adam} (z, z) \sum\limits_{t0}^{N-1} l(z; \theta^{t}) - l(z; \theta^{t1}) \sum\limits_{t0}^{N-1} \eta_t \cdot \langle \nabla l(z; \theta^{t}), \Gamma (z; \theta^t) \rangle InfAdam(z,z′)t0∑N−1l(z′;θt)−l(z′;θt1)t0∑N−1ηt⋅⟨∇l(z′;θt),Γ(z;θt)⟩
不过实际发现模型的参数梯度与文本长度强相关 这就导致直接迁移上述定义公式会使得数据选择明显趋于短文本因此文中对其进行了一下修正将其加入了一下归一化因子最终得到定义式如下 I n f A d a m ( z , z ′ ) ∑ t 0 N − 1 η t ⋅ ⟨ ∇ l ( z ′ ; θ t ) , Γ ( z ; θ t ) ⟩ ∥ ∇ l ( z ′ ; θ t ) ∥ ⋅ ∥ Γ ( z ; θ t ) ∥ \mathop{Inf}_{Adam} (z, z) \sum\limits_{t0}^{N-1} \eta_t \cdot \frac{\langle \nabla l(z; \theta^{t}), \Gamma (z; \theta^t) \rangle}{\lVert \nabla l(z; \theta^{t}) \rVert \cdot \lVert \Gamma (z; \theta^t) \rVert} InfAdam(z,z′)t0∑N−1ηt⋅∥∇l(z′;θt)∥⋅∥Γ(z;θt)∥⟨∇l(z′;θt),Γ(z;θt)⟩
3. 具体实现
1. Overview
有了上述影响程度的定义之后文中就可以根据上述influence的大小进行数据选择策略了具体来说的话就是
在训练集上进行少量的tuning作为warmup然后在验证集上计算所有训练数据当中的influence最后挑选出影响因子最大的数据进行模型训练。
但是如果直接使用LLM进行warmup然后进行上述定义下的influence计算时可以想见其计算量必然极其巨大和我们最终优化训练效率的目的显然是南辕北辙的因此我们必须要优化一下这里的计算效率具体来说的话文中就是通过引入LoRA的方法减少总的参数量然后进行数据的选择。
因此总的pipeline示意图如下 下面我们就来看看LoRA训练和数据选择的具体细节。
1. LoRA使用
首先的话文中使用了LoRA来进行模型的finetune这是因为模型本身的参数量太大了常规的像是Llama这些都至少有着6B左右的参数量更别说那些更大的模型了使用全部参数finetune然后反向推导influence显然成本太大了典型的舍本逐末因此这里使用LoRA进行模型的finetune可以大幅减少模型的计算量。
2. 数据选择
然后关于数据选择的部分文中就是使用上述原理说明部分的内容进行数据选择具体来说的话就是先使用少量训练数据进行一下warmup然后使用少部分测试集来计算每一条数据对于模型的影响大小然后选择出影响最大的几条数据即可。
对应的公式如下 I n f A d a m ( z , D v a l ) ∑ t 0 N − 1 η t ⋅ ⟨ ∇ l ( D v a l ; θ t ) , Γ ( z ; θ t ) ⟩ ∥ ∇ l ( D v a l ; θ t ) ∥ ⋅ ∥ Γ ( z ; θ t ) ∥ \mathop{Inf}_{Adam} (z, D_{val}) \sum\limits_{t0}^{N-1} \eta_t \cdot \frac{\langle \nabla l(D_{val}; \theta^{t}), \Gamma (z; \theta^t) \rangle}{\lVert \nabla l(D_{val}; \theta^{t}) \rVert \cdot \lVert \Gamma (z; \theta^t) \rVert} InfAdam(z,Dval)t0∑N−1ηt⋅∥∇l(Dval;θt)∥⋅∥Γ(z;θt)∥⟨∇l(Dval;θt),Γ(z;θt)⟩
3. LESS-T
在上述基础上文中进一步提出这里的模型可以具有泛化性也就是说使用基于模型A选择出来的数据集 D D D同样有利于另一个模型 B B B的训练。
因此文中给出了一个LESS-T的数据选择方法固定使用Llama2 7B模型来进行数据选择然后在其他模型上进行finetune。
3. 实验考察 结论
下面我们来看一下文中给出的具体实验考察以及对应的结果如下。
1. 实验设计
首先关于文中的实验设计的话文中主要是使用MMLU, TYDIQA, BBH三个数据集的测试集其具体信息如下 而实验模型的话主要是Llama2 7B, 13B以及Mistral 7B三个模型数据选择比例的话则是以5%作为标准。
然后作为对照组的话主要是以下几种方法
随机选择BM25DSIRRDS
其中BM25和DSIR都是基于词频的选择方法RDS全称为Representationbased Data Selection这部分我倒是完全不知道有兴趣的读者可以去追一下这个文献看看这具体是个啥。
2. 主要结果
下面我们来看一下文中给出的具体实验结果。
最直接的一个实验结果显然就是在几个数据集下LESS选择的5%的数据和全量数据训练以及随机选择5%数据的效果差异 然后在Llama2 7B模型上文中进一步考察了不同的数据选择策略下模型finetune效果的差异 基于上述两张表格文中总结了以下几个主要的实验结论
从表2可以看到LESS在不同模型上都有效方法具有稳定性同样从表2可以看到使用LESS方法有时选择5%的优质数据的训练效果甚至可以超过全量数据finetune的效果同样从表2可以看到LESS-T方法在Llama2 13B和Mistral 7B模型上同样有效说明了LESS数据选择对于模型的泛化性从表3可以看到相较于其他对照组中的方法LESS 是唯一一个在各个任务下均有效的数据选择策略。
3. 细节讨论
此外文中还更进一步地做了一些关于LESS的细节讨论。
1. 计算复杂度分析
首先文中分析了一下LESS方法的整体复杂度得到结果如下 可以看到LESS的计算量其实还是非常大的。
2. warmup是否必要
然后文中考察了一下对LoRA的warmup是否必要得到结果如下 可以看到warmup还是非常必要的。
3. checkpoint的影响N的影响
此外关于文中使用多个checkpoint进行梯度的avg这一点文中同样说明了一下这个操作的必要性 4. LoRA Dimension的影响
最后文中还考察了一下LoRA模型当中维度对于数据选择的影响 可以看到确实维度越大数据选择效果越好但是小维度的下已经足以选择出很好的数据带来明显的效果提升了。
4. 总结 思考
综上就是陈丹琦大佬提出的LESS方法了可以看到在数据选择方面LESS确实给出了非常强大的效果可以在5%左右的数据上就获得非常优秀的效果而且数据的选择对模型还有任务都有着足够的泛化性。
但是比较困惑我的一点在于LESS的数据选择计算开销实在是非常大而且是对于已有的训练数据进行二次提纯选择而现实中我们的问题其实个人感觉还是更多的像是主动学习那样缺少训练数据因此要对未标注数据进行选择标注这个问题LESS似乎是无法处理的当然LESS也不是研究的这个问题就是了。
因此个人感觉LESS的定位就多少有些尴尬了已有足量训练数据的情况下如此大开销地精炼数据是否真的有足够的价值多少还是有些怀疑。
不过考虑到之前像是Meta在LIMA这篇工作中提到的那样只需要少量的优质数据模型就足以finetune获得非常优秀的效果了。
因此数据质量的价值可能远高于单纯的数据量的价值数据精炼的意义可能真的会比想象的更大吧谁知道呢。