当前位置：首页 > news >正文

浦口网站建设天津企业网站建设哪家好

news 2025/12/21 11:38:11

浦口网站建设,天津企业网站建设哪家好,企业文化vi设计,wordpress meta value文章目录 5、有监督微调5.1、提示学习语境学习5.2、高效微调5.3、模型上下文窗口扩展5.4、指令数据构建5.5、开源指令数据集 5、有监督微调 5.1、提示学习语境学习提示学习完成预测的三个阶段#xff1a;提示添加、答案搜索、答案映射提示添加 “[X] 我感到… 文章目录 5、有监督微调5.1、提示学习语境学习5.2、高效微调5.3、模型上下文窗口扩展5.4、指令数据构建5.5、开源指令数据集 5、有监督微调 5.1、提示学习语境学习提示学习完成预测的三个阶段提示添加、答案搜索、答案映射提示添加 “[X] 我感到 [Z]” x “我不小心错过了公共汽车。” x’ “我不小心错过了公共汽车。我感到[Z]” 答案搜索 Z {“太好了”“好”“一般”“不好”“糟糕”} 将给定提示 x ′ 而模型输出为 z 的过程记录为函数 f f i l l ( x ′ , z ) f_{fill} (x ′ , z) ffill(x′,z)对于每个答案空间 Z Z Z中的候选答案 z z z分别计算模型输出它的概率, 从而找到模型对[Z] 插槽预测得分最高的输出 z ~ s e a r c h z ∈ Z P ( f f i l l ( x ′ , z ) ; θ ) \tilde{z} search_{z∈Z}P(f_{fill}(x,z);θ) z~searchz∈ZP(ffill(x′,z);θ) 答案映射将模型的输出与最终的标签做映射。映射规则是人为制定的比如将“太好了”、“好”映射为“正面”标签将“不好”“糟糕”映射为“负面”标签将“一般”映射为“中立”标签。提示学习方法易于理解且效果显著提示工程、答案工程、多提示学习方法、基于提示的训练策略等已经成为从提示学习衍生出的新的研究方向。语境学习关键思想是从类比中学习整个过程并不需要对模型进行参数更新仅执行向前的推理。向模型输入特定任务的一些具体例子以及测试样例让模型根据示例续写出测试样例的答案。如下情感分类续写情感极性 5.2、高效微调高效微调在缩减训练参数量和GPU显存占用同时使训练后的模型具有与全量微调相当的性能。全量微调微调全部参数需要相当高的算力。 LoRA Low-Rank Adaptation of Large Language Models 计算流程 h W 0 x Δ W x W 0 x B A x h W_0x \Delta Wx W_0x BAx hW0xΔWxW0xBAx 矩阵 A 通过高斯函数初始化矩阵 B 为零初始化使得训练开始之前旁路对原模型不造成影响即参数改变量为 0。将原权重与训练后权重合并后推理时不存在额外的开销。低秩矩阵通常有以下特点线性相关性较高矩阵中的行或列之间存在较强的线性相关性因此可以用较少的线性独立分量来近似表示。信息冗余较多由于线性相关性低秩矩阵中包含了一些冗余信息可以通过较低秩的近似来减少存储和计算成本。较小的维度低秩矩阵通常具有较低的维度因为它们可以用较少的基向量或特征向量来表示。其它高效微调方式微调适配器Adapter 分别对 Transformer 层中的自注意力模块与多层感知MLP模块在其与其之后的残差连接之间添加适配器层Adapter layer作为可训练参数。该方法及其变体会增加网络的深度从而在模型推理时带来额外的时间开销。前缀微调 Prefix Tuning 前缀微调是指在输入序列前缀添加连续可微的软提示作为可训练参数。由于模型可接受的最大输入长度有限随着软提示的参数量增多实际输入序列的最大长度也会相应减小影响模型性能。软提示连续提示的方法。 5.3、模型上下文窗口扩展上下文窗口在自然语言处理中LLMLarge Language Model大型语言模型的上下文窗口指的是模型在处理文本时所考虑的文本片段或单词的范围。具有外推能力的位置编码 ALiBi 相对位置编码注意力加上线性偏置 S o f t m a x ( q i K T m ⋅ [ − ( i − 1 ) , . . . , − 2 , − 1 , 0 ] ) Softmax(q_iK^Tm·[-(i-1),...,-2,-1,0]) Softmax(qiKTm⋅[−(i−1),...,−2,−1,0]) m为坡度取值为 { 1 a , 1 a 2 , . . . , 1 256 } , 其中 a n u m _ h e a d s 256 \{\frac{1}{a} , \frac{1}{a^2},...,\frac{1}{256} \} ,其中 a^{num\_heads} 256 {a1,a21,...,2561},其中anum_heads256 [ − ( i − 1 ) , . . . , − 2 , − 1 , 0 ] [-(i-1),...,-2,-1,0] [−(i−1),...,−2,−1,0]表示相对位置取值-k索引[1,i] - q索引[i] 插值法 RoPE位置插值 f ’ ( x , m ) f ( x , m L ′ ) L f’(x,m) f(x,\frac{m}{L})L f’(x,m)f(x,L′m)L 将更大的位置索引范围 [0,L′) 缩减至原始的索引范围 [0,L) 5.4、指令数据构建指令数据的质量和多样性是衡量指令数据的重要维度影响有监督微调过程的关键因素。指令数据由指令、输入、输出组成。指令数据示例手动构建手动编写提示与相应的回答大量人力投入。自动生成指令 Self-instruct Self-instruct 其数据生成过程是一个迭代引导算法。生成任务指令手动构建175 seed tasks 每次采样8个task 指令人工6 迭代生成2 直到停止生成 || 达到模型长度限制。确定指令是否代表分类任务处理不同。不同原因避免分类任务时生成过多某些特定任务Input而忽视其他类别。生成任务输入和输出输出完整指令数据 NoInput-first, Input i n s t r u c t i o n \frac{instruction}{} instructionOutput YesOutput-first, Output i n s t r u c t i o n \frac{instruction}{} instructionInput 过滤低质量数据多样性ROUGE-L相似度0.7; 质量启发式规则除掉含某些关键字如“图片”、重复、过长或过短数据。 LLaMA 模型上进行有监督微调得到 Alpaca 模型所使用的指令数据集的示例 5.5、开源指令数据集开源数据指令集

查看全文

http://www.pierceye.com/news/208795/