当前位置：首页 > news >正文

网站建设国家标准wordpress博客文章导出

news 2025/12/26 16:13:32

网站建设国家标准,wordpress博客文章导出,源码资源下载站,dw软件主要做什么1 目录本文是学习https://github.com/le-wei/LLMSurvey/blob/main/assets/LLM_Survey_Chinese.pdf的总结#xff0c;仅供学习#xff0c;侵权联系就删目录如下图本次只总结一部分#xff0c;刚学习有错请指出#xff0c;VX关注晓理紫#xff0c;关注后续。 2、概述…1 目录本文是学习https://github.com/le-wei/LLMSurvey/blob/main/assets/LLM_Survey_Chinese.pdf的总结仅供学习侵权联系就删目录如下图本次只总结一部分刚学习有错请指出VX关注晓理紫关注后续。 2、概述 2.1 大语言模型的扩展法则 KM扩展法则Chinchilla 扩展法则 2.2 大语言模型的涌现能力上下文学习能力(ICL)假设为大语言模型提供了一个自然语言指令、或几个任务的演示它可以通过完成输入文本的单词序列的方式为测试实例生成预期的输出而无需而外的训练或者梯度更新(通过提高的实例就可以学会对应的任务不需要进行而外的训练)指令遵循通过使用自然语言描述的混合任务数据集进行微调指令微调LLM可以在未见过的指令形式描述的任务表现出色。(泛华能力强)逐步推理通过使用思维链提示策略完成类似数学的推理任务 2.3 大语言模型的关键技术扩展Transformer语言模型存在明显的扩展效应更大的模型、数据规模和更多的训练计算通常导致模型的提升。训练分布式训练算法是学习LLM网络参数必需的能力引导在大语料库中训练的大语言模型具备了作为通用任务求解器的潜在能力但是在特定的任务中需要使用如ICL、COT进行引导大模型进行求解对齐微调使大模型生成更加符合人类的无害的的内容工具操作使用LLM可以借助外部工具完成其不擅长的任务操作 2.4 GPT系列大模型的演变 3、大语言模型资源 3.1 公开可用的模型检点点百亿级千亿级 3.2 常用语料 Books:书籍训练集CommonCrawl最大的开源网络爬虫数据集Reddit Links:一个通过社交平台创建的高质量数据集Wikipedia在线的百科全书包含大量高质量文章涵盖各种主题Code:爬取有开源许可的代码库Others其他类型的数据 3.4 代码资源可用于开发LLM的代码库 Transformers:是使用Transformer架构构建模型的开源Python库DeepSpeed:是用于深度学习优化库与pytorch兼容已用于训练多个LLM如MTNLG和BLOOM。提供各种分布式训练优化技术的支持如内存优化ZeRO技术梯度检查点和管道并行Megatron-LM是由NVIDIA开发的深度学习库用于训练LLM。提供丰富的分布式训练优化技术包括模型和数据并行、混合精度训练和Flash Attention并实现GPU间的高效分布训练JAX由google开发用于高性能机器学习算法的python库允许在带有硬件加速GPU、TPU情况下进行数组高效运算支持自动微分和即时编译等Colossal-AI由IIPC-AI Tech开发用于训练大规模人工智能模型的深度学习库其基于pytorch实现并支持丰富的并行训练策略。BMTrain由OpenBMB开发的用于分布方式训练大规模参数模型的高效库、强调代码简洁、低资源占用和高可用性。已将一些常见的LLM(Flan-T5和GLM)迁移到其ModelCenter中。FastMoE一种专门用于MoE混合专家模型的训练库。基于Pytorch开发注重效率和易用性。其他pytorch、TensorFlow、MXNet、PaddlePaddle、MindSpore、OneFlow等 4、预训练 4.1 数据收集可通过上面语料库获取数据 4.2 数据预处理收集大量数据后对数据进行预处理特别是消除噪声、冗余、无关和潜在有害的数据是必需的。一个典型的预处理预训练数据的流程图质量过滤为删除收集到的语料库中的低质量数据主要有两种方法基于分类器的方法通过一部分高质量的数据训练出一个分类器通过分类器识别并过滤低质量的数据但是有研究发现基于分类器可能会删除方言、口语和社会语言的高质量文本导致有偏的语料库并减少了多样性。基于启发式的方法可以采用一些规则消除低质量文本基于语言的过滤如果针对某一种语言任务的LLM可以删除其他非目标语言的语料。基于度量的过滤可以利用生成文本的评估度量例如困惑度来检测和删除不自然的句子基于统计的过滤可以利用语料库的统计特征如标点符号分布、符合与单词比率和句子长度来衡量并过滤低质量数据基于关键词的过滤基于特定的关键词集合、可以识别和删除文本中的噪声或无用元素。去重语料中的重复数据会降低语言模型的多样性可能导致训练过程不稳定降低模型的性能。去重可以在句子级、文档级、和数据集级等不同粒度去重句子级删除包含重复单词和短语的低质量句子因为它们可能在会在语言建模中引入重复模式。文档级主要依靠文档之间的表层特征例如单词和n元的重叠的重叠比率来检测和删除包含相似内容的重复文档。数据集级需要从训练集中删除测试集可能出现的重复文本。隐私去除为了防止训练集中存在敏感或个人信息数据。可以通过基于规则的方法删除隐私数据。分词分词也是数据预处理的关键步骤。它的目的是将原始文本分割成词序列随后用作LLM的输入。对于有多种领域、语言和格式组成的语料库使用专门为预训练语料库设计的分词器效果可能更好。最近LLM使用SentencePiece为预训练语料库训练定制化的分词器同时利用字节级的Byte Pair Encoding(BPE)算法来确保分词后的信息不会丢失。需要注意BPE中的归一化技术例如NFKC、可能会降低分词性能。 4.3 预训练数据对大语言模型的影响混合数据来源不同领域或场景的数据具有不同语言特征和语义知识。通过不同来源的文本数据对LLM模型进行预训练LLM可以获得广泛的知识并有强大的泛化能力。但是需要注意设置预训练数据的分布因为这个可能影响LLM在下游任务的性能。预训练数据的数量随着LLM参数的增加也需要更多的数据来训练模型。预训练数据的质量现有的研究表明对低质量的语料库进行预训练时例如噪声、有害和重复的数据可能会损害模型的性能。 4.4 主流架构一般来说现有LLM主流架构可以大致分为三种类型即编码器-解码器、因果解码器和前缀解码器。编码器-解码器传统的Transformer模型是建立在编码器-解码器架构上有两个Transformer块分别作为编码器和解码器。编码器采用堆叠的多头注意层对输入序列进行编码以生成其潜在表示。解码器对这些表示进行交叉注意并自回归地生成目标序列。目前只有少数的LLM采用此种方式如Flan-T5因果解码器架构因果解码器架构采用单向注意力掩码以确保每个输入token只能关注过去的token和它本身输入和输出的token通过解码器以相同的方式进行处理。GPT系列是基于因果解码器架构开发OPT、BLOOM、Gopher都是采用因果解码器。前缀解码器架构前缀解码器架构也称非因果解码器架构修正了因果解码器的掩码机制使其能够对前缀token执行双向注意力并仅对生成的token执行单向注意力。前缀编码器可以双向编码前缀token序列并自回归地逐个预测输出token其中编码和解码过程共享相同的参数。实用建议不从头开始训练而是继续训练因果解码器然后将其转换为前缀解码器以加速收敛。基于前缀解码器架构的LLM代表有GLM-130B和U-PaLM. 总结可以考虑通过混合专家MOE扩展这三种类型架构其中每个输入的小部分神经网络权重被稀疏激活Switch Transformer和GLaM证明通过增加专家数量或总参数大小性能会有显著的改进。 4.5 Transformer详细配置 Transforme主要部分的相应配置标准化、位置编码、激活函数、注意力和偏置。标准化Transformer架构引入层标准化Layer NormLN是为了能稳定训练LLM。但是LN的位置对LLM的性能影响很大。大多数LLM采用前置LN实现更稳定的训练。LN的代替方案RMS Norm、DeepNorm都有很好的训练稳定性。激活函数在现有的LLM中GeLU激活函数广泛使用最新的LLM如PaLM和LaMAD采用GLU激活函数的变体特别是SwiGLU和GeGLU的变体。性能较好但是与GeLU比在前馈网络中需要额外的参数。位置编码由于 Transformer 中的自注意模块具有置换不变性因此需要使用位置编码来注入绝对或相对位置信息以建模序列。绝对位置编码: 有两种绝对位置编码即正弦函数和学习的位置编码。通常在LLM中经常使用学习的位置编码相对位置编码相对位置编码根据键和查询之间的偏移量生成嵌入因此它可以在比训练序列更长的序列上表现良好即外推。代表有 ALiBi使用基于键和查询之间距离的惩罚来偏置注意力分数。实证结果表明它比其他位置编码有更好的零样本泛化能力和更强的外推能力RoPE通过基于绝对位置设置特定的旋转矩阵RoPE中的键和查询之间的分数可以使用相对位置信息计算。对于建模长序列更有益。注意力机制和偏置GPT-3采用低计算复杂度的稀疏注意力机制即分散注意力。对于偏置大多数LLM与原始的Transformer一样在每一个线性层和标准化层中保留了偏置。但是PaLM和Galactica移除了偏置。研究表明移除偏置可以增强训练的稳定性。总结通过现有文献总结为了有更强的泛化能力和训练稳定性建议选择前置的RMS进行层标准化并选择SwiGLU或GeGLU作为激活函数可以选择RoPE或者ALiBi进行位置编码。码字太累VX关注晓理紫后续继续注意本文大部分内容总结于仅供学习侵权联系删 https://github.com/le-wei/LLMSurvey/blob/main/assets/LLM_Survey_Chinese.pdf

查看全文

http://www.pierceye.com/news/139692/