当前位置：首页 > news >正文

网站建设服务中企动力推荐武安网站设计公司

news 2025/11/13 0:02:51

网站建设服务中企动力推荐,武安网站设计公司,网络营销推广服务平台,做相同性质的网站算侵权吗文章目录前言一、浅析语言模型中的核心概念1.1分词#xff1a;1.2词向量#xff1a;1.3神经概率语言模型二、大语言模型发展历程三、LLM基本结构3.1预训练阶段工作步骤3.2预训练阶段模型结构3.3Fine-tuning#xff08;微调#xff09; 前言在深入学习LLM#xff08;大… 文章目录前言一、浅析语言模型中的核心概念1.1分词1.2词向量1.3神经概率语言模型二、大语言模型发展历程三、LLM基本结构3.1预训练阶段工作步骤3.2预训练阶段模型结构3.3Fine-tuning微调前言在深入学习LLM大型语言模型之前了解NLP自然语言处理的基本原理对于应用LLM至关重要。虽然在具体的LLM训练和应用中NLP相关概念的内容应用可能有限但这并不削弱了解NLP基础知识的重要性。这种基础知识有助于更好地理解LLM的训练方法、功能以及其在各种领域的潜在应用。因此在学习LLM之前建议先掌握NLP的基础原理以便更全面地掌握这一领域的知识并能够更好地应用它们。感兴趣的同学可以移步AI模型训练——入门篇一、浅析语言模型中的核心概念自然语言处理领域正在经历着一场又一场的革命各类技术层出不穷不断的改变我们对文本的理解方式和文本生成方式。类似与蝴蝶效应这场革命不仅提高了机器翻译、文本摘要、文本分类等任务的性能还在各行各业引发了巨大的变革。越来越多的行业AI化、智能化。在本小节将介绍一些语言模型中的核心概念为更好的理解大语言模型做铺垫。 1.1分词分词是将文本分解成词汇单元或标记的过程。把这些词汇单元通常是语言中的最小可操作单元可以是单词、子词单词的一部分、字符或其他更小的文本单元。这个过程更好的处理未登录词也就是词典里未记录的词、解决拼写错误等问题。在入门篇中我们已经知道分词是NLP中的一个基本预处理步骤它为文本的后续处理提供了原始材料并有助于理解和处理文本数据。可以将分词理解为在进行语言建模语言建模是提高机器语言智能的主要方法之一。常用的英文分词工具有NLTK、SpaCy中文有jieba库等。最早应用分词概念的是n-gram模型可以说它是语言建模的元祖这个概念提出于20世纪20年代在20世纪50年代和60年代得到了进一步发展和形成。Claude Shannon和Warren Weaver的著作《The Mathematical Theory of Communication》中也探讨了类似的思想。不过n-gram模型并没有一个具体的创始人是通过多位研究者的努力和研究逐渐演化和发展起来的。n-gram模型在自然语言处理领域的早期应用主要集中在文本处理和信息检索等领域。随着计算机技术的发展变得更加重要并被用于各种自然语言处理任务包括机器翻译、语音识别、文本分类和文本生成等。其核心思想是假设一个词出现的概率仅依赖于它前面的N-1个词。在预测下一个单词的概率时只会考虑它前面的N-1个词值得注意的是这个“词”不单指单词也可以是指字比如在情感分析的时候就可以是词在文本纠错的时候就可以是单字。以N1、2、3为示例 Unigram1-gram模型每个单词被视为独立的其概率只取决于它自己而不受其他单词的影响。这意味着句子的概率等于所有单词概率的乘积。 Bigram2-gram模型每个单词的概率仅取决于前一个单词。这个模型考虑了相邻单词之间的依赖关系但没有考虑更远处的单词。 Trigram3-gram模型这个模型与bigram类似但每个单词的概率取决于前两个单词。它更进一步考虑了单词之间的依赖关系但仍然存在局限性。总体来说n-gram模型忽略了较长范围的依赖关系因此在处理复杂的句子结构和语言模糊性时存在限制。它们也无法处理未见过的词汇或短语因为模型的概率是基于训练数据中出现的n-grams计算的。 1.2词向量在入门篇中也有提到过词向量的概念那么什么是词向量呢词向量其实是为了完成将词语转换成对应数值向量的表达形式便于计算机读取和运算这一任务产生的名词概念。在发展长河中创建词向量的常用的方法有独热编码和表示学习。独热编码: 独热编码是一种用于将离散的词汇表示成二进制向量的方法每个词汇对应一个唯一的向量其中只有一个元素为1其余元素为0。这个1位通常表示词汇在词汇表中的位置。独热编码的步骤如下构建词汇表首先需要构建一个包含文本数据中所有不同词汇的词汇表。每个词汇都被赋予一个唯一的整数标识通常按照它们在词汇表中的顺序分配。独热编码对于每个词汇将对应的整数标识转化为一个二进制向量其中只有一个位置为1而其他位置都为0。这个1位的位置表示词汇的标识。举个例子假设我们有一个包含4个词汇的词汇表[“apple”, “banana”, “cherry”, “date”]那么独热编码后的向量如下 “apple”[1, 0, 0, 0] “banana”[0, 1, 0, 0] “cherry”[0, 0, 1, 0] “date”[0, 0, 0, 1] 通用数学公式v(“x”)∈R^N, 独热编码的优点是简单易懂每个词汇都有唯一的编码。然而它的缺点是无法捕捉单词间的相似性和语义关系每个词都是独立的。除此之外向量维度与词汇表大小相关要为每个词创建一个维度也导致了对于大型词汇表其向量会十分稀疏只有一个位置为1其余都为0。表示学习: 表示学习是一项重要的自然语言处理NLP技术旨在将词汇、短语或文本转换为稠密、低维的实值向量以便于计算机更好地理解和处理文本数据。这一技术的核心思想是通过训练将词汇表中的每个单词映射到一个固定长度的低维向量空间中使得在这个向量空间中相似的词汇具有相似的表示从而捕获了词汇之间的语义信息。该方法有以下几个特点 1.从高维到低维传统的文本表示方法如上文中的独热编码会将每个词汇表示为一个高维稀疏向量其中大多数维度为零。这种表示方式在大规模文本数据中会导致维度爆炸且难以捕捉词汇之间的语义关系。表示学习的思想是将这些高维向量映射到一个低维稠密向量空间中使得每个词汇都能够用更紧凑的形式表示。语义信息的捕获表示学习的目标是捕获词汇之间的语义信息使得相似的词汇在向量空间中有相似的表示。这意味着在向量空间中语义相似的词汇会彼此靠近而语义上不相关的词汇会在空间中远离彼此。这种语义相似度的度量使得我们可以更好地理解文本的含义和关联。向量空间的构建表示学习中的一个关键概念是构建词汇表的向量空间。词汇表中的每个词汇都被映射到向量空间中的一个点这个点的坐标就是词汇的向量表示。所有这些词向量共同构成了向量空间这个空间中的距离和角度关系反映了词汇之间的语义相似度和关联性。维度的减小表示学习的另一个关键目标是将维度大大减小。传统的高维稀疏表示会浪费大量的存储空间和计算资源。通过降低维度我们能够更高效地存储和处理大规模的文本数据同时保留了重要的语义信息。 1.3神经概率语言模型词向量模式有一定的弊端因为他是利用静态语料去训练的在训练完成后不会在发生任何变化也就导致它的能力局限在了词表无法处理超出此范围的词。为了解决这一问题神经网络就此诞生其具有强大表达学习能力。我们可以理解为词向量通过神经网络参数彼此之间可以产生联系。它由三部分构成输入层接受一个上下文窗口内的词汇作为输入将其表示为词向量。隐藏层通过学习权重来捕获词汇之间的复杂关系具备非线性建模能力。输出层使用softmax函数生成概率分布表示词汇表中每个词汇作为下一个词的概率。虽然NLM在某些任务中表现出色但它也有一些缺点如处理长序列时的性能问题也就推动了后续的Transformer模型出现。二、大语言模型发展历程第一阶段2013-2017前期探索与词嵌入 2013年NLP领域迎来了重要的突破词嵌入技术开始崭露头角。Google公司在2013年发布的Word2vec成为了时代的亮点即上文中表示学习发放代表作它是由Tomas Mikolov等人开发的。Word2vec的工作机制是将单词映射到低维向量空间从而捕捉单词之间的语义关系。通俗地说Word2vec能够快速将词语转换成模型所需要的向量形式成为NLP领域强有力的工具大大提升了NLP的效率同时也标志着NLP从基于规则转向基于数据驱动。第二阶段2018-2019BERT和自监督学习的崭露头角 BERTBidirectional Encoder Representations from Transformers崭露头角在2018年底Google发布了BERT这是一种双向自监督预训练模型它引入了一种全新的范式彻底改变了自然语言处理的方法。传统的自监督学习方法通常是单向的而BERT则可以双向理解文本这意味着它可以同时考虑一个词的左右上下文大大提高了对上下文的理解。BERT的出现引发了一波研究热潮各种NLP任务的性能得到了显著提高。与此同时OpenAI的GPTGenerative Pre-trained Transformer模型也初露锋芒。虽然GPT采用了单向的自监督学习方法但它拥有着巨大的生成能力能够生成连贯、有逻辑的文本。这两个模型的出现使自监督学习成为自然语言处理的主流方法之一。这一阶段的关键特点是BERT的发布它引入了双向自监督学习的概念颠覆了传统的自然语言处理方法以及GPT等模型的出现促进了自监督学习方法的研究和应用。第三阶段2020-2021大规模模型和多模态任务 GPT-3的出现和参数规模的飞跃2020年6月OpenAI发布了GPT-3这是一个巨大的预训练语言模型具有数千亿的参数。GPT-3的出现引发了广泛的讨论和关注它展示了前所未有的生成能力。这个模型可以生成高质量的文本、回答问题、甚至创作诗歌和散文。与此同时模型库如Hugging Face的Transformers库得到了广泛的发展和推广入门篇有详细介绍。这些库提供了各种预训练语言模型的实现使研究人员和开发者能够更轻松地访问和使用这些模型。这大大推动了模型的研究和应用。为了更好地适应特定领域的需求研究人员开始开发专用的预训练模型。例如BioBERT是专门用于生物医学领域的模型LegalBERT则专注于法律领域。专用模型使得其在相应领域的任务上表现更为出色。除了文本处理多模态任务也受到了广泛的关注。这一阶段见证了将文本与图像、音频等多种模态数据结合的研究模型开始具备理解和处理多种类型数据的能力。这对于实现更复杂的自然语言处理任务和应用具有重要意义。第四阶段2022-至今AIGC时代的到来模型参数规模的进一步扩大这一阶段模型参数规模的持续扩大。如GPT-4、Bard等已经拥有千亿乃至千万亿级别的参数这使得它们在NLP中的性能也越发惊人。大规模模型的出现推动了NLP领域的进一步探索和创新。毋庸置疑在模型参数规模不断扩大的同时模型的架构也在不断演进。自回归架构成为主潮结构这也使得其在生成式任务上表现出了更高的能力。随着模型规模的扩大对与人类交互的安全性和可靠性的关注也日益增加。研究人员和开发者致力于开发无毒、无偏见、不歧视的模型以确保它们在与用户互动时不会产生有害或不当的内容。至今这一领域的研究和工作仍在不断进行中。总结一下这一阶段的主要特点是模型参数规模的进一步扩大、模型架构的演变以及对与人类交互的安全性和可靠性的更多关注。同时当前的研究和发展趋势也表明预训练语言模型领域仍然充满了机会和挑战将继续为自然语言处理技术的未来发展开辟新的道路。三、LLM基本结构有了第一小节部分的铺垫我相信你已经很清楚大多数LLM是基于Transformer架构的了在大规模文本数据上进行预训练然后微调至适用于任务要求的状态最后应用于各类NLP任务如文本生成、文本理解、情感分析等。自 Bert作为双向语言模型在大规模无标签语料库上使用专门设计的预练任务使性能显著提升以来预训练-微调便作为一个学习范式被遵循科研人员将其引入不同的架构比如bart、gpt等表现优异的模型中去。在本小节将具体的介绍预训练和微调这两个概念。 3.1预训练阶段工作步骤 LLM的预训练Pretraining是指在将模型用于特定任务之前模型在大规模通用语料库上进行的初始训练阶段。模型在这个阶段会学习关于NLP的一般性知识包括语法、语义、词汇等。这个过程通过自监督学习的方式进行。所以在这个过程中语料库的规模和质量对于其获得强大的能力至关重要预训练的目标是让模型获得足够的语言理解能力以便在后续的微调或特定任务中表现出色。一旦完成了预训练模型可以通过微调Fine-tuning来针对具体任务进行进一步训练以适应任务特定的数据和要求。 LLM的预训练过程的关键步骤如下 1.数据收集毋庸置疑NLP类型的任务都是基于数据的。所以要准备好数据集。数据可以大体分为两类1 .通用文本数据这类数据通常来源于网页、数据。规模较大并且获取难度很低。专用文本数据则是根据任务目的去获取比如代码或者论文等科学文本。 2.数据清洗和预处理清洗过程包括但不限于去除不必要的格式、特殊字符确保数据的质量和一致性。预处理数据时主要会对数据进行一下几个方面操作1.质量过滤删除语料库中的低质量数据——常用方法有基于分类器的方法和基于启发式的方法但是对于第一种方法来说经常会误删除一些有用数据如方言、口语等使得语料库的多样性降低。2.去重在大量实验中发现过多的重复数据也会影响语言模型的多样性导致训练过程不稳定从而影响模型的性能。3.隐私去除在训练过程中不容小视的一步是安全性问题因为很多数据来源于网络所以可能包含了很多个人信息训练前也要针对性的剔除此类数据。4 分词这一步骤在前文中已经介绍过这里不再赘述。 3.构建模型架构同普通的NLP任务一样在数据准备好后就会基于Transformers选定合适的模型结构以自监督学习方法进行训练。自监督学习表示会根据输入文本预测另一部分内容 4.参数调整在预训练过程中需要调整模型的超参数如学习率、批次大小、训练轮数等以便取得最佳的性能。 5.保存和部署预训练模型以模型参数的方式保存预训练模型权重以供下游任务使用。 3.2预训练阶段模型结构除了入门篇二中介绍的编码器(encoder)、解码器(decoder)、(编码器-解码器)encoder-decoder模型以外常见的预训练模型结构还有 3.2.1Causal Language Modeling因果语言模型 CLM(Contrastive Language Modeling)是一种采用单向注意力掩码自监督学习方法核心思想是通过生成文本的方式来学习语言表示。这种思想确保每个输入标记只关注过去标记和它本身。在这种方法中模型在生成文本时只关注前面的文本而不考虑后面的文本因此这种方法生成的文本是因果的causal。在传统的自监督学习方法中文本被编码成一个上下文向量然后被用于计算相似度或者生成文本。在CLM中则使用对角掩蔽矩阵来保证各token只能看到它之前的token。具体来说对角掩蔽矩阵的对角线元素为1其他元素为负无穷这使得每个token只能看到它前面的token。这使得CLM能够生成因果文本因为它只能根据之前的token来生成下一个token而忽略后面的token。 CLM是一种基于生成的自监督学习方法。在生成文本时模型从当前时刻的隐藏态hidden state中采样当前时刻的token然后将该token加入训练集中。由于生成的token是因果的因此训练集也被约束为因果也就是说如果输入一个之前的token那么生成的下一个token必须依赖于这个token。这个约束使得模型能够学习到有效的语言表示。迄今为止因果解码器已被广泛采用为各种现有大语言模型的体系结构例如GPT 、BLOOM 和 Gopher 。 3.2.2Prefix Language Model前缀语言模型它可以看作是Encoder-Decoder模型的一种变体。在传统的Encoder-Decoder模型中Encoder用于将输入序列编码为固定长度的向量表示其为 AE模式即双向注意力机制而Decoder则使用单项注意力机制来使这个向量生成输出序列。可以说它修正了CLM的掩码机制使其前缀标记执行的是双向注意力机制但是生成的标记只是单向注意力。而在Prefix LM中前缀prefix部分充当了Encoder的角色它包含了输入信息或上下文。模型根据前缀生成连续的文本这一过程类似于Decoder的工作但在这里没有明确的分隔符来标识输入和输出序列因为他们共用一个transformer blocks。可以将Prefix LM视为Encoder-Decoder模型的一种扩展其中Encoder和Decoder之间没有明确的边界允许更加灵活的文本生成。这种结构的灵活性使得Prefix LM对于生成任务的多样性有了显著提升。同Encoder-Decoder模型使用这种结构可以同时进行语言理解和语言生成类任务并且因为Encoder和Decoder共用一个transformer量级略轻不过它也有一定的弊端就是效果没有传统的Encoder-Decoder模型优秀理解类有差距、生成类效果相似。目前采用此种模型机制的大语言模型有GLM-130B和U-PaLM。 3.2.3Premuted Languge Model排列语言模型 PLM 的核心思想是通过对输入文本进行排列重组置换来训练模型从而使其具备更好的序列建模能力。同前缀语言模型它也是采用单个 Transformer 模型作为主干结构同时在训练方法上采用了一种独特的方式将形式看似是自回归AR的输入过程与实际上是自编码AE的方法相结合。Premuted LM 的外在表现形式是按照自回归AR方式生成文本而 AE 通常直接编码和解码输入数据没有显式的生成过程。但它在内部使用了 Attention Mask将上下文信息编码到每个位置然后根据上下文生成输出。这是一种同时结合了自回归AR和自编码AE特性的方法。而 AE 更注重数据的压缩和重构不一定需要生成文本。Premuted LM 更适合自然语言生成任务如文本生成、翻译等因为它在外观上类似于AR模型。而 AE 通常用于数据重构、特征学习等领域。总的来说PLM 是一种将自回归和自编码的思想结合在一起的预训练模型它在外观上看似AR但内部实际上采用了AE的方法从而在不同的应用场景中具有独特的优势。 3.3Fine-tuning微调本文第一节中介绍了预训练其实就是利用海量数据训练一份模型参数保存下来这些参数将被应用于微调。预训练微调的工作模式使得我们完成任务的时候无须在从头构建一个新的模型。值得注意的是Fine-tuning是一个通用概念不同的任务采用不同的微调方法比如Instruction Tuning、Task-Specific Fine-tuning、Domain Adaptation、Prompt Engineering等等但无论选择哪种方法其流程都大体如下 1.选择预训练模型根据任务选择一个在大规模数据上训练过的预训练模型。 2.准备数据准备特定任务的训练数据集。这个数据集通常比预训练模型的数据集小得多因为微调的目标是调整模型以适应新数据。 3.定义任务为任务定义输入和输出。例如对于文本分类输入可以是文本输出可以是类别标签对于图像分割输入可以是图像输出可以是每个像素的标签。 4.微调模型最后使用准备好的数据集将预训练模型的权重微调以最小化任务特定的损失函数。用之前入门篇的知识进一步细化介绍下微调的相关概念以及步骤 Tokenizer这个组件负责数据预处理将自然语言文本转换为适用于模型输入的形式。 Datasets用于训练模型的数据集可以直接从社区获取各种数据集方便快捷。 Model这是对PyTorch模型的封装专门用于更好地支持预训练模型的使用。 Evaluate评估函数用来对模型的输出结果进行全面的评估和分析。 Trainer训练器可以在其中配置各种模型参数以便快速启动模型训练流程。 Pipeline模型推理的必备工具快速验证和检查模型的输出结果。总结一下导入想要应用的包-加载想要训练的数据集-(划分数据集)-预处理数据集-创建model-(设置评估函数)-创建trainer-配置trainer参数-模型训练 3.3.1Task-specific Fine-tuning任务特定微调 Task-specific Fine-tuning 是Fine-tuning的一种具体应用它指的是将模型微调以适应特定任务。这个任务可以是任何NLP类型任务包括文本分类、文本生成、问答等。当在Fine-tuning中使用特定任务的数据集和损失函数时就可以说我们正在进行 Task-specific Fine-tuning。让我们通过一个实际的例子来解释Task-specific Fine-tuning任务特定微调假设有一个预训练语言模型以及一个NER命名实体识别任务任务是从文本中识别出人名、地名、组织名等命名实体。以下是任务特定微调的步骤预训练模型首先准备一个在大规模文本数据上进行了预训练的模型该模型具备了一定的自然语言理解能力。数据准备为了执行NER任务准备一个任务特定的数据集其中包含了包含命名实体标注的文本样本。这个数据集是特定任务的数据通常包括训练集和验证集。任务定义定义这个任务的输入和输出格式。在NER任务中输入是文本序列输出是相应文本序列中每个词对应的命名实体标签如人名、地名、组织名等微调模型使用预训练模型将其权重微调到NER任务上。评估和使用一旦模型经过微调可以在验证集上评估其性能。当性能满足要求就可以将该模型部署到实际应用中用于识别文本中的命名实体。在这个例子中Task-specific Fine-tuning 是将通用预训练模型BERT微调为特定任务NER的过程。通过提供任务特定的数据集和相应的标签可以使模型学会在文本中识别命名实体。 3.3.2Instruction Tuning指令微调 Instruction tuning是fine-tuning 的一种方式通过提供特定领域的指令和数据来调整模型以适应该领域的文本和任务要求。依旧是通过一个实际的例子来解释Instruction Tuning指令微调假设一家律师事务所需要频繁地生成各种法律文件包括合同、法律建议和法庭文件。想要利用AI来自动化这个过程以节省时间和提高效率。选择预训练模型首先选择一个在大量法律类型数据上进行了预训练的语言模型。准备数据为了生成法律文件准备一个任务特定的数据集其中包括了符合事务所特征的常用法律术语、法规和法律文件的示例。这个数据集将被用于Instruction Tuning。定义任务生成特定类型的法律文件。例如你可能提供以下指令“生成一份租赁合同包括租金、租赁期限和各方信息。” Instruction Tuning现在将选择的预训练模型进行Instruction Tuning。在这个过程中将使用准备好的任务特定数据集和任务指令来微调模型。模型会学会理解指令并生成符合法律要求的合同文本。生成法律文件当模型经过Instruction Tuning就可以将指定的任务指令提供给模型它会生成相应的法律文件。例如它可以生成一份租赁合同其中包含了正确的租金、租赁期限和各方信息并且完全符合法律要求。在这个例子中Instruction Tuning将通用的预训练语言模型调整为法律领域的专用生成器它能够根据指令生成特定类型的法律文件。指令微调对于预训练模型的效果提升作用不容忽视主要有两个方面的影响从性能上看此种微调方式挖掘了大预言模型的能力在多个语言模型上研究后发现各种规模的都回在指令微调中受益。第二个方面则是使得任务泛化性能力大大增强进行了指令微调的大模型对于未曾见过的任务也能实现卓越的性能表现。 3.3.3 Domain Adaptation领域适应 Domain Adaptation领域适应是一种将模型从一个领域适应到另一个领域的方法。与Instruction Tuning类似它可以利用所涉及领域的特定数据来微调模型以提高在特定领域任务中的性能。假设有一个源领域的模型应用场景为针对某社交媒体类软件上的评论进行情感分析该模型在通用社交媒体评论数据上进行了Fine-tuning以执行情感分析任务。现在如果想将这个情感分析模型用于某一特定行业比如医疗行业。那么在医疗领域的评论就及有可能包含特定的医学术语与源领域中通用社交媒体评论有所不同。可以理解为这是一个目标领域。为了使通用情感分析模型更加适应于医疗保健领域则可以执行以下步骤 Fine-tuning微调首先已经在通用社交媒体评论数据上对模型进行了Fine-tuning以执行情感分析任务这里不再赘述。 Domain Adaptation领域适应将模型从源领域社交媒体评论适应到目标领域医疗保健评论。在这个过程中会使用医疗保健领域的评论数据同时结合源领域的数据以微调模型的参数。这个微调过程涉及到将模型适应医疗保健领域的特定情感分析任务。通过Domain Adaptation情感分析模型现在可以更好地理解医疗保健评论中的医学术语和情感内容并执行情感分析任务。模型的性能在医疗保健领域得到了提高同时仍然能够在通用社交媒体评论上执行情感分析。 3.3.4Layer-wise Fine-tuning逐层微调 Layer-wise Fine-tuning 是一种微调方法通过这种方法我们可以对模型进行精细的调整而不必调整整个模型。这种方法通常用于控制模型的复杂性使其更适应特定任务。假设现在需要处理图像分类任务有一个预训练模型这个模型有多个卷积层和全连接层。在微调时通常只对最后一个卷积层进行微调而不是整个网络这就是Layer-wise Fine-tuning。为什么要这样做呢因为往往都是在最后一个卷积层通常包含了一些高级特征例如物体的形状和色彩等信息这些特征对于特定的图像分类任务可能非常有用。所以只要通过微调最后一层就可以在保留模型底层特征提取能力的同时将模型调整得更适合我们的任务。这个过程就好像是在用一块精准的刀子对模型进行微调专注于任务所需的部分而不是对整个模型进行全面的改动。 3.3.5Multi-Task Learning多任务学习顾名思义Multi-Task Learning就是在一个模型中同时处理多个相关任务。这种方法有几个好处一是通过共享特征表示使得模型更好的泛化到新数据和新任务上二是因为此类微调可以将不同任务的信息结合起来从而帮助了模型在有限的数据中学习更多的知识。三是降低过拟合指的是模型在训练数据上表现得很好但在未见过的新数据上表现不佳的情况当任务数据较少时多任务学习可以通过共享知识来减轻过拟合问题。假设我们正在开发一个AI助理它需要具备多种文本能力比如要能够进行文本分类文本理解或者是命名实体识别。在传统方法中我们可能需要为每个任务训练一个单独的模型。但是使用Multi-Task Learning我们可以在同一个模型中同时训练多个任务。在这个模型中底层的特征提取层会从文本中提取共享的信息例如语法、词义等。然后每个任务都有自己的输出层用于执行文本分类或命名实体识别。这使得模型能够更好地理解文本中的多个信息并在多个任务之间共享知识。这就好像是在一个聪明的团队中每个成员都有自己的专长但他们共享知识以提高整个团队的效率。通过这种方式Multi-Task Learning 允许我们在单个模型中同时解决多个相关任务从而提高了模型的性能和通用性。 3.3.6Prompt Engineering提示设计 Prompt engineering通常是在微调Fine-tuning的上下文中使用的一种技术通过设计或选择任务相关的提示来引导预训练语言模型如GPT-3、BERT执行特定的任务或生成特定类型的文本。这个技术的目的是通过巧妙构prompt提示语来影响模型的行为使其在特定任务上表现出色。假设我们有一个预训练语言模型希望使用它来执行情感分析任务即确定一段文本的情感是积极的、消极的还是中性的。我们可以使用Prompt Engineering来设计提示以引导模型执行这个任务。提示示例请分析以下文本的情感[文本] 在这个提示中[文本]是一个占位符我们将实际的文本插入其中。模型接收到这个提示后会根据提示的要求生成相应的情感分析结果。例如如果我们将一段文本“这部电影太精彩了” 插入占位符模型可能会生成结果“积极情感”。 Prompt Engineering帮助我们引导模型执行情感分析任务这种方法非常灵活可以根据不同的情境和任务需求设计不同的提示。可能读到这你有一点点迷惑Fine-tuning、Task-specific Fine-tuning 、instruction Tuning…这些概念有重叠的区域但又好像是父子级的关系其实我们无须将谁归为谁的父级/子集其实这些方法在微调和适应性领域中有一些交叉点但它们的关注点和应用场景略有不同。Fine-tuning是一个通用概念而其他方法是Fine-tuning的变体或扩展以适应不同的需求选择适当的方法取决于任务和数据的特性。比如Instruction Tuning是Fine-tuning的一种方式用于生成任务依赖于任务指令而Multi-Task Learning是Fine-tuning的一种策略本文介绍他们主要是让大家更好的理解在微调过程中的常用手段。

查看全文

http://www.pierceye.com/news/721791/