当前位置：首页 > news >正文

住房城乡建设部门户网站主页合肥seo公司

news 2025/11/12 9:52:23

住房城乡建设部门户网站主页,合肥seo公司,画出网站开发项目流程图,做营销策划要用到哪些网站【NLP概念合集#xff1a;一】预训练 Pre-Training#xff0c;微调 Fine-Tuning 及其方法的概念区别前言请看此正文预训练 Pre-Training无监督学习 unsupervised learning概念#xff1a;标签PCA 主成分分析#xff08;Principal Component Analysis#xff09;降维算法L… 【NLP概念合集一】预训练 Pre-Training微调 Fine-Tuning 及其方法的概念区别前言请看此正文预训练 Pre-Training无监督学习 unsupervised learning概念标签PCA 主成分分析Principal Component Analysis降维算法LSA 潜在语义分析Latent Semantic Analysis降维算法LDA 隐含狄利克雷分布Latent Dirichlet Allocation降维算法概念词袋模型Bag of Words Model / BOW概念n-gram 模型K均值K-Means 聚类算法概念词嵌入Word EmbeddingWord2Vec 预测模型词嵌入算法GloVe (Global Vectors for Word Representation) 词嵌入算法ELMoEmbeddings from Language Models 词嵌入模型BERT Bidirectional Encoder Representations from Transformers语言模型词嵌入模型AE 自动编码器AutoEncoder人工神经网络概念NLP中的编码器Encoder和解码器Decoder概念分词器Tokenizer词嵌入Word Embedding和编码器Encoder的区别概念Transformer架构概念Encoder 模型Decoder 模型Seq2Seq 模型概念预训练任务MLM 遮蔽语言模型Masked Language Model预训练任务NSP 下句预测Next Sentence Prediction预训练任务其他一些经典的预训练任务概念NLUNLGNLI 自监督学习 Self-Supervised Learning 前言请看此 1一些概念源自LLMChatgpt和网络百度/知乎等笔者进行了初步检查。 2由于其中的各种知识比较琐碎为了形成较为结构化的知识体系且使用最简单的、几乎无公式的介绍故作此博客。 3着重为机器学习ML与自然语言处理领域NLP的CV领域的不是很详细讲述了正文在深度学习中一般流程包括预训练和微调两个主要阶段预训练阶段这个阶段包括在大规模无标签数据上进行训练以学习模型的初始参数用以学习通用的语言表示。无监督学习和自监督学习是常用的预训练方法通过让模型在无标签数据上学习语言的结构和特征。微调阶段预训练完成后微调阶段会改变部分参数或全部参数并在有标签数据上进行微调以适应特定的任务。微调的目标是调整模型的参数使其在特定任务上表现良好。下面按照预训练和微调为两个大类其中有不同小类进行介绍。微调貌似只能放到下一篇了捏预训练 Pre-Training 无监督学习 unsupervised learning 现实生活中常常会有这样的问题缺乏足够的先验知识因此难以人工标注类别或进行人工类别标注的成本太高。很自然地我们希望计算机能代我们完成这些工作或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题称之为无监督学习。【机器学习】几种常见的无监督学习算法概念标签在机器学习中训练样本的标签指的是与每个输入样本相关联的输出或目标值。训练样本通常包括两个部分输入特征特征向量和相应的标签。输入特征描述样本的属性或特征是模型用来进行学习和预测的信息。标签对于监督学习任务标签是与每个输入样本关联的真实输出值或类别。在监督学习中模型的目标是学习从输入到标签的映射以便在未见过的数据上进行准确的预测。标签的形式可以是多样化的具体取决于任务的性质和问题的定义。分类任务单一类别标签通常用于分类任务标签表示样本属于哪个类别。例如图像分类任务中标签可以是“猫”、“狗”等。多类别标签如果一个样本可以属于多个类别标签可以是一个包含多个类别的集合。回归任务数值标签在回归任务中标签是一个实数或浮点数值表示目标变量的具体数值。例如房价预测任务中标签可以是房价的具体价格。序列标注任务句子或文本标签用于自然语言处理中的一些任务标签可以是一个句子或文本序列。例如命名实体识别任务中标签是标注每个词语的实体类型。图像生成任务图像标签在图像生成任务中标签可以是一张图像表示模型生成的目标图像。向量标签多维向量在一些任务中标签可以是一个多维的向量表示样本的多个属性或特征。例如人脸识别任务中标签可以是包含人脸特征的向量。那么问题来了大量的数据没有标签我们怎么拿它们进行作为训练语料进行训练呢答案是使用一些算法进行标注呗。 PCA 主成分分析Principal Component Analysis降维算法降维是指在保留数据特征的前提下以少量的变量表示有许多变量的数据这有助于降低多变量数据分析的复杂度。减少数据变量的方法有两种一种是只选择重要的变量不使用其余变量另一种是基于原来的变量构造新的变量。通过降维算法后变成低维向量作为标签。PCA 采用以下步骤来寻找主成分 1计算协方差矩阵。 2对协方差矩阵求解特征值问题求出特征向量和特征值。 3以数据表示各主成分方向。 LSA 潜在语义分析Latent Semantic Analysis降维算法 LSA 是一种用于处理和分析文本数据的无监督学习方法主要用于文本挖掘和信息检索任务。其目标是通过降维技术将文本数据从高维的词语空间映射到低维的语义空间以捕捉文本数据的潜在语义结构。潜在语义分析(LSA)解析 | 统计学习方法 | 数据分析机器学习学习历程全记录LSA 的主要步骤 1构建文档-词矩阵 2奇异值分解 3选择主题数量 4降维 5文档相速度和检索LSA的优点包括对大规模文本数据的有效处理、对词语之间的语义关系进行建模以及对噪声和冗余信息的抵抗力。然而它也有一些限制如对词语的词序和上下文的敏感性较低。且分解变换后的矩阵难以解释计算代价高。 LDA 隐含狄利克雷分布Latent Dirichlet Allocation降维算法 LDA 是一种用于主题建模的概率图模型主要用于分析大规模文本语料库中的主题结构。LDA 假设每个文档是由多个主题的混合生成的而每个主题则是由一组词语的分布所定义的。该模型的目标是通过观察文档中的词语分布推断文档和主题之间的潜在关系。LDA 通过以下步骤计算主题分布和单词分布。 1为各文本的单词随机分配主题。 2基于为单词分配的主题计算每个文本的主题概率。 3基于为单词分配的主题计算每个主题的单词概率。 4计算步骤 2 和步骤 3 中的概率的乘积基于得到的概率再次为各文本的单词分配主题。 5重复步骤 2 到步骤 4 的计算直到收敛。概念词袋模型Bag of Words Model / BOW 所谓词袋模型是将一篇文档我们仅考虑一个词汇是否出现或者出现频率而不考虑其出现的顺序。在词袋模型中我喜欢你和你喜欢我是等价的。在词袋模型中文本被表示为一个向量其中每个维度对应一个词语而向量的值表示相应词语在文本中的出现次数或其他权重。我们发现在上述LSALDA中通常使用的是BOW模型。但上述降维方法不单单局限于BOW。概念n-gram 模型与BOW相反的是 n-gram模型N-gram 是自然语言处理中一种基于词序列的模型表示方法它捕捉了文本中相邻词语之间的关系。N-gram 模型将文本分割成连续的 n 个词语组成的片段并基于这些片段来建模文本的结构。以一个简单的例子说明对于句子 “I love natural language processing.”各个 N-gram 如下 Unigram: {“I”, “love”, “natural”, “language”, “processing”} Bigram: {“I love”, “love natural”, “natural language”, “language processing”} Trigram: {“I love natural”, “love natural language”, “natural language processing”} Four-gram: {“I love natural language”, “love natural language processing”}N-gram 模型的基本假设是当前词的出现只与前面的 n-1 个词相关而与其他词无关。这种模型可以用于语言建模、文本生成、机器翻译等任务。一般来说N 越大模型捕捉的上下文信息越丰富但也需要更多的数据来估计模型参数。N-gram 模型的局限性在于它无法捕捉长距离的依赖关系因为它仅考虑相邻的 n 个词。更复杂的模型如神经网络的语言模型通常被用来处理更大范围的语境依赖。 K均值K-Means 聚类算法当然聚类算法也可以作为无监督学习的一种学习算法。K-Means 算法是一种聚类算法。其典型计算步骤如下 1从数据点中随机选择数量与簇的数量相同的数据点作为这些簇的重心。 2计算数据点与各重心之间的距离并将最近的重心所在的簇作为该数据点所属的簇。 3计算每个簇的数据点的平均值并将其作为新的重心。 4重复步骤 2 和步骤 3直到所有数据点不改变所属的簇或者达到最大计算步数。概念词嵌入Word Embedding 词嵌入是一种将词语映射到实数向量空间的技术通过这种表示词语之间的语义关系可以在向量空间中更好地体现。【学习词嵌入一般都是无监督学习的。但词嵌入可以作为一个底层工具为后续的比如其他预训练和微调学习提供帮助。】独热编码 One-Hot Encoding 一个单词对应一个n维向量n为词汇表大小向量只在某个位置为1比如 Love 可能对应 (0,0,1,0, ……,0,0)词向量 Word Vector 一般来说一个单词对应一个n维向量n一般为固定超参数每个位置的值都是实数比如 Love 可能对应 (0.0384, 0.1235, ……, 0.8997) NLP(一)Word Embeding词嵌入引申句子嵌入Sentence Embedding 要为一个句子生成句子嵌入最基本的方法是对该句子中出现的所有单词进行平均词嵌入。 Word2Vec 预测模型词嵌入算法 Word2Vec主要包含连续词袋模型CBOW和SGSkipGram模型。 1CBOW模型通过上下文中的周围词语来预测目标词语。模型的目标是最大化给定上下文条件下目标词语的条件概率。 2SG模型与CBOW相反它通过目标词语来预测上下文中的周围词语。Skip-Gram旨在最大化给定目标词语条件下周围词语的条件概率。注意BOW词袋模型和CBOW连续词袋模型不是同一个概念一个是文本的向量表示作用一个是词嵌入的方法但是可能有人问这个不是预测模型嘛但它同时也是强大而经典的词嵌入工具更详细的词嵌入学习过程可以查看如下知乎2.2和2.3节 Graph Embedding之从word2vec到node2vec GloVe (Global Vectors for Word Representation) 词嵌入算法 GloVe 是一种基于全局词-词共现统计的方法即共同利用了全局信息和局部信息。它通过对整个语料库中词语的共现信息进行建模使用奇异值分解SVD来学习词向量。GloVe生成的词向量在语义上捕捉了词语之间的关系。Glove的计算效率很高、效果也很好。总体来看Glove可以被看作是更换了目标函数和权重函数的全局Word2Vec。 ELMoEmbeddings from Language Models 词嵌入模型 ELMo 使用双向LSTMLong Short-Term Memory模型通过学习上下文中的信息来生成词向量。ELMo的独特之处在于它将词语表示为多个不同层次的语境敏感表示使其能够更好地捕捉词语的语义变化虽然经典但貌似现在用的流行方向都转变为GPT系列BERT系列去了 BERT Bidirectional Encoder Representations from Transformers语言模型词嵌入模型使用 BERT 词嵌入的优点 1上下文敏感性 BERT 通过预训练阶段使用大规模的无标签语料库学习了深层次的上下文表示。这使得生成的词嵌入能够更好地捕捉词语在不同上下文中的语义变化和依赖关系。 2双向性与传统的单向语言模型不同BERT 是一个双向模型它考虑了输入序列中每个位置的上下文信息。这有助于更好地理解文本中的语境和关系使得生成的词嵌入更加全面。 3适应不同任务 BERT 的预训练模型可以被微调用于各种下游任务如文本分类、命名实体识别、问答等。这种通用性使得 BERT 在多个自然语言处理任务中都能够表现出色。 4Transformer 架构 BERT 基于 Transformer 模型架构这种架构在处理长距离依赖和捕捉上下文信息方面表现出色。Transformer 的自注意力机制允许 BERT 考虑输入序列中的所有位置而不受限于固定的窗口大小。 5大规模预训练 BERT 的预训练模型使用了庞大的语料库进行训练这使得模型能够学到更丰富的语言知识和表示。预训练阶段中的掩码语言模型任务和下一句预测任务帮助模型学到了深层次的语言理解。 6开源和预训练模型 BERT 的预训练模型已经在开源平台上发布研究者和从业者可以直接使用这些预训练模型从而避免了从头开始训练庞大的语言模型的复杂性。BERT 词嵌入的方法神经网络算法 - 一文搞懂BERT基于Transformer的双向编码器 1Tokenization: 输入文本首先通过分词器Tokenizer被分割成Token。这一步通常包括将文本转换为小写、去除标点符号、分词等。BERT使用WordPiece分词方法将单词进一步拆分成子词subwords以优化词汇表的大小和模型的泛化能力。 2Token Embeddings: 分词后的Token被映射到一个高维空间形成Token Embeddings。这是通过查找一个预训练的嵌入矩阵来实现的该矩阵为每个Token提供一个固定大小的向量表示。 3Segment Embeddings: 由于BERT能够处理两个句子作为输入例如在句子对分类任务中因此需要一种方法来区分两个句子。Segment Embeddings用于此目的为每个Token添加一个额外的嵌入以指示它属于哪个句子通常是“A”或“B”。 4Position Embeddings: 由于Transformer模型本身不具有处理序列中Token位置信息的能力因此需要位置嵌入来提供这一信息。每个位置都有一个独特的嵌入向量这些向量在训练过程中学习得到。 5Token Embeddings、Segment Embeddings和Position Embeddings三者相加得到每个Token的最终输入嵌入。 AE 自动编码器AutoEncoder人工神经网络 Autoencoder 是一种无监督学习的神经网络模型其目标是学习数据的紧凑表示编码以及用于重建原始数据的解码器。在NLP中AE可以做如下任务词嵌入降维和特征选取去噪文本生成和重建异常检测等AE 的步骤 1接受一组输入数据即输入 2在内部将输入数据压缩为潜在空间表示即压缩和量化输入的单个向量 3从这个潜在表示即输出重建输入数据。自动编码器AutoEncoder简介比较火的有CAE卷积自编码DAE降噪自编码VAE变分自编码但是大多在CV比较火概念NLP中的编码器Encoder和解码器Decoder 在自然语言处理NLP中Encoder 和 Decoder 是神经网络中常用的两个组件尤其在序列到序列seq2seq模型中广泛应用。这种结构通常用于机器翻译、文本生成等任务。Encoder编码器作用编码器负责将输入序列例如源语言句子映射为一个中间的表示通常是固定维度的向量该表示捕捉了输入序列的语义信息。结构编码器通常由循环神经网络RNN、长短时记忆网络LSTM、门控循环单元GRU或更现代的 Transformer 架构组成。这些模型能够逐步处理输入序列并捕捉其上下文信息。Decoder解码器作用解码器接受编码器生成的中间表示并将其转换为目标序列例如目标语言翻译的句子。结构解码器也可以使用 RNN、LSTM、GRU 或 Transformer 架构。解码器的设计允许它逐步生成目标序列考虑到上下文信息和之前生成的部分。概念分词器Tokenizer词嵌入Word Embedding和编码器Encoder的区别从词到数Tokenizer与Embedding串讲【Tokenizer 】用于文本预处理将文本转化为离散表示的词语序列也就是tokens序列。 huggingface的一些模型使用中在使用模型前都需要过一遍tokenizer 输入为一个句子str 输出为一个id数组List[int] 事实上tokenizer总体上做三件事情 1分词。tokenizer将字符串分为一些sub-word token string再将token string映射到id并保留来回映射的mapping。从string映射到id为tokenizer encode过程从id映射回token为tokenizer decode过程。映射方法有多种例如BERT用的是WordPieceGPT-2和RoBERTa用的是BPE等等后面会详细介绍。 2扩展词汇表。部分tokenizer会用一种统一的方法将训练语料出现的且词汇表中本来没有的token加入词汇表。对于不支持的tokenizer用户也可以手动添加。 3识别并处理特殊token。特殊token包括 [MASK], |im_start|, sos, s 等注一般BERT族用的为 WORD-PIECEGPT族用的是 BPE更详细介绍请看后文知乎链接。【Word Embedding】用于将词语映射为实数向量捕捉词语的语义信息。通过分词器之后得到的tokens序列作为输入经过词嵌入转换成密度更高的词向量也叫embedding编码。现在Huggingface后文简称HF的很多模型会一起把词嵌入矩阵Embedding Matrix也训练好。这样根据我们输入的tokens序列直接按照表格就可以查找好我们要的词嵌入向量。但这样我们发现这样只有词的语义信息并没有上下文信息。所以这只是词嵌入的一种比较基础的方法或者需要经过后续加工。上文也提到了其他的一些方法。下文也会介绍更先进的方法包含上下文语义的信息。【Encoder 】接收经过 Tokenizer 处理和经过 Word Embedding 映射的输入序列生成一个表示传递给模型的下一层。 Encoder 或者 Decoder是人工神经网络中的一层结构。提到这俩就不得不提到 Transformer 架构了概念Transformer架构 The Illustrated Transformer 这篇以比较简单易懂的方式阐述了 Transformer 架构的一些内容如何最简单、通俗地理解Transformer 也参考了一些知乎回答Transformer是一种架构它使用注意力来显著提高深度学习 NLP 翻译模型的性能其首次在论文《Attention is all you need》中出现并很快被确立为大多数文本数据应用的领先架构。比如一个二层堆叠的编码器和解码器的 Transformer 架构就如下图所示在编码器堆栈和解码器堆栈之前都有对应的嵌入层。而在解码器堆栈后有一个输出层来生成最终的输出。编码器一般有两个子层包含自注意力层 self-attention用于计算序列中不同词之间的关系同时包含一个前馈层 feed-forward。解码器一般有三个子层包含自注意力层self-attention前馈层 feed-forward编码器-解码器注意力层 Decoder-Encoder self attention。每个编码器和解码器都有独属于本层的一组权重。需要注意的是编码器的自注意力层及前馈层均有残差连接以及正则化层。就是图中的残差链接Add 正则化NormalizeTransformer 的突破性表现关键在于其对注意力的使用。可以详细去看一下里面的自注意力机制多头注意力机制。概念Encoder 模型Decoder 模型Seq2Seq 模型机器学习中的encoder,decoder和embedding都有什么区别? 按照是否使用 Transformer 架构中的 Encoder 和 Decoder我们把模型分成如下三类Encoder 模型仅使用 Transformer 中的 encoder。在每个阶段注意力层都可以访问原始句子中的每个单词。这种模型通常拥有“双向注意力”的特点常被称作自编码模型auto-encoding models简称AE。Decoder 模型仅使用 Transformre 中的 decoder。在每个阶段注意力层仅能访问给定单词在句子中之前位置的单词。这种模型常被称作自回归模型auto-regressive models简称AR。Encoder-decoder 模型也称 Seq2seq (sequence-to-sequence) 模型同时使用 Transformer 的两个部分。在每个阶段encoder 的注意力层都可以访问原始句子中的每个单词而 decoder 的注意力层只能注意力层仅能访问给定单词在输入句子中之前位置的单词。概念预训练任务预训练任务是指在大规模无标签数据上训练语言模型时使用的任务。通过这些任务语言模型能够学到文本中的深层次表示捕捉语言的语法、语义和上下文关系。 MLM 遮蔽语言模型Masked Language Model预训练任务 BERT预训练的任务MLM和NSP 详细可以看这篇介绍MLM和NSPMLM是很多LLM最经典的预训练任务了在一个句子中随机选中一定百分比实际是15%的token将这些token用[MASK]“替换。然后用分类模型预测”[MASK]实际上是什么词 NSP 下句预测Next Sentence Prediction预训练任务对于很多重要的下游任务比如问答Question AnsweringQA和自然语言推理Natural Language InferenceNLI都需要理解两个句子之间的关系。为了训练一个理解句子关系的模型作者提出了Next Sentence PredictionNSP任务。即每个样本都是由A和B两句话构成分为两种情况①、句子B确实是句子A的下一句话样本标签为IsNext②、句子B不是句子A的下一句句子B为语料中的其他随机句子样本标签为NotNext。在样本集合中两种情况的样本占比均为50%。在刚开始发现NSP对模型的提升性能不是很大。但是也有论文指出有一些作用。其他一些经典的预训练任务 BERT的预训练任务为MLM和NSP但是GPT它是自回归模型注意力只关注目前位置及其左边的单词所以预训练任务不能使用MLM而选择 Autoregressive Language Modeling 预训练即训练模型来预测给定上下文中的下一个词因果语言建模Causal Language Modeling与 Autoregressive Language Modeling 呼应也是只关注上文的tokens预测下一个词。笔者感觉这俩个差不多是一个东西有待存疑对比学习Contrastive Learning 学习将正例相似的样本与负例不相似的样本区分开。在CV使用比较多。概念NLUNLGNLI NLG 自然语言生成Natural Language Generating NLI 自然语言推理Natural Language Inference和 NLU 自然语言理解Natural Language Understanding是自然语言处理中不同但相关的任务。NLG在大规模无标签语料库上预测下一个词语或一段文本。关注的是如何将计算机生成的信息转化为可读的、自然的文本。NLG的任务包括文本摘要、对话系统的回复生成、文本创作等。NLI预测一个文本是否蕴含在另一个文本中即判断两个文本之间的关系蕴含、矛盾、中立NLU关注的是理解和解释人类语言的能力。它涉及从文本中提取有关语言结构和语义的信息使计算机能够理解文本的含义。NLU的任务包括实体识别、关系抽取、情感分析等。所以可以发现NSP是NLI的任务而MLM/CLM 则关注 NLUNLG 自监督学习 Self-Supervised Learning 自监督学习是一种机器学习的范式其中模型从输入数据中自动生成标签或目标而不需要人工标注的真实标签。在自监督学习中模型通过设计一些任务来自己生成训练目标然后通过最小化预测和生成目标之间的差异来学习有用的表示。然后我们发现在预训练阶段我们给定的是无标注的文本但是在训练过程中或多或少都需要该数据的标签呀只不过我们是使用比如算法或者模型或者人工神经网络之类的进行自动计算了。即在很多情况下无监督学习作为预训练的方式就是自监督学习的一种形式。下一篇就讲讲微调和监督学习吧。

查看全文

http://www.pierceye.com/news/881320/