长沙低价网站建设,wordpress淘宝客建站教程,河北建设厅官方网站八大员考试,南京网站建设王道下拉??001 词向量
用数字向量表示单词。它是计算机更好地理解单词 1、预训练 – 就是先训练一个模型#xff0c;用于以后特定任务的微调#xff0c;比如将 BERT这个模型用于特定的NLP任务#xff0c;比如情感分析 2、one-hot: 用只有一个元素是1#xff0c;其他是0的向量表示物体…001 词向量
用数字向量表示单词。它是计算机更好地理解单词 1、预训练 – 就是先训练一个模型用于以后特定任务的微调比如将 BERT这个模型用于特定的NLP任务比如情感分析 2、one-hot: 用只有一个元素是1其他是0的向量表示物体。比如 苹果可以表示为[1, 0, 0] 香蕉可以表示为[0, 1, 0] 橙子可以表示为[0, 0, 1] 3、监督学习算法接受带有标签的训练数据从而对未标记的数据进行预测与分类。就像监督员指导模型学习正确答案 无监督学习喂给模型的数据没有打标签它自己能找出来哪些数据是相似的 自监督学习它自己将数据分成两类一类作为问题一类作为答案。然后学习如何从问题预测出答案。例如给它句子开头让它猜测句子的其余部分 4、动态词向量传统的静态词向量将单词映射为固定的向量动态词向量是在训练中可以动态调整以此来反正词在不同上下文和语境中含义 5、prompt: 就是指在gpt上你输入的内容然后gpt根据prompt生成答案 6、稀疏性太强意味着数据或者模型中存在大量不必要的零值或非常小的非零值 7、特征工程比如在图像分类中特征工程可以提取图像的颜色、纹理、形状等特征以便模型识别不同的物体 8、N-gram是一种方法把句子分割比如N2一个句子“我喜欢机器学习”分割将是“我喜欢”、“喜欢机器”、“机器学习”。 9、语言模型的评估指标PPL困惑程度用来衡量一个语言模型对一组文本的预测能力。 10、熵衡量不确定性如果是有序列表就很好预测下一个元素熵就很低无序列表很难预测熵很高 交叉熵一个真实的概率分布一个模型预测的概率分布如果两个分布相似交叉熵低说明预测的准 11、容量爆炸模型具有过多的参数在训练数据上完美拟合在测试数据上表现差 稀疏问题输入数据存在大量的零值或不重要信息使得模型难以学习到有用的东西。 正则化就是用来避免过拟合现象的产生 12、损失函数用来衡量模型预测与真实值之间的差距的函数。比如回归问题的均方误差和分类问题的交叉熵
002 Transformer
是一种模型架构使用了“自注意力机制”技术让它能捕捉单词间的关系和上下文。用于翻译文本生成写故事诗歌
003 BERT(Bidirectional Encoder Representations from Transformers)从变压器中获得的双向编码表征
一种能更好地理解语言的模型
004 GPT-CodeX(Generative Pre-trained Transformer for Code)
帮着写代码的模型
005 RLHF Reinforcement Learning from Human Feedback
从人类反馈中强化学习
006 混合精度
使用不同精度来加速训练和推理。一般是高精度32位浮点数和 低精度 16位浮点数。在使用中有的地方可以用16位还快速但有的地方只能用32位搞因为16能表示的精度是有限的
007
Paddle 百度的深度学习框架 Torch(Pytorch) Facebook的 深度学习框架
008 Hugging Face
提供NLP模型和工具的开源库。上面有例如 llama/bloom/bert/opt 各类模型的权重。下载下来就可以用 可以下载已训练好的模型权重数据集然后进行 fine-tune也就是精调 paddleNLP就相当于paddle版的hugging face