当前位置: 首页 > news >正文

win7和wordpress百度seo推广方案

win7和wordpress,百度seo推广方案,wordpress 遍历文章,关于建设工程的网站我们可以把语言模型分为两类#xff1a; 自动回归式语言模型#xff1a;自动回归式语言模型在本质上是单向的#xff0c;也就是说#xff0c;它只沿着一个方向阅读句子。正向#xff08;从左到右#xff09;预测#xff1b;反向#xff08;从右到左#xff09;预测。…       我们可以把语言模型分为两类 自动回归式语言模型自动回归式语言模型在本质上是单向的也就是说它只沿着一个方向阅读句子。正向从左到右预测反向从右到左预测。自动编码式语言模型自动编码式语言模型同时利用了正向预测和反向预测的优势。在进行预测时它会同时从两个方向阅读句子所以自动编码式语言模型是双向的。 本文将结合具体模型和论文探讨这两种模型的损失函数。 一、自动编码式语言模型 提到自动编码式语言模型那最经典的非BERT莫属了。 1.1 BERT BERTBidirectional Encoder Representations from Transformers是一种基于Transformer架构的自然语言处理模型。它由Google于2018年提出以解决语境相关性和双向理解的问题。BERT采用双向训练方式能够同时考虑文本左右两侧的上下文信息有效捕获语境含义。 BERT的损失函数由两部分组成第一部分是来自 Mask-LM 的单词级别分类任务另一部分是句子级别的分类任务。通过这两个任务的联合学习可以使得 BERT 学习到的表征既有 token 级别信息同时也包含了句子级别的语义信息。 在第一部分的损失函数中如果被 mask 的词集合为 M即计算BERT的MLM loss时会忽略没被mask的token因为它是一个词典大小 |V| 上的多分类问题那么具体说来有 在句子预测任务中也是一个分类问题的损失函数 这两个损失函数也很容易理解 多分类问题类别的数量等于词表的大小第个词被正确预测的概率越大相应的损失越小二分类问题第个句子的类别被正确预测的概率越大相应的损失越小 因此两个任务联合学习的损失函数是 二、自动回归式语言模型 BERT一度引领了NLP领域。但是随着OpenAI-GPT系列模型的爆火自回归式模型被更为广泛的采用。本章详细解析GLM大模型、LoRA微调方法、Prefix tuning这三篇论文中的损失函数。以期找到这些损失函数的共性。 2.1 GLM系列大模型 清华大学提出的GLM大模型预训练框架采用了自回归的空白填充方法在自然语言理解、无条件生成、有条件生成等NLP任务上取得了显著成果。其中GLM-130B是最大的模型拥有1300亿参数支持中英文双语旨在训练出开源开放的高精度千亿中英双语语言模型。该模型采用了量化技术可在4块309024G或8块2080Ti11G上推理。 输入向量为抽样出文本段每个文本段都代表了一系列连续的token吗可以写做每个文本段都用[MASK]代表从而形成了。表示抽样文本段的数量表示每个抽样文本段的长度。预训练目标可以用下式表示 需要对所有的抽样文本段进行随机打乱 是被打乱后所有可能性的集合又可以写作。在预测缺失的文本段时每个都包含多个单词所以需要用集合S表示作为下标模型可以访问到被破坏的文本以及前面所有的抽样文本段。 那每个中token的预测概率应该如何表示呢如下 很简单把所有token的概率乘起来就可以了。 需要注意的是这边要弄清楚和的区别 代表第个文本段由于有很多种打乱方式表示其中某一个打乱方式的第个抽样文本段。 2.2 LoRA 以上是针对GLM这系列特殊的模型。那么对于一般的自回归式模型有没有更普遍的一种表达方式呢我们以LoRA这篇文章为例。 每一个下游任务都能用 内容-目标对来表示和都是token序列。例如在自然语言-sql语句任务中是自然语言查询是其相应的SQL命令。对于概括任务而言是文章的内容是其相应的概述内容。预训练的自回归语言模型可以用来表示。那么微调就是要找到一组参数使得下式最大 即用前的所有样本来预测第个样本。 三、参考文献 [1] Devlin J , Chang M W , Lee K ,et al.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J].  2018. [2] Du Z , Qian Y , Liu X ,et al.GLM: General Language Model Pretraining with Autoregressive Blank Infilling[J].  2021.DOI:10.48550/arXiv.2103.10360.   [3] Zeng, Aohan, et al. Glm-130b: An open bilingual pre-trained model. arXiv preprint arXiv:2210.02414 (2022). [4] Hu E J , Shen Y , Wallis P ,et al.LoRA: Low-Rank Adaptation of Large Language Models[J].  2021.DOI:10.48550/arXiv.2106.09685.
http://www.pierceye.com/news/871367/

相关文章:

  • 免费网站下载直播软件企业品牌网站建设类型
  • 建立网站并以此为基础从事经营活动的企业称为什么免费销售网站模板
  • 成都市建设质监站网站微信企业网站html5模板
  • 福建工程建设管理中心网站仙桃做企业网站的
  • 孝感做网站的公司建网站是永久的吗
  • 厦门手机建站php网站开发推荐书籍
  • 属于c2c网站的有哪几个方庄网站制作
  • 建设局网站模板iis 网站没有上传权限
  • 建设网站龙华怎么用自己的电脑搭建网站
  • 分析网站的网站福建交科建设有限公司官方网站
  • 深圳南园网站建设网站域名怎么设置方法
  • 网站的内链是什么意思网页布局有哪几种方法
  • 网站优化公司上海山东电力建设河北分公司网站
  • 甘肃省住房和城乡建设部网站首页专门网页制作工具有
  • 网站用vps做dns做网站的叫什么职位
  • 网站开发业务流程图网站商城与网站区别吗
  • 用新浪微博做网站百度找不到 网站
  • 哪个网站做照片书最好seo投放是什么意思
  • 书店网站开发目的和意义深圳网建公司
  • 餐饮网站方案wordpress 微论坛主题
  • 上海建筑网站设计多用户商城数据库设计
  • 网站做301将重定向到新域名深圳seo优化外包公司
  • 做视频导航网站有哪些天津西青区离哪个火车站近
  • 福州网站建设技术支持公司培训课程有哪些
  • 保定网站制作域名注册商查询
  • 医院网站建设公司价格低天津建设工程信息网 塘沽一中
  • 建设机械网站案例建国外网站需要多少钱
  • 比特币简易网站开发电商网站大全
  • 秀屿区建设局网站巨量广告投放平台
  • 合肥网站设计哪家公司好北京国贸网站建设公司