当前位置: 首页 > news >正文

天津小型企业网站设计方案网页升级访问每天自动更新 下载

天津小型企业网站设计方案,网页升级访问每天自动更新 下载,怎么注册一个网站,编程培训机构排名推荐#xff1a;使用 NSDT场景编辑器 快速搭建3D应用场景 像LangChain这样的库促进了上述端到端AI应用程序的实现。我们的教程介绍 LangChain for Data Engineering Data Applications 概述了您可以使用 Langchain 做什么#xff0c;包括 LangChain 解决的问题#xf… 推荐使用 NSDT场景编辑器 快速搭建3D应用场景 像LangChain这样的库促进了上述端到端AI应用程序的实现。我们的教程介绍 LangChain for Data Engineering Data Applications 概述了您可以使用 Langchain 做什么包括 LangChain 解决的问题以及数据用例的示例。 本文将解释训练大型语言模型的所有过程从设置工作区到使用 Pytorch 2.0.1 的最终实现Pytorch .. 是一个动态且灵活的深度学习框架允许简单明了的模型实现。 先决条件 为了充分利用这些内容重要的是要熟悉 Python 编程对深度学习概念和转换器有基本的了解并熟悉 Pytorch 框架。完整的源代码将在GitHub上提供。 在深入研究核心实现之前我们需要安装和导入相关库。此外重要的是要注意训练脚本的灵感来自 Hugging Face 中的这个存储库。 库安装 安装过程详述如下 首先我们使用语句在单个单元格中运行安装命令作为 Jupyter 笔记本中的 bash 命令。%%bash Trl用于通过强化学习训练转换器语言模型。Peft使用参数高效微调PEFT方法来有效地适应预训练的模型。Torch一个广泛使用的开源机器学习库。数据集用于帮助下载和加载许多常见的机器学习数据集。 变形金刚由Hugging Face开发的库带有数千个预训练模型用于各种基于文本的任务如分类摘要和翻译。 现在可以按如下方式导入这些模块 数据加载和准备 羊驼数据集在拥抱脸上免费提供将用于此插图。数据集有三个主要列指令、输入和输出。这些列组合在一起以生成最终文本列。 加载数据集的指令在下面通过提供感兴趣的数据集的名称给出即tatsu-lab/alpaca 我们可以看到结果数据位于包含两个键的字典中 特点包含主列数据Num_rows对应于数据中的总行数 train_dataset的结构 可以使用以下说明显示前五行。首先将字典转换为熊猫数据帧然后显示行。 train_dataset的前五行 为了获得更好的可视化效果让我们打印有关前三行的信息但在此之前我们需要安装库以将每行的最大字数设置为 50。第一个 print 语句用 15 个短划线分隔每个块。textwrap 前三行的详细信息 模型训练 在继续训练模型之前我们需要设置一些先决条件 预训练模型我们将使用预训练模型Salesforce/xgen-7b-8k-base该模型可在Hugging Face上使用。Salesforce 训练了这一系列名为 XGen-7B 的 7B LLM对高达 8K 的序列进行了标准的密集关注最多可获得 1.5T 代币。分词器 这是训练数据上的标记化任务所必需的。加载预训练模型和分词器的代码如下 pretrained_model_name Salesforce/xgen-7b-8k-base model AutoModelForCausalLM.from_pretrained(pretrained_model_name, torch_dtypetorch.bfloat16) tokenizer AutoTokenizer.from_pretrained(pretrained_model_name, trust_remote_codeTrue) 训练配置 训练需要一些训练参数和配置下面定义了两个重要的配置对象一个是 TrainingArguments 的实例一个是 LoraConfig 模型的实例最后是 SFTTrainer 模型。 训练参数 这用于定义模型训练的参数。 在此特定场景中我们首先使用属性定义存储训练模型的目标然后再定义其他超参数例如优化方法、优化方法、、 等。output_dirlearning ratenumber of epochs 洛拉康菲格 用于此方案的主要参数是 LoRA 中低秩转换矩阵的秩 设置为 16.然后 LoRA 中其他参数的比例因子设置为 32. 此外辍学比率为 0.05这意味着在训练期间将忽略 5% 的输入单元。最后由于我们正在处理一个普通语言建模因此该任务使用属性进行初始化。CAUSAL_LM SFTTrainer 这旨在使用训练数据、分词器和附加信息如上述模型来训练模型。 由于我们使用训练数据中的文本字段因此查看分布以帮助设置给定序列中的最大令牌数非常重要。 文本列长度的分布 基于上述观察我们可以看到大多数文本的长度在 0 到 1000 之间。此外我们可以在下面看到只有 4.5% 的文本文档的长度大于 1024。 mask pandas_format[text_length] 1024 percentage (mask.sum() / pandas_format[text_length].count()) * 100 print(fThe percentage of text documents with a length greater than 1024 is: {percentage}%) 然后我们将序列中的最大标记数设置为 1024以便任何比此长度的文本都被截断。 培训执行 满足所有先决条件后我们现在可以按如下方式运行模型的训练过程 值得一提的是此培训是在具有GPU的云环境中进行的这使得整个培训过程更快。但是在本地计算机上进行培训需要更多时间才能完成。 我们的博客在云中使用LLM与在本地运行LLM的优缺点提供了为LLM选择最佳部署策略的关键考虑因素 让我们了解上面的代码片段中发生了什么 tokenizer.pad_token tokenizer.eos_token将填充标记设置为与句尾标记相同。model.resize_token_embeddingslentokenizer调整模型的标记嵌入层的大小以匹配分词器词汇表的长度。model  prepare_model_for_int8_trainingmodel准备模型以进行 INT8 精度的训练可能执行量化。model  get_peft_modelmodel lora_peft_config根据 PEFT 配置调整给定的模型。training_args model_training_args将预定义的训练参数分配给training_args。trainer SFT_trainer将 SFTTrainer 实例分配给变量训练器。trainer.train根据提供的规范触发模型的训练过程。 结论 本文提供了使用 PyTorch 训练大型语言模型的明确指南。从数据集准备开始它演练了准备先决条件、设置训练器以及最后运行训练过程的步骤。 尽管它使用了特定的数据集和预先训练的模型但对于任何其他兼容选项该过程应该大致相同。现在您已经了解如何训练LLM您可以利用这些知识为各种NLP任务训练其他复杂的模型。 原文链接如何使用PyTorch训练LLM (mvrlink.com)
http://www.pierceye.com/news/925494/

相关文章:

  • 好的学习网站打广告壹搜网站建设优化排名
  • 响应式设计 手机网站手机自己制作app软件
  • 东方头条网站源码杭州正晖建设工程有限公司网站
  • 阿里巴巴网站建设与维护深圳民治网站建设
  • 郑州短视频代运营seo外链是什么
  • 网站建设公司 经营资质wordpress文学
  • 手机网站建设请示常州建设网站公司哪家好
  • 网站开发报价ppt重庆沙坪坝有哪些大学
  • 牛商网做的包装盒网站怎么在门户网站上发布
  • 北京网络公司建站成品app直播源码下载
  • 帮忙建站的公司百度收录好的网站排名
  • 芯火信息做网站怎么样郑州网站建设老牌公司
  • 龙华营销型网站建设在线生成短链接网址
  • 深圳做公司网站关键词规划师工具
  • 长春市建设信息网站sem代运营推广公司
  • 宜昌网站建设平台有经验的盐城网站开发
  • wordpress 众筹网站模板wordpress首页只显示一篇文章
  • 嘉兴seo网站推广网页设计与制作课程结构
  • 江苏 网站 备案百度站长之家工具
  • 新加坡 网站建设专业简历制作网站有哪些
  • 河北外贸网站建设大连建设网球场价格
  • 北京企业网站制作哪家好新余商城网站建设
  • 网站建设对客户的优势单位建设网站的目的
  • seo网站建站公司的主页珠江夜游微信公众号
  • 建筑人才网 中高端招聘网站专业网站开发开发
  • 江门官网建站公司wordpress get_tax_meta
  • 云南省建设系统网站wordpress wdlog主题
  • 做医疗网站颜色选择网站改版301怎么做
  • 淘宝网站建设步骤做网络网站需要三证么
  • 免费网站域名注册申请视频网站开发策划书