当前位置：首页 > news >正文

网站seo外包公司有哪些作文网站高中

news 2025/11/4 3:43:17

网站seo外包公司有哪些,作文网站高中,潍坊vi设计公司,网站设计咨询大型语言模型#xff08;LLMs#xff09;通常经过几个阶段的训练#xff0c;包括预训练和几个微调阶段#xff1b;请参见下文。尽管预训练很昂贵#xff08;即需要数十万美元的计算成本#xff09;#xff0c;但相比之下#xff0c;微调LLM#xff08;或进行上下文学习… 大型语言模型LLMs通常经过几个阶段的训练包括预训练和几个微调阶段请参见下文。尽管预训练很昂贵即需要数十万美元的计算成本但相比之下微调LLM或进行上下文学习则较为廉价即几百美元或更少。鉴于高质量的预训练LLM例如MPT、Falcon或LLAMA-2广泛可用且免费使用甚至商业用途我们可以通过在相关任务上对LLM进行微调来构建各种强大的应用程序。不同阶段的LLM训练由作者创建在最近的AI研究中最常用的LLM微调形式之一是监督微调SFT。这种方法通过创建一个高质量的LLM输出数据集直接对模型进行微调使用标准的语言建模目标。SFT使用简单/廉价并且是对齐语言模型的有用工具因此在开源LLM研究社区和其他领域中非常受欢迎。在这个概述中我们将概述SFT背后的思想查看关于这个主题的相关研究并提供如何使用只有几行Python代码轻松使用SFT的示例。有用的背景信息为了深入了解SFT我们需要对语言模型以及深度学习有一个基本的了解。让我们介绍一些相关的背景信息并简要回顾一些重要的概念。 AI基础知识。在我看来学习AI和深度学习基础知识的最佳资源是来自fast.ai的_Practical Deep Learning for Coders_课程。这门课程非常实用以自上而下的方式进行讲解意味着你首先学习如何在代码中实现想法并使用所有相关工具然后再深入了解细节以了解一切是如何工作的。如果你对这个领域还不熟悉想要快速掌握与AI相关的工具、如何使用它们以及它们的工作原理可以从这些视频开始。如果想更详细地了解语言模型可以查看这里的文章。 Transformers库。这个概述中的代码依赖于transformers库这是一个最强大的深度学习库之一。此外该库还有大量的教程和文档可作为任何深度学习或LLM相关项目的实用学习资源。(from [2]) 训练LLMs。语言模型的训练过程通常分为三个阶段见上文。首先我们对语言模型进行预训练这是训练中计算开销最大的步骤。然后我们通过监督微调SFT和人类反馈的强化学习RLHF通常使用三步框架见下文进行对齐。来自[2] 上述步骤构成了用于大多数最先进的LLM例如ChatGPT或LLaMA-2 [3]的标准化训练流程。与预训练相比SFT和RLHF在计算上较为廉价但它们需要对数据集进行策划这可能是困难且耗时的数据集可以是高质量的LLM输出或LLM输出的人工反馈。当应用LLM来解决下游任务时有时我们需要做更多的工作。特别是我们可以通过领域特定的微调或上下文学习进一步专门化语言模型请参见下文。领域特定的微调只是进一步训练模型通常是通过语言建模目标类似于预训练/SFT使用与下游任务相关的数据而上下文学习则将额外的上下文或示例添加到语言模型的提示中用作解决问题的上下文。来自[2, 4] 什么是对齐最后在上面的讨论中有一个术语我们已经多次使用这是很重要的要理解对齐。一个预训练的语言模型通常是没有用的。如果我们用这个模型生成输出结果可能会重复而且没有太多帮助。为了创建一个更有用的语言模型我们必须将这个模型_对齐_到人类用户的需求上。换句话说我们的语言模型学习生成用户所期望的文本序列而不是生成最有可能的文本序列。 “对于我们的偏好注释集合我们关注的是帮助性和安全性。帮助性指的是Llama 2-Chat的回应有多好地满足用户的请求并提供所需的信息安全性指的是Llama 2-Chat的回应是否不安全。” — 来自[5] 通过上述的SFT和RLHF三步框架这种对齐可以用来鼓励LLM中的各种行为和特性。通常训练模型的人会选择一组或几个在对齐过程中强调的标准。常见的对齐标准包括提高指令遵循能力阻止有害输出使LLM更有帮助等等。例如LLaMA-2 [5] 被对齐为 i) 有帮助和 ii) 无害/安全请参见上文。针对所有自学遇到困难的同学们我帮大家系统梳理大模型学习脉络将这份 LLM大模型资料分享出来包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 有需要的小伙伴可以扫描下方二维码领取↓↓↓ [CSDN大礼包全网最全《LLM大模型入门进阶学习资源包》免费分享安全链接放心点击]() 什么是SFT 监督微调SFT是LLM对齐过程中的第一步训练。实际上它非常简单。首先我们需要整理一组高质量的LLM输出数据集 —— 这些基本上只是LLM正确行为的示例请参见下文。然后我们直接在这些示例上对模型进行微调。这里“监督”微调的方面来自于我们正在收集一个模型应该模仿的示例数据集。然后在微调过程中模型学习复制这些示例的风格。与下一个标记预测的关系。有趣的是SFT与语言模型预训练并没有太大的区别 - 预训练和SFT都使用下一个标记预测作为它们的基本训练目标主要的区别在于所使用的数据。在预训练过程中我们使用大规模的原始文本数据来训练模型。相比之下SFT使用了一个高质量的LLM输出的监督数据集。在每个训练迭代中我们会抽样几个示例然后使用下一个标记预测的目标来对模型进行微调。通常下一个标记预测的目标仅适用于每个示例中对应于LLM输出的部分例如上图中的回答。这是从哪里来的这个三步对齐过程 - 包括SFT和RLHF - 最初是由InstructGPT [2]提出的尽管在[21]中已经探索过用于摘要模型它是ChatGPT的前身和姊妹模型。由于InstructGPT和ChatGPT的成功这个三步框架已经成为标准化和非常流行的导致它在许多后续语言模型中的使用例如Sparrow [4]和LLaMA-2 [6]。通过SFT和RLHF进行对齐现在在研究和实际应用中被广泛使用。在SFT之前进行微调。尽管SFT最近很受欢迎但语言模型的微调一直是一种常用的方法。例如GPT [7]直接在每个评估任务上进行微调见下文而仅有编码器的语言模型例如BERT [8] - 由于它们不常用于生成任务 - 几乎完全使用微调方法来解决下游任务。此外一些LLM采用了与SFT略有不同的微调方法例如LaMDA [9]在各种辅助任务上进行微调Codex [10]在代码语料库上执行特定领域的微调即基本上对不同数据进行更多的预训练。来自[7] 值得注意的是SFT与通用微调略有不同。通常微调深度学习模型是为了教会模型如何解决特定任务但这使得模型更加专业化和非通用化- 模型变得“狭窄专家”。与通用模型相比模型可能会更准确地解决其微调的任务例如参见GOAT [11]但它可能会失去解决其他任务的能力。相反SFT是调整语言模型的核心组成部分包括通用的基础模型。因为我们是为了模仿正确的风格或行为而对模型进行微调而不是为了解决特定的任务所以它不会失去其通用问题解决能力。 SFT的优缺点来自[2] SFT的使用非常简单 - 训练过程和目标与预训练非常相似。此外相对于预训练该方法在执行对齐方面非常有效并且计算成本较低即如果不是更低则比预训练便宜100倍。如上图所示仅使用SFT即没有任何RLHF在模型的指令跟随能力、正确性、连贯性和整体性能方面都有明显的好处。换句话说SFT是一种提高语言模型质量的高效技术。然而我们应该记住它并不完美以下是我们应该考虑的一些缺点。来自[12] 创建数据集。 SFT的结果严重依赖于我们策划的数据集。如果这个数据集包含了多样化的例子准确地捕捉到所有相关的对齐标准并且能够描述语言模型的预期输出那么SFT是一个很好的方法。然而我们如何保证用于SFT的数据集全面捕捉到我们在对齐过程中想要鼓励的所有行为呢这只能通过仔细的手动数据检查来保证但这种方法 i) 不可扩展而且 ii) 通常很昂贵。作为替代方案最近的研究探索了自动生成SFT数据集的自动化框架例如自我指导[12]见上文但无法保证数据的质量。因此尽管SFT很简单但它需要策划一个高质量的数据集这可能很困难。来自[5] **添加RLHF是有益的。**即使在为SFT筛选了高质量的数据集之后最近的研究表明通过执行RLHF可以获得进一步的好处。换句话说仅通过SFT对语言模型进行微调是不够的。这一发现在最近的LLaMA-2 [5]出版物中尤为明显该出版物通过SFT和RLHF进行对齐请参见上文。对于SFTLLaMA-2使用了一个大型总共27,540个示例的对话会话数据集该数据集经过手工筛选以确保质量和多样性。尽管对于SFT使用了大量且高质量的数据源但进一步执行RLHF在有益性和安全性方面即LLaMA-2的对齐标准产生了巨大的好处请参见下文。在实践中使用SFT 现在我们了解了SFT的概念让我们来探讨一下这个概念在实际和研究应用中如何被使用和已经被使用的情况。首先我们将看一个如何在Python中执行SFT的示例。然后我们将概述几篇最近发表的关于SFT主题的论文。 SFT的实现如前所述SFT的实现与语言模型预训练非常相似。在底层任何SFT的实现都将使用下一个标记预测也称为标准语言建模目标我们已经广泛了解过了。在实践中我们可以使用最好的工具之一来训练带有SFT的LLM即transformer reinforcement learning (TRL) Python库该库包含了一个可以用几行代码来微调现有语言模型的SFT实现。 from transformers import AutoModelForCausalLM # 导入AutoModelForCausalLM类用于生成自回归语言模型 from datasets import load_dataset # 导入load_dataset函数用于加载数据集 from trl import SFTTrainer # 导入SFTTrainer类用于训练模型dataset load_dataset(imdb, splittrain) # 加载IMDB数据集的训练集部分model AutoModelForCausalLM.from_pretrained(facebook/opt-350m) # 从预训练模型facebook/opt-350m中加载自回归语言模型trainer SFTTrainer(model,train_datasetdataset,dataset_text_fieldtext,max_seq_length512, ) # 创建SFTTrainer对象传入模型、训练数据集、数据集中文本字段名和最大序列长度trainer.train() # 训练模型执行SFT。基于HuggingFace transformers库TRL可以使用上面显示的代码通过SFT训练语言模型在本例中为Meta的OPT模型。这个简单的例子演示了通过SFT训练模型的简单性由于简单性通过SFT微调模型在开源LLM研究社区中非常受欢迎。快速访问Open LLM Leaderboard将展示给我们一系列有趣的例子。使用SFT微调预训练的LLM目前是入门训练开源LLM的最简单和最有效的方法之一。除了SFT的基本定义之外还有一些有用和更高级的技术我们可能想要使用例如仅对模型响应应用监督而不是完整的对话或示例使用共享提示模板扩充所有响应示例甚至采用参数高效微调PEFT方法例如LoRA [13]。有趣的是TRL定义的SFTTrainer类足够适应和可扩展可以处理这些情况中的每一种。请参阅此处的链接以获取更多关于实现的详细信息。 AI研究中的SFT用例鉴于SFT是对齐过程的标准组成部分它在AI文献中得到了广泛的探索。我们将概述几篇提供了有价值洞见的SFT的出版物。如常下面概述的出版物并不详尽无遗。关于SFT以及AI的一般性的论文数量庞大。然而我已经尽力突出研究社区中一些最有价值的洞见。如果有遗漏的内容请随时在评论中与我和其他人分享 InstructGPT. 大多数语言模型使用的三部分对齐过程——包括SFT和RLHF——最早由InstructGPT [2]使用尽管之前在[21]中已经探索过用于文本摘要模型。这篇论文为最近LLM的许多进展奠定了基础并包含了对对齐过程的许多有价值的洞见。与OpenAI最近提出的模型不同InstructGPT的训练过程和架构的细节在论文中完全披露。因此这个模型为创建强大的语言模型提供了巨大的洞见阅读带有这些额外背景的ChatGPT和GPT-4的博客文章会更加有启发性。来自[17, 18, 19, 20] 模仿模型。在LLaMA发布后开源语言模型的爆炸式增长中SFT在模仿学习的背景下得到了广泛应用。具体而言我们可以从一个开源基础模型开始。从专有语言模型例如ChatGPT或GPT-4收集对话会话的数据集。使用SFT对生成的数据集进行训练。这些模型例如AlpacaKoala和Vicuna训练成本低且表现良好突显了使用相对较少的计算资源可以获得令人印象深刻的结果。尽管早期的模仿模型后来被证明与专有模型相比表现不佳但是最近在更大的模仿数据集上训练的变种模型例如Orca [15]表现良好。将SFT与模仿学习相结合是制作一个不错的LLM的一种廉价且简单的方法。来自[16] LIMA. 在模仿学习的研究中发现使用专有语言模型生成大规模数据集用于SFT是一种有用的方法。相比之下平行研究探索了是否可以通过更小、精心策划的数据集实现对齐。在LIMA [16]中作者为SFT策划了一个仅有1K个示例的数据集得到的模型与顶级开源和专有LLM相当竞争力请参见上文。在这种情况下成功的关键是对数据进行手动检查以确保质量和多样性这比用于SFT的原始数据集的规模更重要。这些结果得到了LLaMA-2的证实作者发现具有高质量和多样性标准的适度规模的数据集为SFT提供了最佳结果。开源对齐。直到最近提出LLaMA-2甚至之后开源LLM主要使用SFT进行对齐最小程度上使用RLHF。例如MPT模型的几个变体以及Falcon和LLaMA的Instruct版本都是使用SFT在各种不同的数据集上创建的其中许多数据集在HuggingFace上公开可用。此外如果我们快速查看Open LLM Leaderboard我们会发现许多顶级模型是流行基础模型例如LLaMA-2或Falcon的版本它们经过SFT在不同数据的混合上进行了微调。其中一些著名的例子包括Platypus、WizardLM、Airoboros、Guanaco等等。结论通过本文概述我们了解了SFT以及它如何在实践中使用以及当前研究中对它的了解。SFT是AI从业者的强大工具因为它可以以高效的方式将语言模型与特定的人类定义目标对齐。尽管通过RLHF可以获得进一步的好处但SFT的使用简单即与预训练非常相似、计算成本低廉且高效。这些特性使得SFT在开源LLM研究社区中得到广泛采用几乎每天都会训练出各种新模型使用SFT并发布。在拥有高质量基础模型例如LLaMA-2的情况下我们可以通过SFT高效且轻松地微调这些模型以处理各种不同的用例。读者福利如果大家对大模型感兴趣这套大模型学习资料一定对你有用对于0基础小白入门如果你是零基础小白想快速入门大模型是可以考虑的。一方面是学习时间相对较短学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。包括大模型学习线路汇总、学习阶段大模型实战案例大模型学习视频人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】 AI大模型学习路线汇总大模型学习路线图整体分为7个大的阶段全套教程文末领取哈第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。大模型实战案例光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。大模型视频和PDF合集观看零基础学习书籍和视频看书籍和视频学习是最快捷也是最有效果的方式跟着视频中老师的思路从基础到深入还是很容易入门的。学会后的收获 • 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力 • 能够利用大模型解决相关实际项目需求大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求 • 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握 • 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

查看全文

http://www.pierceye.com/news/131291/