沧州市网站制作,wordpress 主题 tewnty ten 导航条字体 修改,阿里云 oos wordpress,域名注册网站排名文章目录 写在前面大模型简介LLM简介RAG简介LangChain开发框架开发LLM应用的整体流程 写在前面
大模型时代从GPT爆发开始到现在已有一年多了#xff0c;深度学习发展之快无法想象#xff0c;一味感叹技术发展速度超越个人学习速度是没用的#xff0c;倒不如花点时间参加一些… 文章目录 写在前面大模型简介LLM简介RAG简介LangChain开发框架开发LLM应用的整体流程 写在前面
大模型时代从GPT爆发开始到现在已有一年多了深度学习发展之快无法想象一味感叹技术发展速度超越个人学习速度是没用的倒不如花点时间参加一些活动比如思考大模型时代下如何训练小模型呢
大模型简介
LLM简介 毫无例外openai的GPT系列是我们值得了解的一个重要模型不过很可惜其并未开源现在我们常用的GPT是3.5-turbo可以执行各种任务包括代码编写、数学问题求解、写作建议等。 其余模型见datawhale的开源学习文档。
RAG简介
大型语言模型LLM相较于传统的语言模型具有更强大的能力然而在某些情况下它们仍可能无法提供准确的答案。为了解决大型语言模型在生成文本时面临的一系列挑战提高模型的性能和输出质量研究人员提出了一种新的模型架构检索增强生成RAG, Retrieval-Augmented Generation。该架构巧妙地整合了从庞大知识库中检索到的相关信息并以此为基础指导大型语言模型生成更为精准的答案从而显著提升了回答的准确性与深度。
由于基于网络公开数据大量训练应用于实际业务场景时基础大模型无法满足我们的实际业务需求主要有以下几方面原因
知识的局限性模型自身的知识完全源于它的训练数据而现有的主流大模型ChatGPT、文心一言、通义千问…的训练集基本都是构建于网络公开的数据对于一些实时性的、非公开的或离线的数据是无法获取到的这部分知识也就无从具备。幻觉问题所有的AI模型的底层原理都是基于数学概率其模型输出实质上是一系列数值运算大模型也不例外所以它有时候会一本正经地胡说八道尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的因为它要求使用者自身具备相应领域的知识。数据安全性对于企业来说数据安全至关重要没有企业愿意承担数据泄露的风险将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。 RAG的架构如图中所示简单来讲RAG就是通过检索获取相关的知识并将其融入Prompt让大模型能够参考相应的知识从而给出合理回答。因此可以将RAG的核心理解为“检索生成”前者主要是利用向量数据库的高效存储和检索能力召回目标知识后者则是利用大模型和Prompt工程将召回的知识合理利用生成目标答案。
通常我们有新数据来的时候往往我们会将模型在新数据上进行微调但是RAG确是另外一种思路。RAG和Finetune的对比如下。
LangChain开发框架
LangChain 框架是一个开源工具充分利用了大型语言模型的强大能力以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口从而简化应用程序的开发流程。 LangChain 主要由以下 6 个核心组件组成:
模型输入/输出Model I/O与语言模型交互的接口数据连接Data connection与特定应用程序的数据进行交互的接口链Chains将组件组合实现端到端应用。比如后续我们会将搭建检索问答链来完成检索问答。记忆Memory用于链的多次运行之间持久化应用程序状态代理Agents扩展模型的推理能力。用于复杂的应用的调用序列回调Callbacks扩展模型的推理能力。用于复杂的应用的调用序列
开发LLM应用的整体流程
传统 AI 开发需要首先构造训练集、测试集、验证集通过在训练集上训练模型、在测试集上调优模型、在验证集上最终验证模型效果来实现性能的评估。大模型开发流程更为灵活和敏捷。从实际业务需求出发构造小批量验证集设计合理 Prompt 来满足验证集效果。然后将不断从业务逻辑中收集当下 Prompt 的 Bad Case并将 Bad Case 加入到验证集中针对性优化 Prompt最后实现较好的泛化效果。