当前位置：首页 > news >正文

合肥网站建设外包公众号网页如何制作

news 2025/12/21 21:41:02

合肥网站建设外包,公众号网页如何制作,企业信用信息公示系统湖南,珠海新闻一、写在前面#xff1a;关于AI Agents与CoT 本文是2023.07.24发表在同名公众号「陌北有棵树」上的一篇文章#xff0c;个人观点是基础理论的学习现在仍是有必要的#xff0c;所以搬运过来。今天要读的论文是《Chain-of-Thought Prompting Elicits Reasoning in Large La…一、写在前面关于AI Agents与CoT 本文是2023.07.24发表在同名公众号「陌北有棵树」上的一篇文章个人观点是基础理论的学习现在仍是有必要的所以搬运过来。今天要读的论文是《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》算是关于大模型思维链研究的开山之作。至于为什么把它归到AI Agents系列其实我最开始是在写一篇关于AI Agents的文章但是写着写着发现里面的细节太多如果只用一篇总结式的文章来写的话有些浅尝辄止所以决定拆开来一步步完成。我先跑个题说说AI Agents… 关于大家最近都不卷大模型了开始卷AI Agents这件事儿我的理解是这样的在LLM诞生之初大家对于其能力的边界还没有清晰的认知以为有了LLM就可以直通AGI了所以当时大家以为的路线是这样但是过了一段时间大家发现LLM的既有问题比如幻觉问题、容量限制问题…导致它并不能直接到达AGI于是路线变成了如下图我们需要借助一个或者多个Agent构建一个新的形态来继续实现通往AGI的道路。但这条路是否能走通以及还面临着哪些问题都是有待进一步验证的。关于AI Agents这个概念也不是最近才出现只是由于大模型的出现衍生出了一种新的架构形式。OpenAI的应用主管写了一篇博文详细介绍了这个架构并将其命名为“LLM Powered Autonomous Agents”这种基于大模型能力的自动化智能体的主要组成部分如下仔细地仔细的阅读了《LLM Powered Autonomous Agents》这篇文章之后整理了一份思维导图为了便于展示折叠了部分内容该架构将LLM类比为大脑一样的角色结合Memory、Tools组件构成该体系的全貌。在这套框架里将最重要的「任务规划」部分完全交由LLM而做出这一设计的依据在于默认LLM具有任务分解和反思的能力。对于任务分解就不得不说到「思维链CoTChain of thought」和「思维树Tree of Thoughts」思维链是通过提示模型“逐步思考”以利用更多的测试时间计算将困难任务分解为更小更简单的步骤。思维树首先将问题分解为多个思考步骤并且每个步骤都生成多个想法从而可以创建一个树形结构。但无论是任务分解还是反思目前都是在「LLM具有逻辑推理能力」这个预设上面的基于此我们才将大脑所承担的功能交给LLM。其实说白了就都还是Prompt工程也就是如何通过Prompt来激发LLM的任务分解能力和反思能力。而思维链和思维树当前也还是既不能证实也不能证伪的阶段。与此同时这种架构设计下LLM的能力上限也就约等于AI Agents的上限。所以我暂时把感兴趣的Generative Agents、Auto-GPT放到一边先对思维链种草了… 二、CoT的概念和解释先举个栗子来说明CoT Prompting下图的左右分别是一个标准Prompting和 CoT Prompting来处理推理任务的代表。对于标准Prompting首先这是一个少样本学习的方法需要给出一些问题和答案的样例然后拼接想要求解的问题最后再拼接一个字符串“A:”之后输入到大语言模型中让大语言模型进行续写。大语言模型会在所提供的问题和答案的样例中学习如何求解结果发现很容易出错。对于CoT Prompting它与 Standard prompting 唯一的区别就是CoT 在样例中在给出问题的同时不仅给出了答案在答案之前还给出了人为写的中间推理步骤。在把问题、中间推理步骤和答案的若干样例拼接上所想要求解的问题和字符串“A”再输入到语言模型之后语言模型会自动地先续写中间推理步骤有了这些推理步骤之后它就会更容易地给出正确答案。论文中对于CoTChain of thought的定义如下在处理推理任务时给出答案之前产生的一系列连贯的中间推理步骤。如果简单点概括本文的内容一句话就是在问LLM问题前手工在prompt里面加入一些包含思维过程Chain of thought的问答示例就可以让LLM在推理任务上大幅提升。然后作者介绍了COT几个值得研究的地方 1、COT在原则上能够让模型把一个多步问题可以分解出多个中间步骤就可以使那些需要更多推理步骤的问题就有机会分配到更多的计算量。这个怎么理解呢因为语言模型在生成下一句的时候是token by token假设你的问题越难COT又使得你生成的中间步骤够多那么总体上生成的token就会越多自然在解决更难问题时就可以用到更多的计算量。类比我们人脑在解决更难问题时会消耗更多的脑力COT也可以让LLM在解决更难的问题时消耗更多的计算资源。 2、COT提供了可解释性也就是通过COT可以不仅仅知道答案也可以知道答案是怎么来的。 3、COT在原则上适用于任何人类能用语言所解的问题不只是数学、逻辑、推理问题。 4、当一个语言模型训练好后就可以像比如few-shot prompting这种范式在每个样例中写入中间推理步骤再跟上要解的问题丢给语言模型就能够引发语言模型帮你续写出中间的推理步骤。三、论文中实验结果论文中实验主要分为三类Arithmetic Reasoning算数推理、Commonsense Reasoning常识推理、Symbolic Reasoning符号推理这里先用一张图列出这三类实验用到的所有例子绿色的是算数推理、橙色的是常识推理蓝色的是符号推理 3.1 关于算数推理作者人工设计了一套 8 个带有 CoT 推理链条的 few-shot 样例并且在所有数据集中统一使用了这 8 个带有 CoT 推理链条的 few-shot 样例在这里所有的样例都是人工构造同时人工构造 CoT 推理链条的 few-shot 样例的成本是很高的不仅要找到具有代表性的问题还要为每个问题设计中间推理步骤以及答案而最后的性能对这些人工设计非常敏感所以需要反复进行调试。实验结果如下由实验结果可得到如下结论 1、 CoT Prompting对于小模型的效果并不明显只在大于100B参数的模型中才产生了优于 Standard Prompting的效果。 2、 CoT Prompting对于复杂问题的效果更明显实验中用了三个数据集其中GSM8K是最复杂的从实验结果上也是它相对于Standard Prompting提升的效果大于1倍。 3、GPT-3 175B 和 PaLM 540B 结合CoT Prompting的效果是提升最高的。 3.2 关于常识推理和符号推理其实这里和前面算数推理的结论大差不差也就不细说了常识推理作者选取了5种涵盖各种常识推理类型的数据集需要先验知识的常识性问题、需要模型推断的multi-hop strategy问题、日期理解、体育问题理解、自然语言映射符号推理作者选取了两个问题末位字母连接、抛硬币。下面两张图分别是常识推理和符号推理的实验结果: 常识推理实验结果符号推理实验结果四、局限性分析在论文的Discussion部分作者讨论了CoT当前的局限性主要有以下4点 1、虽然CoT模拟了人类推理的思维过程但是仍然不能确认神经网络是否真的在“推理”这仍是个尚未解决的问题。 2、手动生成CoT样例的成本问题。 3、无法保证正确的推理路径。 4、CoT仅仅能在大模型上出现。五、番外Zero-shot CoT 和 Auto-CoT 在读这篇论文时还看到了关于CoT的其他研究比较有代表性的有两个 5.1 Zero-shot CoT Zero-shot CoT来自论文《Large language models are zero-shot reasoners. NeurIPS2022》这篇文章发现大模型可能不需要写一堆CoT来作为prompt它自己可能就会推理了秘诀就是加上一句咒语“Let’s think step by step.” 通过实验发现Zero-shot CoT还是可以显著提升LLM的数学推理能力的。虽然Zero-shot CoT和Few-shot CoT都会犯错但是犯错误时的特点很不一样Zero-shot方法在推出正确答案后可能会继续“画蛇添足”导致最终错误另外Zero-shot有时候干脆不推理直接重复题目。Few-shot方法则是在生成的推理过程中包含三元运算的时候很容易出错例如(32)*4。另外Zero-shot CoT在常识推理问题上的提升不大。总体上Few-shot CoT的效果还是比Zero-shot CoT更好的。 5.2 Auto-CoT 通过上面的介绍我们知道Zero-shot CoT没有使用 In-Context-LearningFew-shot CoT使用了 In-Context-Learning。ICL 提供了LLM更多的示范信息可能能让LLM在输出的时候更加规范。那是不是可以先通过 Zero-shot CoT 来让 LLM 产生很多带有推理的QA pair然后把这些QA pair加入到prompt中构成ICL的上文再让LLM进行推理。于是有了《Automatic Chain of Thought Prompting in Large Language Models》这篇论文的基本思路 1、给定待测试的问题从无标注问题集合中采样一批问题 2、使用 GPT-3 作为产生推理过程的工具即直接使用 “Let’s think step by step.” 咒语来对这一批采样的问题产生推理过程 3、把产生的这些问题和推理过程构成In-Context-Learning的上文加入到prompt中再让LLM对问题进行回答。对比实验结果如下基于这个结果来看Auto-CoT的效果是略优于Few-shot CoT的如果再结合其省去的人工成本就不得不说一句真香了… 但目前CoT在上文中提到的局限性基本还都在尤其是其作为「大模型有推理能力」的依据仍然不足而LLM的推理能力又是其作为基于LLM的AI Agents架构的基础假设所以仍然还需要进一步研究。

查看全文

http://www.pierceye.com/news/308918/