当前位置：首页 > news >正文

网站建设思维导图模板营销型网站的建设起步

news 2025/11/17 4:03:43

网站建设思维导图模板,营销型网站的建设起步,住房城乡建设局网站首页,建立网站 wordpress【引子】大模型的兴起#xff0c; 使得读论文成为了学习中的一种常态。如果一篇论文没有读懂#xff0c;不用担心#xff0c;可以再读一篇该领域内容相近的论文#xff0c;量变可能会产生质变。就像编程语言一样#xff0c;你永远无法精通一门编程语言#xff0c;除非使得读论文成为了学习中的一种常态。如果一篇论文没有读懂不用担心可以再读一篇该领域内容相近的论文量变可能会产生质变。就像编程语言一样你永远无法精通一门编程语言除非精通两种。像思维链和思维树这样的提示技术已经大大提高了大模型解决复杂的、基于推理的任务能力。从高层抽象来看通过强制 LLM 构造对问题的逐步响应我们可以大大提高其解决问题的能力。然而这些技术都假设推理过程应该遵循从一个想法到下一个想法的线性模式。然而人所遵循的推理过程往往是完全不同的遵循多种不同的思维链甚至将不同见解结合起来得出最终的解决方案。将推理过程建模为图(而不是链或树) 我们或许可以更好地捕捉在对问题进行推理时可能出现的各种非线性模式。常见的提示技术包括基础方法和一些高级技巧。基础方法包括提示工程上下文窗口提示结构等。一些高级技巧包括思维链(CoT) 思维树ToT自我一致性self-consistency等。除此之外我们还需要了解Transformer结构和图卷积网络它们适用于图结构数据的机器学习。 1.Transformer回顾 Transformer体系结构最初应用于 Seq2Seq 任务(例如语言翻译)。然而这个模型以及它的一些变体已经发展到能够捕获各种不同的用例例如: Vision transformer 用于图像的目标检测和分类Encoder-only transformer 例如区分性语言任务的仅编码器transformerDecoder-only transformer 例如语言建模的仅解码器transformer 过去在工程实践中往往会使用许多深度学习的体系结构但是transformer的独到之处在于它是一个单一的体系结构可以应用于大量各种各样的任务。编码器-解码器 transformer由两个组成部分: 编码器: 每个块包含双向多头自注意力和前馈变换(通常是一个两层前馈网络)。解码器: 每个块包含掩码的自注意力交叉注意和前馈转换。处理原始文本过程将文本转换为一系列向量带有附加的位置信息对应于输入中的每个标记。然后这个向量序列被 transformer的编码器摄取该模块的输出仅仅是一系列的令牌向量这些令牌向量通过双向自注意和前馈神经网络进行了转换。我们可以获取通过编码器的所有块传递的结果序列并将其用作解码器组件的输入。简单地说编码器使用双向自注意形成整个输入序列的表示这意味着在精心设计编码器的输出序列时输入序列中的每个令牌都考虑序列中的所有其他令牌。然后解码器获取编码器的输出并在生成输出时使用输入序列的这种表示作为上下文。transformer的解码部分与编码器相似但有两个主要区别: 它用的是掩码自自注意力。它有一个额外的交叉注意力机制。掩码自注意力机制限制了解码器中的多头自注意力操作在序列中的“向前看”。换句话说每个标记的表示只取决于它之前的标记。因为解码器需要生成一个文本序列作为输出。如果解码器使用双向自我注意模型就能够在训练期间通过查看目标序列中正确的下一个令牌并在预测下一个令牌时复制它来“作弊”。掩码自注意力避免了这个问题可以有效地训练生成一致的文本通过下一个令牌预测。交叉注意力类似于任何其他注意力操作但它融合了两个编码器和解码器独立的序列与一个单一的注意力操作。标准编码器-解码器Transformer架构的一个广泛使用的示例是文本到文本Transformer(T5)模型。该模型主要用于自然语言的迁移学习任务编译码transformer对于 Seq2Seq 任务和前缀语言建模任务都是有用的这两种任务都是常见的实际问题。两个重要的变体是仅编码器和仅解码器模型纯编码器架构使用transformer的编码器部分完全消除了解码器。这样的架构是由 BERT 推广的当针对各种不同的区分性语言任务(例如句子分类、命名实体识别、问题回答等)进行微调时这种架构是非常有效的。仅解码器的架构只是消除了transformer的编码器部分。这意味着还必须摆脱任何交叉注意力模块因此纯解码器变压器的每个块只执行掩码自注意力和前馈变换。目前被广泛研究的大多数生成型 LLM 例如GPT 系列、 Falcon、 LLaMA-2等都依赖于仅解码器的transformer架构。 2.基于图结构数据的人工智能由于我们的目标是利用图数据结构对推理过程建模的提示技术所以需要了解在机器学习应用中通常如何处理图结构数据。也就是说大多数模型结构(例如transformer或卷积神经网络)是为了处理欧几里得数据(例如图像或文本) 可以很容易地表示为一个矩阵。然而并非所有的数据都可以线性表达的。事实上许多真实世界的数据来源更适合建模为图(例如社交网络、分子等)。对于这样的数据一般使用一种称为图卷积网络(GCN)的特殊模型。在核心组件中GCN与典型的前馈神经网络没有太大的不同。给定一个图我们将图中的每个节点与一个输入嵌入关联起来这个输入嵌入可以来自多种数据源(例如文档的嵌入与用户对应的特性等等)。然后在 GCN 的每一层中首先对每个节点的嵌入(和规范化)应用前馈转换。然后通过聚合每个节点的相邻特征来合并底层图的结构例如取所有相邻节点嵌入的平均值。通过向 GCN 添加多个层我们可以学习丰富的节点表示这些表示同时捕获每个节点的属性和图的结构。 GCN 架构已经获得了广泛的流行并被广泛应用于各种强大的大型应用程序(例如Google Maps)并且已经有了对 GCN 的几个扩展一个值得关注的架构是图形注意力网络(GAT)。 GAT 体系结构在某种程度上与 GCN 相似但是它不仅仅执行从邻近节点聚合特性的简单平均值。相反使用一个加权平均数来接管相邻的节点特征其中的权重是通过一种注意力机制计算出来的。所使用的注意力机制可能很简单例如只是将两个连接的节点嵌入作为输入并执行前馈转换来计算分数。这种方法允许学习更多相邻特征的一般性聚合。 3.多模态 CoT 推理还有一种需要注意的一种提示技术, 即多模态思维链。这种方法提出了一个两阶段的方法来解决文本和视觉输入的推理问题。在第一阶段模型将文本和图像作为输入并使用类似于思维链的解决问题的合理解释。然后将这个合理解释与输入连接起来再次通过模型(连同图像)得到最终答案。这种方法使用了 T5架构并对它所解决的任务进行了微调。尽管 CoT 提示具有令人难以置信的影响力但它有着自己的局限性它的下一个令牌预测以从左到右的方式生成问题解决原理这阻止了模型从推理过程的早期错误中恢复。这个问题的一个解决方案是思维树(ToT)提示它支持对建模为树的中间推理步骤进行回溯和策略性的前瞻。尽管 ToT 具有实用性但它仍然将推理和问题解决作为一个线性过程在树中的单个节点路径上进行这限制了提示技术的能力。通过将思维单元表示为节点将它们之间的联系表示为边缘可以捕捉到人类思维的非顺序性质并允许对思维过程进行更现实的建模。 4.大模型中的思维图推理GOTR GOTR是一个两阶段的推理框架称为思维图推理用于解决具有文本和视觉输入的推理任务。在第一阶段语言模型被用来产生一个解决问题的合理解释。然后第二阶段使用这个生成的合理解释得出最终的答案。这个两阶段的过程受到了多模态 CoT的启发。 GOTR框架在推理过程中依赖于三种不同的输入: 文本: 任何基于提示的推理任务中获得的正常的文本输入。图像: 可以(可选地)摄取与推理任务相关的图像。思想图: 生成一个图其中包含文本输入中的所有命名实体及其作为输入的关系。这些输入中的每一个都在架构中使用了单独的编码器。然后将这些编码器生成的表示进行融合并将其传递给能够生成输出的解码器模块要么是合理解释要么是最终答案。 GOTR 在两个阶段的框架中运行。在第一阶段对于要解决问题的输入文本并被期望产生一个解决问题的合理解释类似于一个思维链。然后在第一阶段生成的合理解释只是与输入文本连接在一起然后我们再次生成输出。第一阶段和第二阶段的唯一区别是: 第二阶段的输入较长(即输入文本和原理)。第二阶段产生一个最终答案而不是一个合理解释。然而除了输入和输出之外这两个阶段的结构是相同的。下面描述了 GOTR 之后的两个阶段的过程在每个阶段产生两种不同的输出。如前所述GOTR 采用三种数据源作为输入: 文本、图像和思维图。图像数据是完全可选的GOTR 在没有它的情况下也可以正常工作。其中思维图是基于输入文本构建的。示例如下具体而言GOTR 的思维图表用于表示输入文本中的命名实体及其关系。为了生成这个图需要使用工具(例如CoreNLP 框架)从文本中提取三元组并执行共享引用解析来统一重复实体从而形成输入文本的图表示。为了从不同的输入模式(即文本、图像和图形)获取数据需要对每个模式使用单独的编码器。对于图像和文本数据可以只使用Transformer编码器也可以对图像使用视觉Transformer进行编码而文本使用T5模型的编码器进行编码。与大多数LLM 相比GOTR 框架使用了不同的模型架构与典型的仅解码器架构不同GOTR 使用基于前缀的语言建模方法该方法使用多个编码器模型来摄取输入然后将这些编码器的输出传递给解码器以生成输出。这类似于编码器-解码器的Transformer架构但可以有多种不同类型的编码器。为了使用多个编码器需要在解码器之前有几个学习层这些层将它们的输出融合成一个单一的序列然后传递给解码器。GOTR 使用完整编码器-解码器设置在所需任务上进行了微调。 GAT 是 GCN 体系结构的一种类型它不是通过简单的求和/平均运算来聚集相邻节点的特征而是使用注意力机制来聚集相邻节点之间的信息。一旦对来自文本、图像和思维图输入的数据进行了编码就需要在将这些特征传递给解码器之前将它们融合在一起以生成输出可以首先使用一个简单的交叉注意力机制。这个初始的特征融合操作如下所示其中文本特征与图像和思想图形的特征融合使用交叉注意。在这里图像特征是可选的。在交叉注意力之后仍然有图像特征、文本特征和可能的图像特征仍然需要将这些特征组合在一起形成一个可以传递给解码器的单一特征表示。这可以通过门控熔合层完成的。这意味着取出我们的输入特征将它们乘以一些可学习的权重矩阵产生“掩码”(即每个条目中值在0到1之间的矩阵) 告诉使用每个特征的哪些部分保留或去除。当把 GOTR 产生的解决问题的合理解释与其他框架相比较时会发现 GOTR 在 ROUGE 得分方面产生了更高质量的合理解释与多模态 CoT 和 UnifiedQA 方法相比质量略有提高这似乎表明将思维图纳入问题解决过程是有帮助的。 5. 思维图: 用大型语言模型解决复杂问题GoT GOTR 可能并不是一个真正的提示技术它必须经过微调或训练才能解决推理问题。CoT 或提示类似的纯提示方法使用预先训练好的 LLM不需要任何模型微调。“思维图”(GoT)提示将 LLM 生成的每个办法建模为图中的一个节点然后使用连接这些节点的顶点来表示依赖关系。人类在解决问题时可能不会遵循严格的思维链可能会尝试多种思维链并将来自多个思想链的见解结合在一起。第一种情况可以通过 ToT 提示来处理但是结合不同的思维链并不适合树形结构的思维模式。为此一个图结构可以将多个推理路径可以合并在一起。此外这样的结构能够捕获类似递归的模式这对于解决各种不同的问题可能是有价值的。GoT可以扩展使得不同大模型即插即用提示技术也会变得容易。 GoT 框架将 LLM 的推理过程表示为一个(有向)图。图中的每个节点对应一个 LLM 生成的单个思想边表示思想之间的关系。也就是说图中从思想 a 到 b 的边或者有向边(ab)只是告诉我们思想 b 是用思想 a 作为输入生成的。与 ToT 提示类似思想的确切定义取决于正在解决的问题。更进一步每个节点代表一个问题或者中间问题的解决方案但是可以在图中有不同类型的节点它们代表推理过程的不同方面(例如计划与执行)。假设使用一个图来表示 LLM 执行的推理过程对这个图的任何修改都表示对底层推理过程的修改可以将这些修改称为思维变换具体定义为向图中添加新的顶点或边。如上图所示存在各种各样的思维转换例如合并或分割数组的数字汇总一组文章生成单篇文章的多个摘要等等。总体上有三种主要的思维变换类型: 聚合: 将任意的思想聚合成一个新的思想。精炼: 通过自我连接精炼思想中的内容。生成: 基于单一思想生成多种新思想。每一种类型都可以任意地修改和推进 LLM 的推理过程。例如聚合可以将多个不同思想链的结果合并在一起而精炼可以递归地更新一个思想直到得到最终的答案。这样的功能严格扩展了 CoT 和 ToT 的提示技术。最后GoT 提示使用评估函数为特定的想法分配分数以及一个排名函数来选择最相关的想法。值得注意的是排名和得分都考虑了整个图结构。排名通常只是返回得分最高的想法。其中主要的模块如下 Prompter: 为 LLM 准备消息或提示词应该包含图结构的编码。Parser: 从 LLM 输出中提取相关信息从而形成存储在每个思想中的状态。Scorer: 验证思维状态是否满足正确性条件并给它们分配一个评分(从 LLM 或人工标注中获得)。Controller: 协调推理过程并决定如何进行。 Controller会选择应该应用于底层图结构的思维变换将这些信息传达给Prompter并根据scorer对生成的思想状态的输出决定推理过程是否已经完成或应该继续向前。在整个过程中Controller维护两种信息: 操作图: 在推理过程之前创建的用户定义的静态结构它捕获思维操作的执行计划。图推理状态: 一个跟踪 LLM 推理过程状态的动态结构包括所有的思想及其状态。 GoT 提示技术的常见示例包括使用归并算法对数字列表(包含重复数字)进行排序计算两个集合的交集关键字计数以及文档合并等。与其他的提示技术相比GoT 提示技术具有更少的延迟和更大的容量而且GoT 提示持续产生的错误更少。这些结果如下图所示。然而GoT 和其他提示技术之间的性能差异在现实世界的任务中似乎不那么明显。例如GoT 提示在文档合并任务方面提供了不太明显的改进。类似地GoT 在关键字计数任务的性能方面提供了一个优势但是基线技术ーー特别是 ToT 提示ーー相当具有竞争力。在考虑是否在实践中使用 GoT 时需要考虑两个个问题: 试图解决的问题是否可以很容易地分解成更小的、可解决的子问题并合并成最终的解决方案对于这类(基于合并的)问题GoT 提示非常有效。增加的成本是否会成为一个问题是否可以用更便捷的技术(例如CoT 提示)得到一个合理的解决方案吗 6.小结从链到树再到图是一个自然的演进过程基于图的提示技术允许大模型将其推理过程构造成一个图结构。从线性推理过程转向更灵活的基于图结构的推理过程对某些任务是有益的 GOTR和 GoT提供了两种方式的参考示例可以看到图结构可以有利于推理过程。然而由此产生的推理过程可能更加复杂和昂贵。【参考资料与关联阅读】 “Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Large Language Models.” arXiv:2305.16582 (2023). “Graph of Thoughts: Solving Elaborate Problems with Large Language Models.” arXiv:2308.09687 (2023).“Multimodal chain-of-thought reasoning in language models.” arXiv:2302.00923 (2023).“Tree of thoughts: Deliberate problem solving with large language models.” arXiv:2305.10601 (2023).“Graph attention networks.”arXiv:1710.10903 (2017).大模型应用的10种架构模式7B13B175B解读大模型的参数大模型系列提示词管理提示工程中的10个设计模式大模型应用框架LangChain与LlamaIndex的对比选择解读大模型应用的可观测性大模型系列之解读MoE在大模型RAG系统中应用知识图谱面向知识图谱的大模型应用让知识图谱成为大模型的伴侣如何构建基于大模型的AppQcon2023: 大模型时代的技术人成长简论文学习笔记增强学习应用于OS调度《深入浅出Embedding》随笔LLM的工程实践思考大模型应用设计的10个思考基于大模型LLM的Agent 应用开发解读大模型的微调解读向量数据库解读ChatGPT中的RLHF解读大模型LLM的token解读提示词工程Prompt Engineering解读Toolformer解读TaskMatrix.AI解读LangChain解读LoRA解读RAG大模型应用框架之Semantic Kernel浅析多模态机器学习大模型应用于数字人深度学习架构的对比分析老码农眼中的大模型LLM ‍

查看全文

http://www.pierceye.com/news/873643/