内蒙能源建设集团网站,网站建设的领军 18年网站建设,wordpress繁体中文,东莞网站建设实例分析如今#xff0c;大型语言模型#xff08;LLM#xff09;发展飞速#xff0c;在文本和图像生成方面表现都很出色#xff0c;但在我们的实际生活中#xff0c;要理解和正确使用各种工具方面尚存在困难。人们期望这些模型在解决实际问题时能够灵活运用和理解各种工具#x…如今大型语言模型LLM发展飞速在文本和图像生成方面表现都很出色但在我们的实际生活中要理解和正确使用各种工具方面尚存在困难。人们期望这些模型在解决实际问题时能够灵活运用和理解各种工具例如在规划路线、智能家居等生活场景中模型可能需要准确选择和使用各种工具。
为了应对 LLM 在实际应用场景中使用各种复杂工具时面临的挑战作者提出了孔子Confucius框架通过当一个出色的“老师”使 LLM 在贴近我们生活的应用场景中更加智能。通过多阶段学习、迭代自指导和反思反馈ISIF等策略该框架使 LLM 能够更好地掌握各种工具。 ▲图1 现有基于微调的工具学习方法与Confucius 的比较
论文题目:Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum
论文链接:https://arxiv.org/abs/2308.14034 工具学习Tool Learning ▲表1 相关工作的比较
工具学习可以让 LLM 与各种工具进行有效交互以完成复杂任务。通过将 LLM 与 API 相结合可以大大扩展其功能使 LLM 成为用户与广泛的应用生态系统之间的高效桥梁。目前主流的方法可以分成以下2大类 无微调tuning-free的工具学习利用 LLM 天生具备的上下文学习能力的方法。在这种方法中输入工具的演示来提示 LLM 使用各种工具。然而该方法存在两个主要缺点 数据安全问题由于数据安全原因不是所有应用都能将工具和用户数据传输给 LLM 服务提供商。这限制了在这些应用中使用专有 LLM 的可能性。 输入长度限制由于输入长度的限制提示无法容纳大量工具因此导致对大量工具的应用存在一定的限制。 基于微调tuning-base的工具学习是一种直接在工具使用数据集上微调语言模型参数的方法通常通过提示专有 LLM 使用特定工具来构建如搜索、计算和翻译。这些方法大多首先使用自指导技术从专有 LLM 中收集工具使用数据然后微调一个开源模型。其优势在于它们可以轻松部署在自托管环境中。然而在构建的数据集上微调语言模型通常会引入泛化问题。
孔子Confucius框架
Confucius 包含两个主要阶段 为了解决训练 LLM 使用复杂工具的挑战首先提出一个多阶段学习方法通过一个从易到难的课程教授 LLM 使用各种工具。 提出了一种迭代的内省与更新ISIF技术动态更新数据集为模型的训练提供更有针对新的样本以提高模型使用复杂工具的能力。 ▲图2 整体架构包括多阶段学习和迭代自指导和内省反馈
多阶段学习
这是一种分阶段进行模型训练的方法旨在逐步提高模型对复杂任务的学习能力。该方法通常包含多个训练阶段每个阶段都侧重于不同的任务或难度水平使模型能够逐渐适应和提高性能。如图 2 所示一般包括以下几个阶段 热身训练阶段Warm-Up Training在这个阶段模型接触到一些基本的任务或信息以建立起对基础知识的了解。这有助于模型建立起基础为后续学习提供一个良好的起点。 同类别训练阶段In-Category Training模型在这个阶段接触到与任务相关的更多信息学习如何在同一类别的任务中进行选择和应用这有助于模型更好地理解任务的内在特征和模式。 跨类别训练阶段Cross-Category Training模型在这个阶段进一步面对更广泛的任务和场景以在不同类别的任务中进行训练可以提高模型的泛化能力使其能够应对更多样化和复杂的情境。
多阶段学习的优势它能够使模型逐步适应任务的复杂性避免一开始就让模型直接面对过于困难的情况。这种分阶段的学习过程能够更好地引导模型学到有用的特征和知识提高模型在真实场景中的性能。
迭代式内省与更新
为了对复杂工具进行更有针对性的训练这个阶段通过动态构建数据集根据模型内省的反馈迭代地定制工具使用的训练数据。如图 2 所示该阶段包括两个子阶段实例生成Instance Generation和内省与更新Updates with Introspective Feedback。 实例生成 首先建立一个工具存储库包含了 110 个常用的工具和使用实例。这些实例是手动构建的每个包括一个具体的提问和一个按照思维链格式构建的答案至少涉及四个工具以促使数据集的复杂性。接着从工具存储库中随机选择 5 至 7 个工具构成工具集 。然后使用这些工具的演示作为提示通过 ChatGPT 生成各种提问并通过组合推理回答这些提问。由于复杂工具需要更多的训练数据预先创建的数据集与训练过程中经过优化后的 LLM 不同步因此需要生成更多有针对性的样本来不断更新数据集。 ▲表1 与其他工具使用数据集的比较 更新与内省反馈 由于通过自指导生成的实例可能没有受到任何有针对性的训练指导因此需要构建一个提示来指导实例生成。给定一个包含 个 token 的提问 首先检索一个工具集 然后将 提供给 LLM 生成回复。通过计算生成的回复 相对于 和 的生成概率可以得到回复的生成困惑度 。困惑度表示生成的不确定性程度因此具有更高困惑度的样本需要在后续训练中进行更多的训练。在内省反馈更新阶段通过过滤具有高困惑度的实例得到一个被筛选的实例集 。然后这些被筛选的实例用于自指导提示生成更多类似的工具使用实例进行进一步的训练。这个过程是迭代的每个时期都使用更新后的数据集对模型进行训练以动态改善工具使用的性能。
实验
总体性能
如表 2 的实验表明Confucius 在已见和未见工具集上均取得显著优异的表现相较于其他 Baseline 表现更为出色。在已见测试集中Confucius 在工具选择方面实现了显著的改进比 ChatGPT 的绝对改善为 4.99。这表明 Confucius 在正确选择工具方面具有潜在的强大性能。 ▲表2 整体实验结果比较
在组合推理方面Confucius 在已见和未见工具集上相较于微调 baseline 有显著提升同时超越了 ChatGPT。这表明 Confucius 在处理复杂任务时受益于链式思维的工具使用实例为其性能提供了有效支持。
在未见工具集中Confucius 胜过了 ChatGPT 等无微调方法这证明 Confucius 具备有效的泛化工具使用能力。相较之下其他微调 baseline 在从已见工具集推广到未见工具集时表现出性能下降而 Confucius 的性能下降相对较小这要归功于其迭代训练策略 ISIF为 LLM 提供了更强大的工具使用技能。
此外工具检索器的效果也得到了验证实验结果显示该工具检索器能够有效地找到与真实情况相匹配的适当工具。人工评估结果也进一步印证了 Confucius 相对于其他方法的卓越性。
人工评估
人工评估的结果如表 3 所示。在两个方面即可执行性和流畅性Confucius始终优于 SOTA 工作。此外与 ChatGPT 相比本文的框架取得了可比甚至更好的结果进一步验证了其有效性。两个评估指标的平均 Kappa 统计分别为 0.762 和 0.732说明评估者之间存在一致性。 ▲表3 在可见和不可见测试集上的人工评估
多阶段训练的分析
在表 2 中作者还进行了消融实验。可以看到所有的变体模型性能都下降了这证实了作者在 Confucius 中提出的多阶段训练方法的有效性。相较于其他两个变体模型去除跨类别训练的模型在工具选择得分方面的性能降低最为显著。这一现象表明构建一个类似于实际场景的候选工具集以提高LLM的工具选择能力是非常必要的。
ISIF 的分析
为了进行公平比较作者采用了一种与 ISIF 不同的方法即根据高困惑度实例的内省反馈随机抽取了一些实例用作自指导的提示以生成新实例。然后更新后的数据集用于训练 LLaMA该模型与 Confucius 使用相同的基本模型。图 3 展示了在不同大小的初始数据集上训练的模型的性能。可以看到本文提出的 ISIF 在每个数据集大小上的性能始终优于随机更新数据集的方法这验证了根据内省反馈动态更新数据集的有效性。 ▲图3 Confucius 与变体模型的比较
不同基础模型的泛化
作者为了进一步探索提出的 Confucius 的鲁棒性使用 Confucius 对其他两个开源LLMLLaMA2-7B 和 Vicuna-7B进行调优。正如表 2 所示与相应的无微调版本相比使用 Confucius 训练的两个模型在工具选择得分上都取得了较大的优势这证明了该框架的泛化性。
总结
本文提出了一种名为孔子Confucius的工具学习框架通过采用多阶段学习方法和迭代式内省与更新数据集ISIF策略成功地提升了 LLM 在实际应用场景中掌握复杂工具的能力从而有效改善了工具使用的效果。具体来说作者通过从易到难的课程即热身、同类和跨类别阶段对 LLM 进行了微调。由于某些工具在不同场景中的使用方式不同需要更多的训练来充分理解使用方式因此引入了 ISIF根据模型内省迭代更新工具使用训练数据集。
实验结果表明孔子工具学习框架在实现 LLM 对多种工具的更智能学习方面取得了显著成果。这一框架不仅提高了模型在各项实验指标上的性能而且通过多阶段学习和迭代自指导的结合使得 LLM 更具适应性和灵活性能够更好地应对实际应用场景中的各种挑战。