北京网站建设交易,网站免费做招生宣传语,高德地图是国产软件吗,wordpress整合openidChain-Of-Verification Reduces Hallucination In Large Language Models
在大型语言模型中#xff0c;产生看似合理但实际上错误的事实信息#xff0c;即幻觉#xff0c;是一个未解决的问题。我们研究了语言模型在给出回答时进行深思以纠正错误的能力。我们开发了Chain-of…Chain-Of-Verification Reduces Hallucination In Large Language Models
在大型语言模型中产生看似合理但实际上错误的事实信息即幻觉是一个未解决的问题。我们研究了语言模型在给出回答时进行深思以纠正错误的能力。我们开发了Chain-of-VerificationCOVE方法该方法首先i起草一个初始回答然后ii计划验证问题以对草稿进行事实核查iii独立回答这些问题以便答案不受其他回答的影响最后iv生成其最终经过验证的回答。在实验中我们展示了COVE在各种任务中减少了幻觉包括来自Wikidata的基于列表的问题、封闭书籍的多跨度QA和长篇文本生成。 我们的方法假设能够访问一个基础的大型语言模型LLM尽管这个模型可能容易产生幻觉但它能够以少量样本或零样本的方式接受一般性指令的提示。我们方法的一个关键假设是当得到适当的提示时这个语言模型能够生成并执行一个计划以验证自己的工作并检查是否存在错误最后将这种分析整合到改进后的回答中。 我们的整体过程我们称之为验证链CoVe因此执行四个核心步骤 1. 生成基线响应给定一个查询使用LLM生成响应。 2. 规划验证给定查询和基线响应生成一系列验证问题这些问题有助于自我分析原始响应中是否存在任何错误。 3. 执行验证依次回答每个验证问题从而检查答案与原始响应之间是否存在不一致或错误。 4. 生成最终验证响应给定发现的不一致性如果有的话生成一个经过修订的响应其中包含验证结果。 这些步骤通过以不同的方式提示同一个LLM来获得所需的响应。虽然步骤1、2和4都可以通过单个提示来调用但我们对步骤3的变体进行了研究包括联合、两步和分解版本。这些变体要么涉及单个提示要么涉及两个提示要么每个问题独立提示其中更复杂的分解可能会导致改进的结果。 我们介绍了验证链CoVe方法这是一种通过对其自己的响应进行深思熟虑并进行自我纠正来减少大型语言模型中幻觉的方法。特别是我们展示了模型在将验证分解为一系列更简单的问题时回答验证问题的准确性高于回答原始查询。其次在回答验证问题集时我们展示了控制模型的注意力使其无法关注其之前的答案分解CoVe有助于减轻复制相同的幻觉。总的来说我们的方法通过让同一个模型对验证其答案进行深思熟虑大大提高了原始语言模型响应的性能。我们工作的一个明显扩展是将CoVe与工具使用相结合例如在验证执行步骤中使用检索增强这可能会带来进一步的收益。
尽管我们的验证链CoVe方法旨在减少幻觉但它并没有完全从生成中移除幻觉。这意味着即使CoVe改进了基线它仍然可以为给定查询生成不正确或误导性的信息。我们还注意到在我们的实验中我们只解决了以直接陈述的事实不准确形式出现的幻觉。然而幻觉可能以其他形式出现例如在推理步骤中出错作为观点的一部分等。我们还注意到CoVe生成的内容附带验证如果用户查看会增加其决策的可解释性但代价是输出中生成更多令牌从而增加计算成本与其他推理方法如思维链类似。
我们的方法旨在通过花费更多时间来识别自己的错误使大型语言模型产生改进的响应。虽然我们已经证明了这确实有所改进但改进的上限显然受到模型整体能力的影响例如在识别和知道它知道什么方面。在这方面正如第2节讨论的一个与我们的工作平行的研究方向是语言模型使用外部工具以获取超出其权重存储范围的信息。虽然我们在这项工作中没有探索这一领域但这些技术很可能与这里的发现相结合。