菜鸟网站建设,新手怎么开传媒公司,哪些行业网站推广做的多,免保证金入驻电商平台Abstract
基础模型 (FM) 中的幻觉是指生成偏离事实或包含捏造信息的内容。这篇调查论文广泛概述了近期旨在识别、阐明和解决幻觉问题的努力#xff0c;特别关注“大型”基础模型#xff08;LFM#xff09;。该论文对LFM特有的各种类型的幻觉现象进行了分类#xff0c;并建…Abstract
基础模型 (FM) 中的幻觉是指生成偏离事实或包含捏造信息的内容。这篇调查论文广泛概述了近期旨在识别、阐明和解决幻觉问题的努力特别关注“大型”基础模型LFM。该论文对LFM特有的各种类型的幻觉现象进行了分类并建立了评估幻觉程度的评估标准。它还研究了减轻 LFM 幻觉的现有策略并讨论了该领域未来研究的潜在方向。本质上本文对 LFM 中幻觉相关的挑战和解决方案进行了全面的研究。
Introduction
以 GPT-3Brown 等人2020和稳定扩散Rombach 等人2022为代表的基础模型FM标志着机器学习和生成人工智能领域新时代的开始。研究人员引入了“基础模型”一词来描述机器学习模型这些模型是在广泛、多样且未标记的数据上进行训练的使它们能够熟练地处理各种一般任务。这些任务包括语言理解、文本和图像生成以及自然语言对话。
1.1 什么是基础模型
基础模型是指在大量未标记数据上训练的大规模人工智能模型通常通过自我监督学习。这种训练方法产生的多功能模型能够在各种任务中表现出色包括图像分类、自然语言处理和问答从而达到显着的准确性水平。
这些模型擅长涉及生成能力和人类互动的任务例如生成营销内容或根据最少的提示制作复杂的艺术品。然而为企业应用程序调整和实施这些模型可能会遇到一定的困难Bommasani 等人2021。
1.2 什么是基础模型中的幻觉
基础模型上下文中的幻觉是指模型生成的内容并非基于事实或准确信息的情况。当模型生成的文本包含虚构、误导性或完全捏造的细节、事实或主张而不是提供可靠和真实的信息时就会出现幻觉。
出现此问题的原因是该模型能够根据从训练数据中学到的模式生成听起来合理的文本即使生成的内容与现实不符。幻觉可能是无意的可能是由多种因素造成的包括训练数据的偏差、模型无法访问实时或最新信息或者模型在理解和生成上下文准确响应方面的固有局限性。
解决基础模型和大语言模型中的幻觉至关重要尤其是在事实准确性至关重要的应用中例如新闻、医疗保健和法律背景。研究人员和开发人员正在积极研究减轻幻觉并提高这些模型的可靠性和可信度的技术。随着最近图 2 中这个问题的出现解决这些问题变得更加重要。
2023年3月至2023年9月大型基础模型LFM“幻觉”论文的演变 1.3 为什么进行这项调查
近年来学术界和工业界对 LFM 的兴趣显着增加。此外他们的主要挑战之一是幻觉。 (Ji et al., 2023) 中的调查描述了自然语言生成中的幻觉。在大模型时代Zhang et al., 2023c做了另一项伟大的及时调查研究大语言模型的幻觉。然而除了LLM之外图像、视频、音频等其他基础模型也存在幻觉问题。因此在本文中我们对基础模型所有主要模式的幻觉进行了首次全面调查。
1.3.1 我们的贡献
我们对 LFM 幻觉领域的现有工作进行了简洁的分类如图 1 所示。 我们在第 2 至 5 节中对大型基础模型 (LFM) 进行了广泛的检查。 我们涵盖了所有重要方面例如一 检测二减轻三.任务四。数据集和 v. 评估指标如表 1 所示。我们最后还提供了我们在该领域的观点和未来可能的方向。我们将定期更新相关的开源资源可访问 https://github.com/vr25/hallucination-foundation-model-survey 1.3.2 幻觉的分类
如图1所示我们将LFM大致分为以下四种类型文本二。图像三。视频以及 iv.声音的。 本文遵循以下结构。基于上述分类我们描述了所有四种模式的幻觉和缓解技术文本第 2 节ii。图像第 3 节iii。视频第 4 节以及 iv。音频第 5 节。在第 6 节中我们简要讨论幻觉并不总是坏事因此在创意领域它们非常适合制作艺术品。最后我们给出了解决这个问题的一些未来可能的方向以及第 7 节中的结论。
2 Hallucination in Large Language Models ---- 2 大语言模型中的幻觉
如图 4 所示当大语言模型做出捏造的回答时就会出现幻觉。
2.1 LLMs
SELFCHECKGPTManakul et al., 2023是一种在生成大语言模型中进行零资源黑盒幻觉检测的方法。该技术侧重于识别这些模型生成不准确或未经验证的信息的实例而不依赖于额外的资源或标记数据。它旨在通过提供一种无需外部指导或数据集即可检测和解决幻觉的机制来增强大语言模型的可信度和可靠性。 (Mündler et al., 2023) 探讨了大语言模型中自相矛盾的幻觉。并通过评估、检测和缓解技术解决这些问题。它指的是大语言模型生成自相矛盾的文本的情况导致不可靠或无意义的输出。这项工作提出了评估此类幻觉发生的方法在大语言模型生成的文本中检测它们并减轻其影响以提高大语言模型生成的内容的整体质量和可信度。
PURRChen et al., 2023是一种旨在有效编辑和纠正语言模型中的幻觉的方法。 PURR 利用去噪语言模型损坏来有效识别和纠正这些幻觉。这种方法旨在通过减少幻觉内容的流行来提高语言模型输出的质量和准确性。
幻觉数据集幻觉通常与语言模型 (LM) 中的知识差距有关。然而Zhang et al., 2023a提出了一个假设即在某些情况下当语言模型试图合理化先前产生的幻觉时它们可能会产生可以独立识别为不准确的错误陈述。因此他们创建了三个问答数据集其中 ChatGPT 和 GPT-4 经常提供不正确的答案并附有至少包含一个错误断言的解释。
HaluEvalLi et al., 2023b是一个综合基准旨在评估大语言模型的幻觉。它可以作为一种工具系统地评估大语言模型在不同领域和语言的幻觉方面的表现帮助研究人员和开发人员衡量和提高这些模型的可靠性。
使用外部知识缓解幻觉使用交互式问题知识对齐Zhang et al., 2023b提出了一种减轻语言模型幻觉的方法。他们提出的方法侧重于将生成的文本与相关事实知识对齐使用户能够交互式地指导模型的响应产生更准确、更可靠的信息。该技术旨在通过让用户参与对齐过程来提高语言模型输出的质量和真实性。 LLMAUGMENTERPeng 等人2023利用外部知识和自动反馈改进大语言模型。它强调需要解决大语言模型生成内容中的局限性和潜在的事实错误。该方法涉及结合外部知识源和自动反馈机制以提高LLMs输出的准确性和可靠性。通过这样做本文旨在减少事实错误并提高LLMs生成文本的整体质量。同样Li et al., 2023d引入了一个名为“知识链”的框架为LLMs奠定结构化知识库的基础。接地是指将LLMs生成的文本与结构化知识连接起来以提高事实准确性和可靠性的过程。该框架采用分层方法将多个知识源链接在一起以提供背景并增强对LLMs的理解。这种方法旨在提高LLMs生成的内容与结构化知识的一致性降低生成不准确或幻觉信息的风险。
与较大的同行相比参数较少的小型开源LLMs通常会遇到严重的幻觉问题Elaraby 等人2023。这项工作的重点是评估和减轻 BLOOM 7B 中的幻觉它代表了研究和商业应用中使用的较弱的开源LLMs。他们推出了 HALOCHECK这是一个轻量级的无知识框架旨在评估LLMs的幻觉程度。此外它还探索了知识注入和师生方法等方法来减少低参数LLMS的幻觉问题。
此外与法学硕士相关的风险可以通过与网络系统进行比较来减轻Huang 和 Chang2023。它强调了LLMs中缺乏关键要素“引用”而“引用”可以提高内容透明度和可验证性并解决知识产权和道德问题。
使用提示技术减轻幻觉“消除幻觉”是指减少LLM产生不准确或幻觉信息。 (Jha et al., 2023) 中提出了使用迭代提示引导的正式方法来消除 LLM 的幻觉。他们采用形式化方法通过迭代提示来指导生成过程旨在提高LLM输出的准确性和可靠性。该方法旨在减轻幻觉问题并增强LLM生成内容的可信度。
2.2 多语言LLMs
大规模多语言机器翻译系统在多种语言之间直接翻译方面表现出了令人印象深刻的能力这使得它们对现实世界的应用程序具有吸引力。然而这些模型可能会生成幻觉翻译这在部署时会带来信任和安全问题。现有的幻觉研究主要集中在高资源语言的小型双语模型上在跨不同翻译场景的大规模多语言模型中理解幻觉方面存在差距。
为了解决这一差距Pfeiffer et al., 2023对传统神经机器翻译模型的 M2M 系列和可提示翻译的多功能 LLM ChatGPT 进行了全面分析。该调查涵盖了广泛的条件包括 100 多个翻译方向、各种资源水平以及以英语为中心的对以外的语言。
2.3 特定领域的LLMs
医学、银行、金融、法律和临床环境等关键任务领域的幻觉是指生成或感知到虚假或不准确信息的情况可能导致严重后果。在这些领域可靠性和准确性至关重要任何形式的幻觉无论是数据、分析还是决策都可能对结果和运营产生重大和有害的影响。因此强有力的措施和系统对于最大限度地减少和预防这些高风险领域的幻觉至关重要。
医学LLMs的幻觉问题特别是在医学领域产生看似合理但不准确的信息可能是有害的。为了解决这个问题Umapathi 等人2023引入了一个新的基准和数据集称为 Med-HALT医学领域幻觉测试。它专门用于评估和减轻LLMs的幻觉。它包含来自不同国家医疗检查的多样化跨国数据集并包括创新的测试方法。 Med-HALT 包括两类测试推理测试和基于记忆的幻觉测试旨在评估LLMs在医学背景下解决问题和信息检索的能力。
法律ChatLawCui 等人2023是专门针对法律领域的开源LLMs。为了确保高质量的数据作者创建了精心设计的法律领域微调数据集。针对法律数据筛选过程中的模型幻觉问题他们提出了一种向量库检索与关键词检索相结合的方法。这种方法有效地减少了在法律背景下仅依靠矢量数据库检索进行参考数据检索时可能出现的不准确性。
3 大图像模型中的幻觉Hallucination in Large Image Models
采用Siamese结构的对比学习模型Wu et al., 2023在自我监督学习中表现出了令人印象深刻的表现。它们的成功取决于两个关键条件存在足够数量的正对以及它们之间存在充足的差异。如果不满足这些条件这些框架可能缺乏有意义的语义区别并且容易过度拟合。为了应对这些挑战我们引入了幻觉器它可以有效地生成额外的正样本以增强对比度。 Hallucinator 是可微分的在特征空间中运行使其能够在预训练任务中进行直接优化并产生最小的计算开销。
受LLMs的启发为复杂的多模态任务增强 LVLM 的努力面临着一个重大挑战物体幻觉其中 LVLM 在描述中生成不一致的物体。这项研究Li et al., 2023e系统地研究了 LVLM 中的物体幻觉并发现这是一个常见问题。视觉指令尤其是频繁出现或同时出现的物体会影响这个问题。现有的评估方法也受到输入指令和 LVLM 生成方式的影响。为了解决这个问题该研究引入了一种称为 POPE 的改进评估方法为 LVLM 中的物体幻觉提供更稳定和灵活的评估。
指令调整的大视觉语言模型 (LVLM) 在处理各种多模式任务包括视觉问答 (VQA)方面取得了重大进展。然而生成详细且视觉上准确的响应仍然是这些模型的挑战。即使像 InstructBLIP 这样最先进的 LVLM 也表现出很高的幻觉文本率包括 30% 的不存在对象、不准确的描述和错误的关系。为了解决这个问题该研究Gunjal et al., 2023引入了 MHalDetect1这是一个多模态幻觉检测数据集旨在训练和评估旨在检测和预防幻觉的模型。 MHalDetect 包含 VQA 示例的 16,000 个详细注释使其成为第一个用于检测详细图像描述中的幻觉的综合数据集。