黔东南购物网站开发设计,网站开发工程师岗位,网易暴雪最新消息,网页小游戏源码一、结论写在前面
论文来自清华大学、北京国家信息科学与技术研究中心
论文标题#xff1a;Pandora’s Box or Aladdin’s Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
论文链接#xff1a;https://arxiv.org/pdf/2408.135…
一、结论写在前面
论文来自清华大学、北京国家信息科学与技术研究中心
论文标题Pandora’s Box or Aladdin’s Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
论文链接https://arxiv.org/pdf/2408.13533
检索增强生成RAG已成为解决大语言模型LLM中幻觉问题的关键方法。尽管最近的研究已将RAG模型扩展到复杂的噪声场景但这些探索往往局限于有限的噪声类型并假设噪声对LLM本质上是破坏性的这可能偏离真实世界的检索环境并限制其实际应用性。
论文对RAG噪声在大型语言模型LLMs中的作用进行了全面分析。首先论文从语言学角度定义了七种类型的噪声。基于这一定义论文提出了一种系统的框架来创建多样化的噪声文档并建立了NoiserBench一种新颖的噪声RAG基准。
接着论文评估了八种具有不同架构和规模的代表性LLMs。广泛的结果表明RAG噪声可以分为两类实际应用中的组别有益噪声语义、数据类型、非法句子和有害噪声反事实、支持性、拼写、先验。虽然有害噪声损害性能但有益噪声却意外地增强了模型能力并导致性能提升。
进一步分析揭示有益噪声促进了更标准化的答案格式、更清晰的推理路径以及在黄金上下文中增加的响应信心。这些对比效应类似于打开潘多拉魔盒有害噪声与解锁阿拉丁神灯有益噪声。论文希望这项研究将推动未来研究中减轻有害噪声并利用有益噪声的正面效应。
二、论文的简单介绍
2.1 论文的背景
LLM仍面临依赖过时知识和幻觉等挑战。检索增强生成RAG最近作为一种有前景的方法出现以缓解这些局限性。RAG通过在推理过程中从外部源检索附加信息来增强输入从而提升LLM的性能。
然而互联网上充斥着各种非标准噪声包括AI生成的假新闻、过时内容、拼写错误和数据污染这些可能潜在地影响模型性能。探索噪声如何影响RAG系统并理解其背后的机制至关重要。
一些研究试图将RAG系统扩展到复杂真实场景中研究噪声文档的影响以及增强系统鲁棒性的策略。然而这些研究通常仅关注有限数量的噪声类型通常不超过三种并且缺乏明确的分类未能完全捕捉真实世界噪声环境的复杂性。此外这些研究往往假设噪声是有害的忽视了其潜在的积极效果并缺乏系统的评估数据集。如图1所示引入有益噪声可以使LLM避免反事实噪声的有害影响专注于黄金上下文并生成准确的响应。因此迫切需要重新定义和描述RAG中的噪声场景并系统地探索检索噪声的具体影响。 图1NoiserBench中的一个示例展示了不同RAG噪声的影响。最初模型被反事实噪声误导。有趣的是在引入有益噪声后它成功地区分了正确和错误信息并生成了准确的答案。
2.2 RAG 噪声的分类
如图 2 所示论文从语言学角度将 RAG 噪声分为七种类型。它们进一步分为有益噪声语义、数据类型和非法句子和有害噪声反事实、支持性、拼写和先验以适应实际应用。论文将在实验部分解释这种分类的原因。
语义噪声Semantic NoiseSeN 检索文档可能包含与查询语义相关性较低的内容通常偏离主题或偏离预期含义。鉴于 Warren Weaver 最初将语义噪声定义为“句子意义的扰动或扭曲”论文将偏离主题、语义相关性低的文档归类为语义噪声。
数据类型噪声Datatype NoiseDN 这种噪声指的是网络上不同数据类型的混合例如维基百科上链接和文本的混合。在论文中论文考虑三种数据类型文本、URL 和代码。
非法句子噪声Illegal Sentence NoiseISN 网络内容可能包含不符合语法规则的片段例如“历史转换覆盖管理那只黑色”。论文将这种类型的噪声定义为非法句子噪声。
反事实噪声Counterfactual NoiseCN 互联网包含大量虚假信息包括假新闻和过时知识这对RAG系统构成了重大挑战。借鉴语言学中“反事实”表示与事实相反的陈述论文引入术语“反事实噪声”来描述事实错误。这一概念与先前研究Fang et al. 2024相符。 图2(A) RAG中的七种噪声全面反映了现实场景。(B) 这种多样RAG噪声的详细插图直观展示了各种类型。请注意显著的噪声注入以红色突出显示。
支持性噪声Supportive NoiseSuN 支持性证据也称为正面证据与假设高度语义相关并提供支持该假设的必要信息。论文引入“支持性噪声”一词来描述那些具有高度语义相关性但缺乏相应答案信息的文档。
正字法噪声Orthographic NoiseON “正字法”一词源自希腊语orthos意为“正确”和graphein意为“书写”在语言学中指单词的书写方式。而正字法噪声则指书写错误如拼写错误和单词延长。
先验噪声Prior NoisePN 在语言学中先验知识指学习者在解决问题之前已经知道的内容。论文的研究将先验噪声定义为基于错误假设或前提的问题。例如问题“2017年谷歌重组为Alphabet时谁是谷歌的CEO”包含先验噪声因为重组发生在2015年而非2017年。
2.3 噪声RAG基准构建
论文讨论数据构建和评估指标。整体框架如图3所示。
2.3.1 数据构建
如图3 (A) 所示论文的框架包括四个关键步骤包括QA实例生成、蕴含验证、噪声引入和测试集构建。
步骤1问答实例生成( QA Instance Generation) 对于先验噪声论文从主流媒体和维基百科收集文章片段涵盖不同时间段和领域如体育、政治和金融。然后论文设计提示词让ChatGPT为每个片段生成相关事件、问题和答案。注意生成的问题包含先验噪声事实错误论文手动审查以确保它们能被大语言模型LLMs合理回答。对于剩余的六种噪声类型SeN, DN, ISN, CN, SuN, ON,PN论文根据先前的工作从现有数据集中获取问答QA对。在获得候选QA对后论文使用ChatGPT去除模糊或难以评估的对随后进行手动审查。例如类似“有多少公司市值超过250亿美元并承诺减少温室气体排放”的问题应被排除因其答案广泛且公司市值动态变化。类似标准适用于其他实例。
步骤2蕴涵验证(Entailment Verification) 如Xie et al. (2024); Yoran et al. (2024)所示有效的证据应强有力地支持其答案。例如关于大卫·贝克汉姆的黄金证据应支持他曾在加盟洛杉矶银河队之前效力于皇家马德里的答案。因此论文使用自然语言推理模型bart-large-mnli-407MLewis et al. 2019确保证据恰当地蕴涵答案。注意论文仅保留那些蕴涵概率≥0.8的示例。
步骤3噪声引入Noise Introduction 论文构建多样化的检索文档以进行噪声测试。对于反事实噪声论文从谷歌搜索结果中提取相关实体和关系以创建反事实答案。ChatGPT然后用于构建相应的支持性证据随后进行蕴含验证。论文在图4中展示了提示。对于支持性和语义噪声论文使用2018年英文维基百科转储作为源文档使用现成的Contriever-MS MARCO模型进行检索并使用轻量级文本嵌入模型all-MiniLM-L6-v2进行语义相关性过滤。 图 3模拟真实世界噪声对RAG模型影响的总体框架。首先论文生成并获取QA实例利用ChatGPT过滤掉模糊的示例步骤 I。然后论文使用NLI模型进行蕴含验证以保持证据质量步骤 2。接着论文使用搜索引擎等工具创建噪声文档步骤 3。最后论文将自由形式的QA转换为多选QA格式提供多个答案选项以便于自动评估步骤 4。所有实验均在零样本设置下进行以避免演示带来的偏差。 图4反事实证据生成的LLM输入示例。提示的上下文由指令、示例和候选反事实QA组成。
为了模拟非法句子噪声论文通过随机组合模型词汇中的单词来构建无意义的句子模拟现实世界中的乱码文本。数据类型噪声是通过提示ChatGPT插入URL或代码片段同时保留关键答案信息来创建的。最后使用开源的textnoisr包生成拼写噪声该包便于引入噪声。实现了四种“操作”插入、删除、替换和交换。总之该流程能够在各种噪声场景下全面评估模型性能。
步骤4测试平台构建 在获得高质量的QA实例和多样化的检索文档后论文构建测试平台以评估模型在各种噪声条件下的性能。鉴于自动评估LLM对开放式QA任务响应的挑战Xie et al. 2024论文将自由形式的QA转换为多项选择格式。这限制了响应空间并促进了更准确的评估。具体来说对于每个QA对LLM从4个选项中选择正确答案、两个反事实替代方案和“不确定”。黄金选项的顺序完全随机以避免LLM对选项顺序的敏感性。
最后论文获得了八个数据集用于 NoiserBench。根据 (Yoran et al. 2024; Wang et al. 2024)论文从每个数据集中随机选择 500 个样本作为测试用例或者如果数据集包含少于 500 个样本则使用所有样本。
2.3.2 评估指标
该基准旨在揭示 RAG 噪声对大型语言模型LLMs的影响。论文使用准确率作为主要指标并报告各数据集的加权平均准确率通过汇总每个数据集的准确率来计算。
表 1不同噪声类型对 Llama3-8B-Instruct 和 Qwen2-7b-Instruct 在七个数据集上的准确率 ( X_0 ) 的影响。论文评估了各种检索场景下的性能“Base”无检索、“Golden Only”仅黄金检索上下文和 “Golden XXX”黄金上下文 特定检索噪声包括反事实、支持性、正交性、语义、数据类型、非法句子噪声。绿色和红色值表示与 “Golden Only” 的性能差距。论文还提供了每种噪声类型的加权平均准确率。最佳的两个结果以粗体和下划线显示。 针对所有自学遇到困难的同学们我帮大家系统梳理大模型学习脉络将这份 LLM大模型资料 分享出来包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 有需要的小伙伴可以 扫描下方二维码领取↓↓↓ [CSDN大礼包全网最全《LLM大模型入门进阶学习资源包》免费分享安全链接放心点击]() 2.4 实验
2.4.1 实验设置
数据集 论文使用多个问答数据集进行实验这些数据集根据所需的推理技能分为四类
•单跳(Single-hop)需要一步推理的问题。论文使用自然问题 ( N Q )和 RGB数据集进行评估。
•显式多跳Explicit Multi-hop问题中明确表达多个推理步骤。论文利用HotpotQA、2WIKIMQA和Bamboogle数据集。
•隐式多跳(Implicit Multi-hop)问题中未明确陈述中间步骤通常需要常识知识进行隐式推理。论文采用StrategyQA和TempQA。
•混合跳Mixed-Hop需要单跳或多跳推理的问题。论文使用论文构建的数据集PriorQA。
基线模型 论文评估了不同架构和规模的LLMLlama3-Instruct8B, 70B、Qwen2-7B-Instruct、Mistral7B, 8x7B、Vicuna-13B-v1.5、Llama2-13B和Baichuan2-13B。这使得论文能够全面评估各种维度上的噪声。每个模型的详细描述可在相应的Huggingface仓库的官方网站上找到。
实现细节 论文使用以下计算规格执行实验。
•NVIDIA A100 80 GB GPU × 2
•256 GB RAM
论文使用Python 3.10.0并通过vllm-加速推理这是一个快速且易于使用的库。
2.4.2 主要结果
首先论文讨论了多样化的RAG噪声的作用。虽然先前的工作研究了RAG噪声的有害影响但论文关注有益噪声。具体来说在揭示噪声的作用后论文评估了有益噪声在多个维度上的有效性包括模型架构、规模和RAG系统设计。然后论文研究有益噪声是否在其他噪声类型中提高性能并从统计上验证其有效性。
多样化的RAG噪声作用 表1展示了多种噪声类型前六种对两个最先进的开源模型Llama3-8B-Instruct和Qwen2-7B-Instruct的影响。论文观察到在多个数据集和检索噪声中一致的性能趋势。基于这些趋势论文可以将检索噪声分为两类噪声类型有害噪声反事实、支持性和正字法和有益噪声语义、数据类型和非法句子。论文发现
(1) 对于有害噪声反事实噪声对模型性能的影响最为显著因为它破坏了准确的事实辨别和答案生成。如图1所示虚假陈述“贝克汉姆是曼联的杰出球员”导致模型忽略正确信息并错误响应。
(2) 对于有益噪声非法句子噪声在模型性能提升方面表现最为突出。它分别使两个模型的准确率平均提高了3.32%和 1.65%并且在各种数据集上始终表现出色。
表2先验噪声对准确性的影响%。Base’表示没有检索的情况。Misleading’指与先验噪声相关的反事实内容。Background’表示将查询分解为其组成实体后获得的多个检索结果。 图 5非法句子噪声ISN对八个代表性大型语言模型LLMs在RGB数据集上的平均准确率的影响。Golden、ON、CN 和 DN 分别代表仅黄金上下文、黄金上下文加正字法噪声、反事实噪声和数据类型噪声。均值用红色实线标记中位数用紫色虚线标记。
对于先验噪声论文在数据集PriorQA上评估了八个大型语言模型LLM。PriorQA中的问题包含事实性错误例如“哪个国家举办了1980年世界杯”1980年并未举办世界杯。准确率是通过LLM是否正确识别并回答“该问题在事实上是错误的”来衡量的。如表2所示结果显示在处理先验噪声时八个LLM的平均准确率为79.93%。然而当模型未能识别先验错误并继续检索时性能大幅下降至34.20%。这凸显了在回答之前检测用户查询中的先验错误的重要性。 图 6三种噪声类型对准确率 ( Y_0 ) 在 RGB 上的影响。论文评估了在不同检索场景下的性能“仅黄金”仅黄金检索上下文“黄金 ON”黄金上下文 正字法噪声以及“黄金 SeN”黄金上下文 语义噪声。
有益噪声提升模型性能 论文考虑了两种模型架构图 5和 RAG 系统设计表 3以展示有益噪声在各种模型中的积极效果。论文在此展示了非法句子噪声的结果。此外由于先前研究已经强调了语义噪声的积极效果论文后续的讨论将聚焦于两种类型数据类型噪声和非法句子噪声。
(1) 不同架构和规模下的结果 如图 5 所示论文通过计算在无噪声、有害噪声例如 C N, ON和有益噪声例如 DN场景下的平均准确率评估了非法句子噪声ISN对八种不同架构和规模的LLM的影响。论文对CN数据应用比例缩放以便在同一图中更清晰地展示同时保持一致的结论。结果表明ISN在所有场景中显著提升了模型性能在有害噪声下提升最为显著。为了更好地说明某些噪声类型的影响这些影响在表格形式中可能不明显论文使用折线图图6在三种条件下绘制了它们在多个模型中的性能仅黄金标准、黄金标准 拼写噪声、以及黄金标准 语义噪声。这些可视化清晰地展示了拼写噪声的负面影响以及语义噪声带来的轻微性能提升。
(2) 噪声对专用RAG模型的影响 如表3所示引入非法句子噪声到专用RAG模型Self-RAGAsai等2024中在不同的数据集NQ、RGB和StrategyQA和场景无噪声、有害噪声和有益噪声中均持续提升了模型的表现。这进一步验证了有益噪声的正面效果。
总之基于论文的全面分析论文可以将非法句子噪声、数据类型噪声和语义噪声归类为有益噪声而反事实噪声、支持性噪声和拼写噪声则归类为有害噪声。 图7Llama3-8B-instruct 和 Qwen2-7B-instruct 模型在四个数据集上暴露于五种典型噪声类别时的非法句子噪声影响结果包括单跳S和多跳显式EM隐式IM推理任务。条形图显示了引入非法句子噪声后的性能差异。折线图展示了每个数据集在不同噪声类型下的平均准确度提升。
表 3有益噪声对 Self-RAG (13B) 的影响。论文通过提升的准确度比率 ( %) 评估性能并提供了加权平均值 (WA, %)。 有益噪声在其他噪声干扰下仍然有效 为了说明有益噪声在其他噪声干扰下的影响论文分析了非法句子噪声ISN在五种场景中的效果无噪声即仅黄金数据、有害噪声即黄金数据与反事实数据、仅反事实数据和黄金数据与拼写数据以及有益噪声即黄金数据与数据类型。图7展示了在这些场景中引入ISN后模型的准确性提升。论文发现ISN通常在所有数据集中都能提升性能特别是在与反事实噪声等有害噪声结合时平均准确性提升超过10个百分点。ISN在各种现实场景中的持续正面效应突显了其对未来RAG研究的重要潜力。Colan Dalaype 黄金数据与拼写数据
表4有益噪声存在与否场景间的差异统计显著性。 有益噪声具有统计显著性 为了统计评估有益噪声存在与否场景间的差异论文应用了非参数Wilcoxon符号秩检验。该方法有效测量差异的大小并检测两个条件间的统计显著性。论文测试了无显著差异的零假设( H_0 : difference0 与有显著差异的备择假设Hi : difference ≠0 )。根据Seth等人2023和Wu等人2023论文使用0.05的显著性水平。如表4所示所有p值均低于0.05使论文拒绝零假设( H_0 )。这些结果提供了强有力的统计证据表明有益噪声能提升模型性能。
2.4.3 探究有益噪声背后的机制
论文探究有益噪声为何能正面影响RAG系统。论文提出了三个假设有益噪声有助于
•H1: 更清晰和明确的推理过程Clearer and more explicit reasoning process
•H2: 更标准化的响应格式(More standardized response formats)
•H3: 增加对黄金上下文的信心(Increased confidence with golden context)
论文通过案例研究和统计分析验证了这些假设。
表5LLM输出在无有益噪声BN和有有益噪声BN情况下的示例。蓝色和绿色分别表示正确和错误的响应。引入BN后LLM表现出更清晰的推理过程、更标准化的响应格式以及对黄金上下文的更多关注。 图8有益噪声对LLM输出不确定性反自信度的影响。ISN’和DN’分别表示非法句子噪声和数据类型噪声。红色星号代表平均不确定性率u。*
案例研究 表5展示了Llama3-8B-instruct在多跳数据集Bamboogle上的完整推理和生成过程。当暴露于有害噪声而没有任何有益噪声时模型忽略了正确信息并在反事实噪声的影响下表现出逻辑缺陷。例如其错误陈述“其他选项是错误的因为它们提供了作者不同的出生日期。”然而在引入有益噪声后模型对黄金上下文表现出更高的关注并成功区分了正确与错误信息H1。论文假设有益噪声增强了LLM将参数化知识与检索信息整合的能力从而提高了其辨别真伪的能力。此外通过比较两种条件下的模型输出论文观察到有益噪声有助于更标准化的答案格式(H2)。
统计分析 为了统计验证三个假设论文采用两步过程。首先论文在引入有益噪声之前和之后收集来自多个数据集的模型输出。然后论文随机抽取每个数据集的100个样本手动评估哪种条件产生更标准化的输出格式和更清晰的推理过程。如果条件之间没有显著差异则认为输出相似。七个数据集的结果显示平均而言37个样本在有益噪声下表现出更清晰的推理而31个样本在没有有益噪声下(H1)同时26个样本在有益噪声下显示出更好的输出格式而23个样本在没有有益噪声下(H2)。
第二如图8所示论文分析了有益噪声对四个强大LLM输出不确定性的影响。结果表明当结合有益噪声ISN或DN时LLM通常表现出较低的不确定性和更高的输出置信度。这表明LLM更关注提供的黄金上下文并以更大的置信度进行响应H3。
读者福利如果大家对大模型感兴趣这套大模型学习资料一定对你有用
对于0基础小白入门 如果你是零基础小白想快速入门大模型是可以考虑的。 一方面是学习时间相对较短学习内容更全面更集中。 二方面是可以根据这些资料规划好学习计划和方向。 包括大模型学习线路汇总、学习阶段大模型实战案例大模型学习视频人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型
有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】
AI大模型学习路线汇总
大模型学习路线图整体分为7个大的阶段全套教程文末领取哈 第一阶段 从大模型系统设计入手讲解大模型的主要方法
第二阶段 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用
第三阶段 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统
第四阶段 大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统
第五阶段 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型
第六阶段 以SD多模态大模型为主搭建了文生图小程序案例
第七阶段 以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。
大模型实战案例
光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。 大模型视频和PDF合集
观看零基础学习书籍和视频看书籍和视频学习是最快捷也是最有效果的方式跟着视频中老师的思路从基础到深入还是很容易入门的。
学会后的收获
• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力
• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求
• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握
• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。
获取方式
有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】