当前位置: 首页 > news >正文

nginx伪静态 wordpress潍坊网站建设SEO优化

nginx伪静态 wordpress,潍坊网站建设SEO优化,中建国际建设有限公司官网,家居网站建设策划开发写在前面 检索增强能够有效缓解大模型存在幻觉和知识时效性不足的问题#xff0c;RAG通常包括文本切分、向量化入库、检索召回和答案生成等基本步骤。近期组里正在探索如何对RAG完整链路进行评估#xff0c;辅助阶段性优化工作。上周先对评估综述进行了初步的扫描#xff0…写在前面 检索增强能够有效缓解大模型存在幻觉和知识时效性不足的问题RAG通常包括文本切分、向量化入库、检索召回和答案生成等基本步骤。近期组里正在探索如何对RAG完整链路进行评估辅助阶段性优化工作。上周先对评估综述进行了初步的扫描本篇分享其中一份评估benchmarkRGB。 论文https://arxiv.org/abs/2309.01431 代码和数据https://github.com/chen700564/RGB RAG评估benchmark-RGB 写在前面1. 核心思想2. 评估维度和方式3. 评估数据构建4. 评估指标5. 实验和结论设置5.1 噪声鲁棒性5.2 拒绝能力5.3 信息整合能力5.4 反事实鲁棒性 6. 总结 1. 核心思想 检索增强生成(RAG)是有效的消除大模型幻觉的方法但已有工作缺乏RAG对不同大模型影响的评估因此构建检索增强生成的基准(Benchmark)RGB并设计4个维度的评估包括(1)噪声鲁棒性(2)拒绝能力(3)信息整合能力(4)反事实鲁棒性   2. 评估维度和方式 3. 评估数据构建 主要包括4个步骤 具体如下: 最终构建数据量600个基本问题200个扩展的整合问题200个反事实问题300中文、300英文   4. 评估指标 评估的是大模型的响应特定的响应(拒绝、发现错误)是写在prompt里的 准确率评估噪声鲁棒性和信息整合能力与答案精确匹配拒绝比例评估拒绝能力根据生成的响应含有I can not answer the question because of the insufficient information in documents.错误检测比例评估反事实鲁棒性根据生成的响应There are factual errors in the provided documents.错误矫正比例评估识别到错误信息后是否可以生成正确响应   5. 实验和结论 设置 每个问题设置5个候选文档(300tokens/个)噪声文档比例[0,0.8]随机6个LLMChatGPT (OpenAI 2022) ChatGLM-6B (THUDM 2023a), ChatGLM2-6B (THUDM2023b), Vicuna-7b-v1.3 (Chiang et al. 2023), Qwen-7BChat(QwenLM 2023), BELLE-7B-2M (Yunjie Ji 2023)prompt: 5.1 噪声鲁棒性 当输入给大模型的候选文档中包含1到多篇噪声文档(与问题相关但不能回答)时评估大模型抵抗噪声干扰的能力 随着含噪声文档的增加答案的准确率呈下降趋势那么噪声影响下错误产生的具体原因作者分析包括答案出现的距离远、证据不明确、概念混淆: 5.2 拒绝能力 当候选文档都不能回答问题时大模型最高的拒绝比例仅有45%→容易被误导 5.3 信息整合能力 当答案需要从多篇候选文档中抽取信息进行回复时评估大模型的信息整合能力   实验发现生成答复时存在的问题 使用一个子问题的正确答案回答所有子问题 忽略子问题只回答其中一个 子问题和候选文档匹配错误 原因大模型对复杂问题的理解能力有限妨碍了有效利用来自不同子问题的信息的能力 5.4 反事实鲁棒性 当输入给大模型的文档包含错误信息时评估大模型的拒绝能力 Acc是没有提供候选文档请LLM自己回答的准确率Acc_doc是增加含有错误信息的候选文档后的准确率 增加错误信息后大模型准确率迅速下降而且其错误和纠正错误的比例很低   6. 总结 这篇工作的测评是通过生成的答案来评估整体能力的不侧重RAG整个pipeline中某个步骤的提升给整体系统带来的效果由于其数据来源于网络所以除了常规的评估抗噪声、拒绝回答和整合能力之外还考虑了识别错误信息的能力 RAG包含多个步骤文档的切分粒度、向量化模型的选择、prompt的写法以及大模型本身的能力都会影响最终答案的生成因此理想的评估应该是控制变量的中间环节评估整个系统评估 具体工作中我们也发现了RAG的痛点在于当召回的文档与问题不那么相关、甚至文档包含干扰信息时chatgpt3.5容易被错误的信息指引生成错误的答案 还在提升的点让大模型更加准确、快速地理解if-else的能力。
http://www.pierceye.com/news/377188/

相关文章:

  • 龙岩网站开发较好的公司wordpress屏蔽首页
  • 有没有做美食的网站深圳网站建站公司
  • 学校网站建设需求分析调研表网站右侧信息跟随左侧菜单栏变化
  • 家乡网站建设策划案邢台哪里建网站
  • 网站建设实习收获青岛网上房地产网站
  • 简述电子政务网站设计的技术企业邮箱是什么类型的账户
  • 深圳网站建设公司元嘉定网站开发
  • 佛山外贸网站建设平台上传网站安装教程
  • c2c网站建设实例德国网站建设
  • 建网站支持设备是什么意思佛山中小企业网站建设
  • 网站建设与管理读后感宁德住房和城乡建设部网站
  • 贸易网站建站建设部网站社保联网
  • 住房城乡建设厅网站准考证如何建小企业网站
  • 葫芦岛市城乡建设局网站做什么样的网站
  • 铜山区规划建设局网站大学生心理咨询网站建设论文
  • 泸州本地网站建设扬州做网站公司
  • 镇江网站建设工作室怎么购买国外的域名
  • 广西南宁电商网站建设找客户信息的软件
  • 信阳网站开发公司2022中国互联网公司市值排名
  • 巨鹿县住房与城乡建设厅网站wordpress内容付费插件
  • 网站设计建设维护wordpress 仿搜狗百科
  • 做网站写的代号好跟不好的区别中国500强企业官网
  • html个人网站wordpress 后台 字数统计
  • 网站开发包括哪些技术网站后台框架模版
  • 济南地产行业网站开发长春网络推广
  • 网站建设全程揭秘网站建设费能抵扣吗
  • 网站开发用什么语言最安全网站的ftp在哪里可以查到
  • 物理结构网站我国网站建设现状
  • 毕设如何做网站tk网站免费
  • 做logo的著名网站一起做网商网站怎么样