中国广告网站,医院网站建设的意义,美图秀秀网页版在线使用,个人网站制作设计分享一篇RAG综述#xff1a;Retrieval-Augmented Generation for Large Language Models: A Survey#xff0c;主要想了解一下RAG的评估方法#xff0c;分享给大家。 文章目录 一、RAG分类二、评估方法三、未来方向 一、RAG分类
RAG分类#xff1a;Navie RAG、Advanced RA… 分享一篇RAG综述Retrieval-Augmented Generation for Large Language Models: A Survey主要想了解一下RAG的评估方法分享给大家。 文章目录 一、RAG分类二、评估方法三、未来方向 一、RAG分类
RAG分类Navie RAG、Advanced RAG 、Modular RAG
Navie RAG是一个最简单的RAG系统包括检索模块和生成模块。Advance RAG主要在Navie RAG的pre-trieval和post-trieval上做改进pre-trieval上的改进比如query改写子query查询query扩展CoVE Chian-of-Verifiation拓展之后的查询经过LLM的验证,达到减少幻觉的作用query路由是否使用RAG以及使用哪个RAG等。post-trieval上的改进包括rerankercontext压缩等。Modular RAG是基于Navie RAG和Advance RAG的一种进阶的RAG太相较于前两个RAG更加自由和灵活性。他通过引入新的模块和新的模式实现多功能性。引入模块包括查询模块记忆模块等新的检索模式包括采用迭代检索、递归检索以及自适应检索。
二、评估方法
Retrieval QualityMetrics such as Hit Rate, MRR, and NDCG are commonly utilized for this purpose MMR Mean Reciprocal Rank 平均倒排率是一个用于评估推荐系统排序性能的指标。它考虑了用户实际点击的推荐项在推荐列表中的位置。MRR 的计算方式是取用户的每个查询或推荐请求的倒1/x数排名的平均值。这个指标更加关注推荐项的排名越靠前的推荐项影响越大。Hits Rate命中率前k项中包含正确信息的项的数目占比NDCG Normalized Discounted Cumulative Gain 归一化折损累积增益评估推荐系统排序性能的指标但相比于 MRRNDCG考虑了推荐项的相关性。它通过考虑推荐列表中每个位置上的推荐项的相关性分数以及位置权重计算一个归一化的累积增益。 Generation Qualityunlabeled and labeled content. unlabeled contentfaithfulness, relevance, and non-harmfulness忠诚性相关性无害性labeled contentaccuracy
检索和生成的各项指标都可以通过手动或者自动的方式进行评估。
人工评估人工评审员检查模型生成的文本是否与输入内容或知识库相符确保没有显著的事实错误。自动化验证 对于忠诚性使用事实核查工具或外部数据库如维基百科、新闻源来验证模型的输出。对于相关性将相关性问题转化为分类问题来自动评估。例如可以训练一个二分类模型相关/不相关或多分类模型非常相关/中等相关/不相关然后使用该模型对模型输出进行评估。对于无害性 使用自然语言处理NLP技术或训练的分类模型来检测模型输出是否包含有害内容。可以基于情感分析、恶意内容分类等进行自动评测。
三、未来方向
RAG仍然是需要的有大模型的地方就会有RAGRAG的稳健性是一个未来方向》错误的信息比没有信息更糟糕RAG系统应该能有对反事实或者矛盾信息产生抵抗力。面向生产的RAG信息源泄露信息安全面向用户的低代码RAG。多模态RAG利用RAG检索图片、音视频和代码