做海产品的外贸网站,传媒公司主要做什么,企业网站黄页怎么做,天津网站制作推广研究背景
论文针对的主要问题是如何将预训练的大型语言模型#xff08;LLMs#xff09;适应特定领域的检索增强生成#xff08;RAG#xff09;。这些模型通常在广泛的文本数据上进行预训练#xff0c;已经表现出在广义知识推理任务上的优越性能。然而#xff0c;在特定领…研究背景
论文针对的主要问题是如何将预训练的大型语言模型LLMs适应特定领域的检索增强生成RAG。这些模型通常在广泛的文本数据上进行预训练已经表现出在广义知识推理任务上的优越性能。然而在特定领域如法律、医学或最新新闻等普遍的知识推理不足以满足精确性的要求因此需要对这些模型进行适应性调整以增强其在这些领域内的应用性能。
研究目标
研究的主要目标是通过新的训练方法——RAFTRetrieval Augmented Fine Tuning提高LLMs在特定领域的性能。RAFT方法旨在通过链式思考风格的答案生成来提高模型对问题的理解和回答质量同时确保模型能够有效地从相关文档中提取信息并忽视那些无助于问题解答的干扰文档。
相关工作
研究背景部分详细讨论了现有的技术和挑战特别是在RAG和监督式微调SFT的应用上。现有的RAG方法允许模型在回答问题时引用文档但这些方法未能利用固定领域设置中的学习机会。监督式微调提供了学习文档中更通用模式的机会更好地与结束任务和用户偏好对齐但现有的微调方法在测试时未能考虑检索过程中的不完美。
方法论
数据处理
在RAFT中训练数据的准备非常关键。每个数据点包括一个问题Q、一组文档Dk以及一个从文档中生成的链式思考风格的答案A*。这些文档分为“oracle”文档D*即可以从中推导出问题答案的文档和“干扰”文档Di即不包含答案相关信息的文档。示例如下
解决方案
RAFT的核心是一个修改版的一般指令微调方法。通过精心设计的训练数据和模型微调过程模型被训练为基于问题和提供的文档来生成答案同时忽略那些干扰文档。这种方法的目标是提高模型在特定域内的性能即在域特定的开放书本设置中更有效地使用RAG。
实验
实验设计
实验部分使用多个数据集来评估RAFT的性能并将其与其他基线模型进行比较例如LlaMA2-7B聊天模型和域特定的微调模型。这些数据集包括自然问题NQ、Trivia QA和HotpotQA等涵盖从通用知识到特定领域的不同类型。
数据
数据描述PubMed医学QA问题。二分类问题Natural Questions (NQ)通用领域HotpotQA通用领域Trivia QA通用领域HuggingFace编程的api领域Torch Hub编程的api领域TensorFlow Hub编程的api领域
实验结论 RAFT在多个评估任务上表现出色尤其是在包含干扰文档的设置中。实验结果显示与其他基线相比RAFT在提取信息和处理干扰文档方面具有更高的鲁棒性和准确性。注DSF是指对LlaMA2-7B-chat直接进行SFTquery-answer预测时没有参考内容预测时直接输入问你题。 2. 有了思维链结合推理链不仅可以引导模型找到答案还可以丰富模型的理解从而提高整体准确性。 在实验中整合思想链显着增强了训练的稳健性。 3. 训练集中适当包含一定比例的不相关文档会提高性能但数量并不是绝对的需要看具体的数据集如在NQ数据集上正负配比是13HotpotQA数据上是11。 参考资料
原文代码