清远 网站建设,网站建设企业模板丫,网站编辑怎么做,做房产的网站1、引入动机
llm大模型在回答一些问题上表现出了惊人的能力#xff0c;例如数学逻辑推理#xff0c;代码生成#xff0c;问题答复等。提词工程是和大预言模型交流的一门艺术。
大模型的返回结合和用户的指令和输入直接相关prompts是用户和大模型沟通的一种编码方式
一般地…1、引入动机
llm大模型在回答一些问题上表现出了惊人的能力例如数学逻辑推理代码生成问题答复等。提词工程是和大预言模型交流的一门艺术。
大模型的返回结合和用户的指令和输入直接相关prompts是用户和大模型沟通的一种编码方式
一般地提供的指令或任务越精确模型回答的越好越符合用户的预期。为此论文
《Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4》提出了26个原则这些原则增强了LLM关注输入上下文关键元素的能力从而生成高质量的响应。 2、相关工作
2.1、llm模型
google bert引入transformer的encoder编码理解自然语言打开了pretrain-finetuning模式t5引入一个框架将各类任务集成到一个模型中。后续依赖于transformer decoder自编码预训练模型gpt1、gpt2、gpt3陆续诞生。chatgpt3.5 横空出世推动了生成式大模型热潮。随后为实现低资源高效率Meta’s LLaMA被大量工厂应用。chatgpt4等生成式模型提高了chatgpt3.5的数据应用能力及图像处理能力。
2.2、提词工程
提词工程是一门与llm模型交流的艺术大模型会根据输入给出一个输出结果。输入的不同会得到不同的输出结果。
2.3、26个提词规则
与LLM交流时无需使用礼貌性语言如“请”、“如果你不介意”、“谢谢”等直接陈述要点。在提示中整合预期的听众例如“听众是该领域的专家”。将复杂任务分解为一系列更简单的提示并通过互动式对话进行。使用肯定的指令如“做”避免使用否定语言如“不要”。当你需要清晰理解某个主题、想法或任何信息时使用以下提示简单地解释[具体主题]。像我是11岁的孩子一样向我解释。像我是[领域]新手一样向我解释。使用简单的英语写[论文/文本/段落]就像你在向5岁的孩子解释一样。添加“I’m going to tip $xxx for a better solution!”我会给xxx小费以获得更好的解决方案。实施示例驱动的提示使用少数示例提示。在格式化提示时首先使用‘###Instruction###’然后是‘###Example###’或‘###Question###’如果相关然后呈现内容。使用一个或多个换行符来分隔指令、示例、问题、上下文和输入数据。加入以下短语“Your task is”你的任务是和“You MUST”你必须。加入以下短语“You will be penalized”你将受到惩罚。在提示中使用短语“Answer a question in a natural human-like manner”以自然的人类方式回答问题。使用引导性词汇如写“think step by step”逐步思考。在你的提示中添加以下短语“Ensure that your answer is unbiased and does not rely on stereotypes”确保你的回答是无偏见的不依赖于刻板印象。允许模型通过向你提问直到获得足够的信息来提供所需输出例如“From now on I would like you to ask me questions to...”从现在开始我希望你向我提问直到...。要了解特定主题或想法或任何信息并且你想测试你的理解你可以使用以下短语“Teach me the [Any theorem/topic/rule name] and include a test at the end but don’t give me the answers and then tell me if I got the answer right when I respond”教我[任何定理/主题/规则名称]并在最后包括一个测试但不要给我答案然后在我回答时告诉我是否正确。为大语言模型分配一个角色。使用分隔符。在提示中多次重复特定单词或短语。结合思维链CoT与少数示例提示。使用输出引导器它涉及以期望输出的开始结束你的提示。通过以预期响应的开始结束你的提示来使用输出引导器。要编写详细的[论文/文本/段落/文章]或任何需要详细的文本类型“为我详细写一篇关于[主题]的详细[论文/文本/段落]添加所有必要的信息”。要更正/更改特定文本而不改变其风格“尝试修改用户发送的每个段落。你只应该改善用户的语法和词汇确保它听起来自然。你不应该改变写作风格例如将正式段落变得非正式”。当你有一个可能涉及不同文件的复杂编码提示时“从现在开始每当你生成跨越多个文件的代码时生成一个[编程语言]脚本可以运行以自动创建指定的文件或对现有文件进行更改以插入生成的代码。[你的问题]”。当你想使用特定单词、短语或句子开始或继续文本时使用以下提示我为你提供了开始[歌词/故事/段落/论文...][插入歌词/单词/句子]。根据提供的词汇完成它。保持流畅一致。1清楚地陈述模型必须遵循的要求以产生关键词、规则、提示或指令形式的内容。2要编写任何文本如论文或段落其内容与提供的示例类似包括以下指令3请根据提供的段落[/标题/文本/论文/答案]使用相同的语言。明确陈述模型必须遵循的要求以便根据关键词、规则、提示或指令产生内容。要写任何文本如文章或段落且内容与提供的样本相似请包含以下指示请根据提供的段落[/标题/文本/文章/答案]使用相同的语言基础。 2.4、5个分类
原则概览如表1所示。根据其独特的性质论文将其分为5个类别如表2所示
(1)提示结构和明确性例如在提示中整合意图受众如听众是该领域的专家;
(2)具体性和信息量例如在提示中添加以下短语“确保您的答案没有偏见不依赖于成见”;
(3)用户交互和参与例如允许模型通过询问您问题来获取精确的详细信息和需求直到他有足够的信息来提供所需的输出“从现在开始我想让你问我问题来......”。
(4)内容和语言风格例如与LLM交互时不需要礼貌因此不需要添加像“请”、“如果你不介意”、“谢谢”、“我想”等词组直接切入主题;
(5)复杂任务和编码提示例如通过交互对话将复杂任务分解成一系列更简单的提示。 2.6、设计原则
在这项研究中建立了一些制定提示和指令的指导原则以便从预训练的大型语言模型中获得高质量的响应
简洁明了过于冗长或模糊的提示会使模型感到困惑或导致无关的响应。因此提示应该简明扼要避免不必要的信息不会对任务做出贡献但必须足够具体以指导模型。这是提示工程的基本原则指导。
与上下文的相关性提示必须提供相关的上下文帮助模型理解任务的背景和领域。包括关键词、特定领域的术语或情境描述可以将模型的响应锚定在正确的上下文中。我们在提出的原则中强调了这种设计理念。
任务匹配性提示应该与当前任务紧密匹配使用语言和结构清楚地向模型指明任务的性质。这可能涉及将提示表述为问题、命令或填空语句这与任务的预期输入和输出格式相匹配。
示例演示对于更复杂的任务在提示中包含示例可以演示所需的响应格式或类型。这通常涉及显示输入-输出对特别是在“少样本”或“零样本”学习场景中。
避免偏见提示应该设计得尽可能减少模型由于其训练数据而固有的偏见激活。使用中立的语言注意潜在的伦理影响尤其是对敏感主题。
渐进提示对于需要一系列步骤的任务可以将提示结构化以通过渐进地引导模型完成过程。将任务分解为一系列相互建立的提示一步一步地指导模型。此外提示应该可根据模型的性能和迭代反馈进行调整即需要做好根据初始输出和模型行为调整提示的准备。
此外提示应该可根据模型的性能和响应以及迭代的人类反馈和优先级进行调整。
最后更高级的提示可以融入类似编程的逻辑来完成复杂任务。例如在提示中使用条件语句、逻辑运算符甚至伪代码来指导模型的推理过程。
提示的设计是一个不断发展的领域随着语言模型变得越来越复杂尤其如此。随着研究人员继续探索通过提示工程可以实现的极限这些原则可能会得到精炼和扩展。
3、实验结果
3.1、实验数据
ATLAS手工制作的基准测试它包含了每个原则的20个人类选择的问题有和没有应用原则的提示
3.2、实验指标
实验分为两个部分提升Boosting和正确性Correctness。 提升是通过人类评估来评估应用所述原则后不同LLM响应质量的提高。原始未修改的提示作为衡量这种提高的基准。 正确性涉及模型输出或响应的准确性确保它们准确、相关且无误也是通过人类评估来衡量。
3.3、实验对比
采用规则1和不采用规则1的20个问题10个结果对比
https://github.com/VILA-Lab/ATLAS/blob/main/data/principles/w_principle_1.json
https://github.com/VILA-Lab/ATLAS/blob/main/data/principles/wo_principle_1.json
图2在提示中使用第13原则后LLM响应的提升示例 图3在提示中使用引入的第7原则后LLM响应的正确性改进示例 图4在提示中采用引入的原则后LLM响应质量的提升。小规模指7B模型中等规模指13B模型大规模指70B和GPT-3.5/4模型 图5在提示中采用引入的原则后LLM响应质量的正确性改进。小规模指7B模型中等规模指13B模型大规模指70B和GPT-3.5/4模型 图6在ATLAS数据集上各种LLM的提升得分 图7在ATLAS数据集上的正确性改进得分 图10LLM改进百分比的热图说明 图11LLM正确率百分比的热图说明 图13在提示中使用引入的原则后小规模LLaMA-2-7B模型的正确性改进 图14在提示中使用引入的原则后小规模LLaMA-2-7B模型的正确性改进 图15在提示中使用引入的原则后中等规模LLaMA-2-13B模型的正确性改进 图16在提示中使用引入的原则后中等规模LLaMA-2-13B模型的正确性改进 4、参考文章
指令原则大解锁26条Prompt黄金法则精准提问显著提升ChatGPT输出质量
一文看懂chatGPT3.5和chatGPT4的区别 - 知乎
https://arxiv.org/pdf/2312.16171.pdf 代码地址 https://github.com/VILA-Lab/ATLAS
什么是提示词工程通俗版理解 - 知乎
【LLM】最大化LLaMA-1/2 GPT-3.5/4 提示效果的方法 - 知乎
指令原则大解锁26条Prompt黄金法则精准提问显著提升ChatGPT输出质量 - 知乎