做网站编程,广告传媒公司业务范围,哪里网站建设公司好,怎么把自己做的网站上传到网上随着用户需求的增多#xff0c;GPT-4、Claude等模型在文本生成、理解、总结等方面的能力越来越优秀。但推理的效率并不高#xff0c;因为#xff0c;多数主流模型采用的是“顺序生成词”方法#xff0c;会导致GPU利用率很低并带来高延迟。
为了解决这一难题#xff0c;清…随着用户需求的增多GPT-4、Claude等模型在文本生成、理解、总结等方面的能力越来越优秀。但推理的效率并不高因为多数主流模型采用的是“顺序生成词”方法会导致GPU利用率很低并带来高延迟。
为了解决这一难题清华和微软研究院开发了一种SoTSkeleton-of-Thought思维骨架框架并开源了项目。SoT首先引导大语言模型生成答案的骨架然后使用并行API调用或批量解码来完成内容每个骨架点的填充可极大提升模型的推理效率。
为了验证SoT的效果研究人员在Vicuna-80和WizardLM两个对话数据集上测试了12个模型包括GPT-4、LLaMA、Claude等。
数据显示在SoT的帮助下大多数模型的推理延迟减少了1.5—2.4倍。例如在Vicuna-80数据集上使LLaMA的33B参数量模型的推理延迟从43秒降低到16秒。除了效率的提升,研究人员发现SoT可以提高模型的回答质量。
开源地址https://github.com/imagination-research/sot/
论文地址https://arxiv.org/abs/2307.15337 SoT的最大创新点在于采用了一种拟人化的思考方式。通常人类在回答某个问题时会先根据某些原则和策略拟定思路框架,然后再扩充每个要点的细节。
例如我们在制定公司发展战略时会先制定一个大的框架然后分模块具体去执行。
这种方法比一步一步的顺序生成方法高效的多。所以SoT的技术架构也并不复杂主要由骨架生成和内容填充两大部分组成。 骨架生成
该模块就是直接生成内容的整体架构。骨架生成模块使用了特制的提示模板,指导语言模型直接输出骨架。
提示模板明确要求语言模型用1.,2.,3.等序号的形式输出3-10个要点,每个要点内容保持在3-5个词的长度。 同时提供了完整的任务描述,确保语言模型理解所要完成的工作,以及部分回答“1.”来让语言模型遵循正确的格式继续书写。
由于语言模型生成的骨架回复大多符合预期的编号要点格式,因此可以用正则表达式提取出要点及其内容。
内容补充
当模型拿到骨架后SoT会为每个编号要点并行地生成详细内容。内容补充也使用特制的提示模板。 提示模板明确要求语言模型只关注扩展指定的要点,并用1-2句很短的话完成扩展。同时提供了原问题、已生成的完整骨架和要扩展的要点序号及内容,确保语言模型理解上下文。
为了实现推理效率加速SoT采用了批量解码或并行API请求,使语言模型并行地扩展多个要点,大大缩短获取最终回答所需的时间。
研究人员表示SoT这种从内容结构优化的方法将比其他系统底层、架构的方法简单、高效的多。尤其是随着内容产出的高速增长发挥的作用也会越发明显。
但SoT也存在一些不足的地方例如当逻辑推理需要前后步骤之间的相互依赖时SoT会自动切换至顺序生成模式。
本文素材来源SoT论文如有侵权请联系删除