如何创建网站挣钱,一起装修网口碑怎么样,18款禁用app软件免费大全,360网站在系统那里本文是LLM系列文章#xff0c;针对《Parallel Context Windows for Large Language Models》的翻译。 大语言模型并行上下文窗口 摘要1 引言2 并行上下文窗口3 上下文学习的PCW4 PCW用于QA5 相关工作6 结论和未来工作不足 摘要
当应用于处理长文本时#xff0c;大型语言模型…本文是LLM系列文章针对《Parallel Context Windows for Large Language Models》的翻译。 大语言模型并行上下文窗口 摘要1 引言2 并行上下文窗口3 上下文学习的PCW4 PCW用于QA5 相关工作6 结论和未来工作不足 摘要
当应用于处理长文本时大型语言模型LLM受到其上下文窗口的限制。现有的解决这一限制的努力涉及训练专门的体系结构并且不能很容易地应用于现成的LLM。我们提出了并行上下文窗口PCW这是一种在没有进一步训练的情况下减轻任何现成LLM的上下文窗口限制的方法。该方法的关键是将长上下文分割成块“窗口”将注意力机制限制为仅在每个窗口内应用并在窗口之间重复使用位置嵌入。我们的主要结果测试了PCW方法在上下文学习中的应用模型的大小在7.5亿到1780亿个参数之间并显示出对具有不同输入和输出空间的任务的显著改进。我们在长上下文窗口可能有益的其他设置中展示了额外的好处多跳问题和使用多个检索到的文档的检索增强问答。我们的研究结果强调并行上下文窗口是一种很有前途的方法可以在一系列需要长文本序列的设置中应用现成的LLM。我们在https://github.com/ai21labs/parallel-context-windows.
1 引言
2 并行上下文窗口
3 上下文学习的PCW
4 PCW用于QA
5 相关工作
6 结论和未来工作
近年来已经提出了许多成功的方法允许基于Transformer的语言模型在推理过程中利用大量文本从而产生了各种专用的体系结构。然而与此同时具有“常规”多达数千个token上下文窗口大小的新模型的主流LLM生产线在扩展、创新和数据更新方面进展更快。 本文介绍了并行上下文窗口PCW一种简单的方法允许任何现成的LLM在推理过程中扩大其可以访问的文本范围。我们展示了PCW在上下文学习框架中的有效性其中访问一个大B因子的上下文意味着从B倍的训练例子中学习。我们的结果表明在一组广泛的多类分类任务中PCW比普通的单上下文窗口方法更有效地进行上下文内学习这表明PCW可以在具有不同输入或输出空间的任务中改进上下文内学习。我们还展示了将PCW应用于多检索文档读取的有希望的信号。 我们认为未来工作的两个关键方向特别有希望。首先通过证明现成的LLM可以通过PCW处理大量的文本我们的结果激励了在其他环境中对PCW方法的进一步研究在这些环境中希望将主流LLM应用于长文本序列。其次尽管我们的研究结果表明PCW在没有进一步训练的情况下是有效的但我们相信对具有并行上下文窗口的LLM进行进一步短期训练可以进一步增强这项工作中展示的能力。
不足
我们提出了并行上下文窗口PCW这是一种简单的方法可以减轻任何现成LLM的上下文窗口限制而无需额外的训练。我们在各种模型和数据集上展示了这种方法的潜力。因此我们的方法确实有一些局限性。 上下文窗口的数量是有限制的并且需要预先确定。与普通上下文学习类似必须事先选择要包含在提示中的示例数量。对于PCW还需要选择上下文窗口的数量B。在本文中大多数结果都是B3。我们在附录C中对B的选择进行了实验。结果取决于任务但在高水平上我们发现B周围的回报在5到7之间递减。我们将进一步研究如何有效地从未来工作的更多窗口中获益。 并非对所有类型的任务都有效。如第3节所述PCW在ICL中显示了令人印象深刻的优势用于多类任务分类和信息提取等任务。但是对于某些任务PCW并不能提高性能。这可能表明某些任务不适合并行处理。第4.2节表明PCW更适用于输入文本可以划分为几个独立输入的情况但长文本生成等任务是否会从PCW中受益仍然是一个悬而未决的问题。