网站建设分为哪几部分,企业网站内容,wordpress 怎么转英语,wordpress绝对路径QLORA: Efficient Finetuning of Quantized LLMs QLoRA论文概述前言#xff08;省流版本#xff09;摘要论文十问实验实验1数据集和模型实验结论 实验2数据集和模型实验结论 局限性模型尺度数据集其他微调方法 QLoRA论文概述
前言#xff08;省流版本#xff09; 微调需要… QLORA: Efficient Finetuning of Quantized LLMs QLoRA论文概述前言省流版本摘要论文十问实验实验1数据集和模型实验结论 实验2数据集和模型实验结论 局限性模型尺度数据集其他微调方法 QLoRA论文概述
前言省流版本 微调需要大量显存资源。 之前工作的量化大都是在推理而非训练。 实验中发现数据的质量比数量重要。 评估采用人类和GPT-4相结合。 提出了三个技术方案实现单个GPU微调65B模型达到和16位微调任务相同的性能 4-bit NormalFloatNF4量化QLORA使用一种新的数据类型NF4它在信息理论上最适合正态分布的权重并在实践中优于4-bit整数和4-bit浮点数。双量化QLORA采用双量化方法对量化常数进行第二次量化从而减少每个参数的内存占用。分页优化器QLORA引入了分页优化器在梯度检查点时防止内存溢出错误。这个方法使用NVIDIA统一内存特性在CPU和GPU之间自动进行页面到页面的传输以便在GPU内存不足时进行无错误的GPU处理。优化器状态分配分页内存然后在GPU运行内存不足时自动逐出到CPU RAM并在优化器更新步骤中重新分页到GPU内存。
摘要 我们提出了QLORA这是一种有效的微调方法它减少了内存使用足以在单个48GB GPU上微调65B参数模型同时保留完整的16位微调任务性能。 QLORA通过冻结的4位量化预训练语言模型将梯度反向传播到低秩适配器(Low Rank Adapters, LoRA)。我们最好的模型家族我们命名为Guanaco在Vicuna基准上优于之前所有公开发布的模型达到ChatGPT性能水平的99.3%而只需要在单个GPU上进行24小时的微调。 QLORA引入了许多创新来节省内存而不牺牲性能:(a) 4位NormalFloat (NF4)这是一种新的数据类型理论上对正态分布权重是最优的;(b)双量化通过量化量化常量来减少平均内存占用;©分页优化器来管理内存峰值。 我们使用QLORA对1000多个模型进行了微调提供了8个指令数据集、多种模型类型(LLaMA、T5)和常规微调无法运行的模型规模(例如33B和65B参数模型)上的指令跟随和聊天机器人性能的详细分析。 我们的结果表明即使使用比以前的SoTA更小的模型在小的高质量数据集上进行QLoRA微调也可以得到最先进的结果。我们提供了基于人类和GPT-4评估的聊天机器人性能的详细分析表明GPT-4评估是人类评估的廉价和合理的替代方案。 此外我们发现目前的聊天机器人基准并不值得信赖无法准确评估聊天机器人的性能水平。一个柠檬分析显示了与ChatGPT相比Guanaco失败的地方。我们发布了所有的模型和代码包括用于4位训练的CUDA内核 论文十问
论文试图解决什么问题 这篇论文试图解决大规模语言模型微调(finetuning)所需的巨大GPU内存问题,以使这类模型能在单GPU上进行微调。 这是否是一个新的问题 是的,这是一个新的问题。以前的工作主要集中在推理时的量化,而没有研究过训练和微调过程中的量化。 这篇文章要验证一个什么科学假设 这篇论文的核心科学假设是4比特量化微调可以不损失性能地实现16比特完全微调的效果。 有哪些相关研究如何归类谁是这一课题在领域内值得关注的研究员 相关研究包括语言模型量化、低秩适配器微调等。值得关注的研究员有Tim Dettmers、Luke Zettlemoyer等。 论文中提到的解决方案之关键是什么 关键的解决方案是提出了4比特NormalFloat数据类型,以及双量化和分页优化器等技术。这些技术协同工作,实现了高精度的4比特量化。 论文中的实验是如何设计的 设计了不同模型结构、数据集和模型规模的比较实验,通过学术基准测试验验证了方法的有效性。 用于定量评估的数据集是什么代码有没有开源 使用的数据集包括GLUE、Super-Natural Instructions等,代码已在GitHub上开源。 论文中的实验及结果有没有很好地支持需要验证的科学假设 是的,详细的实验结果充分验证了4比特量化微调能够不损失性能地实现16比特完全微调的效果这个核心科学假设。 这篇论文到底有什么贡献 这篇论文的主要贡献是首次证明了4比特量化微调的有效性,并在此基础上训练出新状态的聊天机器人模型。 下一步呢有什么工作可以继续深入 后续可继续研究不同bit精度下的量化微调效果、在更大模型尺寸下的验证,以及在其他任务上的探索等。 实验
实验1
数据集和模型 GLUE、Super-Natural Instructions RoBERTa-large 、T5 实验结论 我们的结果一致表明具有NF4数据类型的4位QLORA在学术基准测试中具有良好的评估设置与16位全调优和16位LoRA调优性能相匹配。我们还表明NF4比FP4更有效双量化不会降低性能。综合起来这形成了令人信服的证据证明4位QLORA调优可靠地产生与16位方法相匹配的结果。 实验2
数据集和模型 MMLU:这是一个选择题基准涵盖57个任务包括小学数学、美国历史、计算机科学、法律等。 Alpaca、FLAN V2 实验结论 在Alpaca和FLAN v2上对不同数据类型的适配器进行微调后LLaMA 7-65B模型的平均5次MMLU测试精度。总体而言具有双量化(DQ)的NF4与BFloat16性能相当而FP4始终比两者落后一个百分点。 局限性
模型尺度 在33B和65B模型尺度上QLORA可能无法完全匹配16位全微调性能。这主要是由于资源成本巨大 数据集 虽然在MMLU、Vicuna基准和OA基准上进行了评估但在BigBench、RAFT和HELM等其他基准上没有进行评估因此无法确保评估结果推广到这些基准。 其他微调方法 除了LoRA之外还有各种各样的参数有效微调(PEFT)方法没有参与到评估中。