网页上做ppt的网站好,南昌企业网站建设公司,网站建设与推广 范文,东昌府聊城做网站费用MiniGPT-5: Interleaved Vision-And-Language Generation via Generative Vokens
摘要
近年来#xff0c;大型语言模型(LLM)在自然语言处理(NLP)领域的突破性进展引起了全球AI开发者的关注。这些模型在文本生成和理解方面设定了新的基准。然而#xff0c;尽管在文本生成方面…MiniGPT-5: Interleaved Vision-And-Language Generation via Generative Vokens
摘要
近年来大型语言模型(LLM)在自然语言处理(NLP)领域的突破性进展引起了全球AI开发者的关注。这些模型在文本生成和理解方面设定了新的基准。然而尽管在文本生成方面取得了进步但生成与文本叙述连贯匹配的图像仍然具有挑战性。为了解决这一问题开发者引入了一种基于“生成性vokens”的创新视觉和语言生成方法弥合了文本-图像输出的鸿沟。
MiniGPT-5的基础是一种两阶段训练策略重点在于无需描述的多模态数据生成其中训练数据不需要任何全面的图像描述。此外为了提高模型的完整性模型还采用了无分类器指导系统以提高voken对图像生成的有效性。在初始阶段MiniGPT-5框架在MMDialog数据集上训练的基线Divter模型上表现出强大的性能和实质性的改进并在VIST数据集上的人为评估中不断展示出其能够提供可比较甚至更优的多模态输出的能力进一步突显了其在各种基准测试中的性能和效率。
MiniGPT5简介
随着LLM框架的最新发展以及基于这些LLM框架的应用多媒体特征集成领域已经见证了其受欢迎程度的提升它也被证明是推动从最先进的内容创作工具到最先进的多模态对话代理的广泛应用的关键进步。随着持续的研究和开发语言和视觉模型已经发展到可以无缝生成文本和视觉数据的阶段。LLM生成多模态数据的能力将有助于增强电子商务、媒体和虚拟现实等不同领域的交互。最终目标是使模型能够使用文本和视觉模态以一致和逻辑的方式合成、识别和响应从而在信息流和创建逻辑一致的故事中发挥关键作用。实现文本和视觉模态的融合主要是由LLM中更流畅、集成和交互式多模态交互的需求驱动的最终实现交替的语言和视觉生成。然而在LLM中实现集成和交互式多模态交互是一项复杂的任务充满了许多挑战包括
尽管当前的LLM在文本生成和处理文本-图像对方面非常高效和有能力但它们在生成图像方面的表现并不令人满意。
这些视觉和语言模型的发展严重依赖于以主题为中心的数据这使得模型难以将生成的文本与其对应的图像对齐。
最后需要提出更有效的策略因为随着其能力的提高LLM在执行下游任务时的内存需求也在增加。
MiniGPT-5框架是一种交错语言和视觉生成算法技术引入了“生成性vokens”的概念试图解决上述挑战。MiniGPT-5框架提出了一种新的多模态数据生成方法通过将大型语言模型与稳定扩散技术相结合并使用特殊的视觉标记。MiniGPT-5框架所采用的两阶段训练方法强调了基础阶段无需描述的重要性并准备使模型即使在数据有限的情况下也能提供高效的性能。
方法、架构和框架
为了使大型语言模型具有多模态数据生成能力MiniGPT-5模型引入了一个框架旨在整合文本到图像生成模型和预训练的多模态大型语言模型。MiniGPT-5框架进一步引入了“生成性vokens”这是一种特殊的视觉标记允许开发人员直接在原始图像上进行训练以解决不同领域出现的差异。为了进一步提高LLM生成的多模态数据的质量MiniGPT-5框架引入了无分类器策略并结合了先进的两阶段训练方法。
多模态输入阶段
LLM的最新发展已经使LLM具有了多模态理解能力能够将图像作为顺序输入进行处理。MiniGPT-5框架使用专门设计的生成性vokens来输出视觉特征试图扩展LLM的多模态理解能力到多模态数据生成。此外MiniGPT-5框架使用参数高效和前沿的微调技术在LLM框架中进行多模态输出学习。
多模态编码
MiniGPT-5框架中的预训练视觉编码器将每个输入图像转换为一个特征每个文本标记都被嵌入为一个向量当这些嵌入被连接在一起时输入提示特征就会被生成。
在大型语言模型中添加Vokens
传统上大型语言模型的词汇表只包含文本标记这就是为什么MiniGPT-5框架的开发人员必须弥合生成性和传统LLM之间的差距。MiniGPT-5框架向LLM的词汇表中引入了一组特殊的标记作为生成性标记。然后该框架利用LLM的这些特殊vokens的隐藏输出状态进行后续的图像生成插入交错图像由vokens的位置表示。
参数高效微调(PEFT)
参数高效微调(PEFT)是训练LLM的一个关键概念然而PEFT在多模态设置中的应用在很大程度上仍未被探索。MiniGPT-5框架使用参数高效微调对MiniGPT-4框架的编码器进行训练以便使模型更好地理解提示或指令甚至提高模型在零样本或新环境中的整体性能。
多模态输出生成
为了准确地将生成模型与生成性标记对齐MiniGPT-5框架制定了一个紧凑的映射模块来匹配维度并纳入了监督损失包括潜在扩散模型损失和文本空间损失。潜在扩散监督损失直接将适当的视觉特征与标记对齐而文本空间损失帮助模型学习标记的正确位置。由于MiniGPT-5框架中的生成性vokens直接由图像引导因此MiniGPT-5框架不需要图像具有全面的描述从而实现了无需描述的学习。
文本空间生成
MiniGPT-5框架遵循随意语言建模方法在文本空间中联合生成vokens和文本在训练阶段开发人员将vokens附加到地面真实图像的位置并训练模型在文本生成中预测vokens。
映射Voken特征进行图像生成
在生成文本空间后框架将隐藏输出状态与文本到图像生成模型的文本条件特征空间对齐。该框架还支持一个特征映射器模块包括一个双层的MLP模型一个可学习的解码器特征序列以及一个四层的编码器-解码器转换器模型。
使用LDM或潜在扩散模型进行图像生成
为了在去噪过程中生成所需的图像该框架使用映射特征作为条件输入。该框架还使用LDM或潜在扩散模型进行指导在训练阶段首先使用预训练的VAE将地面真实图像转换为潜在特征然后开发人员通过添加一些噪声来获得潜在噪声特征。
MiniGPT-5框架的全面方法使开发人员能够对视觉和文本元素进行连贯的理解和生成使用专门的标记利用预训练模型的能力并使用创新的训练技术。
训练和结果
在开发MiniGPT-5框架时开发人员观察到直接在有限的交错文本-图像数据集上进行训练可能会导致图像质量降低并且由于图像和文本域之间的显著域偏移导致图像与文本不对齐。为了缓解这一问题开发人员采用了两种不同的训练策略
采用无分类器指导技术在扩散过程中提高生成性标记的有效性。第二种策略进一步分为两个阶段 初始预训练阶段主要关注对齐粗略特征。微调阶段促进特征学习。
无分类器指导(CFG)
首先利用CFG进行多模态生成的想法是为了增强生成图像和文本之间的一致性和逻辑性CFG是在文本到图像扩散过程中引入的。这种方法观察到通过在无条件生成和条件生成下进行训练并使用条件丢弃生成模型可以实现增强的条件结果。
两阶段训练策略
鉴于文本-图像生成与纯文本生成之间存在显著的域偏移MiniGPT-5框架使用了两阶段策略进行训练
单模态对齐阶段(UAS)多模态学习阶段(MLS) 在初始阶段该框架将图像生成特征与voken特征在单文本-图像对数据集中对齐其中每个数据样本只包含一个文本和一个图像文本通常是图像的标题。在这个阶段该框架允许LLM通过使用标题作为LLM输入来生成vokens。
一旦UAS成功执行该模型可以为单个文本描述生成图像但在交错语言和视觉生成方面存在困难包括文本-图像对和复杂的推理需要生成图像和文本。为了克服这个障碍开发人员进一步使用PEFT参数对MiniGPT-5框架进行了微调使用像VIST这样的交错视觉-语言数据集。在这个阶段该框架从数据集中构建了三个不同的任务
仅文本生成根据下一个图像生成相关文本。仅图像生成根据下一个文本生成相关图像。多模态生成使用给定上下文生成文本图像对。
基准测试和结果
为了全面评估其在多模态生成方面的性能MiniGPT-5开发团队将其性能与其他几个突出的基准模型进行了比较包括Divter、GILL和微调的单模态生成模型比较结果如下表所示。
MiniGPT-5框架理解到多模态输出可能根据上下文有意义但它可能与现实世界不同这是MiniGPT-5框架还纳入人类输入来评估和评估模型性能的主要原因。总的来说MiniGPT-5框架在多模态任务中的有效性是从三个角度衡量的。
语言连续性评估生成的内