当前位置：首页 > news >正文

零壹网站建设郴州网站建设软件定制开发平台

news 2025/11/19 13:20:52

零壹网站建设,郴州网站建设软件定制开发平台,wordpress删除评论别人,均安网站制作一、简要介绍多模态学习结合了多种数据模式#xff0c;拓宽了模型可以利用的数据的类型和复杂性#xff1a;例如#xff0c;从纯文本到图像映射对。大多数多模态学习算法专注于建模来自两种模式的简单的一对一数据对#xff0c;如图像-标题对#xff0c;或音频文本对。然…一、简要介绍多模态学习结合了多种数据模式拓宽了模型可以利用的数据的类型和复杂性例如从纯文本到图像映射对。大多数多模态学习算法专注于建模来自两种模式的简单的一对一数据对如图像-标题对或音频文本对。然而在大多数现实世界中不同模式的实体以更复杂和多方面的方式相互作用超越了一对一的映射。论文建议将这些复杂的关系表示为图允许论文捕获任意数量模式的数据并使用模式之间的复杂关系这些关系可以在不同样本之间灵活变化。为了实现这一目标论文提出了多模态图学习MMGL这是一个通用而又系统的、系统的框架用于从多个具有关系结构的多模态邻域中捕获信息。特别是论文关注用于生成任务的MMGL建立在预先训练的语言模型LMs的基础上旨在通过多模态邻域上下文来增强它们的文本生成。论文研究了MMGL提出的三个研究问题(1)如何在避免可扩展性问题的同时向预先训练好LM中注入多个邻域信息从而避免可扩展性问题(2)如何将多模态邻域之间的图结构信息注入到LM中(3)论文如何调整预先训练过的LM以便以一种参数高效的方式从邻域上下文中学习论文进行了广泛的实验来回答MMGL上的这三个问题并分析了实证结果为未来的MMGL研究铺平了道路。二、研究背景在现实世界的应用程序中有不同的数据模态从常见的文本、图像和视频到时间序列数据或特定领域的模态如蛋白质序列。这些不同的模态不是单独收集的而是与它们之间的多方面的关系一起收集的。维基百科是最流行的多模态网络内容来源之一提供多模态数据如文本、图像和标题。Meta最近发布的网站使用每个用户的多模态数据构建个人时间线包括他们的照片、地图、购物和音乐历史。除了这些例子之外重要的工业和医疗决策也通过考虑多种的多模态数据如图像、表格或音频。这些多模态数据使它们的多模态实体之间的多对多关系变得复杂——可以用图来表示——为如何全面理解它们提供了开放的研究空间。随着多模态数据集的兴起在多模态学习方面进行了各种开创性的研究。以前多模态学习专注于新的架构扩展transformer或图神经网络并使用大规模的多模态数据集从头开始训练它们。在预训练的语言模型LMs具有强大的生成能力的推动下最近的多模态方法建立在预训练的LMs之上并专注于多模态内容的生成。例如之前的工作使用预先训练好的图像编码器和LM基于给定的文本/图像生成图像/文本。然而所有现有的模型都假设提供了一对具有清晰的1对1映射的模式作为输入例如图1(a)中的图像-标题对。因此它们不能直接应用于模态之间具有更一般的多对多映射的多模态数据集例如图1(b)中的多模态维基百科网页在这里论文将多模态学习的范围从1对1映射扩展到多模态图学习MMGL中同时通过将它们集成到预先训练的LM中来保持生成能力。论文介绍了一个系统的框架说明MMGL如何处理具有图结构的多模态邻域信息并使用预先训练的LM生成自由形式的文本图2。论文的MMGL框架提取邻域编码并将它们与图结构信息相结合并使用参数高效的微调来优化模型。因此论文定义了三个设计空间来研究MMGL的三个研究问题如下研究问题1论文如何为LM提供多个多模态邻域信息同时避免可伸缩性问题研究问题2如何将多模态邻域之间的图结构信息注入到LM中研究问题3论文如何调整预先训练过的LM以参数高效的方式通过多模态邻域信息进行学习在传统的具有1对1映射假设的多模态学习中通常只提供一个邻域例如一个用于文本标题的图像。相反MMGL需要处理几个具有不同数据大小的邻域例如图像分辨率和不同长度的文本序列这就导致了可伸缩性问题。对于研究问题1论文研究了三个邻域编码模型1使用文本嵌入的自注意力SA-Textembedding使用冻结编码器预先计算图像嵌入然后将它们与来自邻域的原始文本连接到输入的文本序列中2使用嵌入的自注意力SA-embedding使用冻结编码器预先计算文本和图像模式的嵌入并连接到输入文本3使用嵌入的交叉注意ca-embedding将预先计算的文本或图像嵌入输入到LM的交叉注意层中。在研究问题2中论文研究了如何将多模态邻域之间的图结构信息注入到LM中例如图1(b)中的部分层次结构和图像顺序。论文比较了序列位置编码与图转换器中广泛使用的两种图位置编码拉普拉斯特征向量位置编码LPE和图神经网络编码GNN它们在输入之前使用图结构在预先计算的邻域嵌入上运行GNN。研究问题3试图提高与完全微调LM相比的成本和内存效率。在这项工作中论文探索了三种参数高效的微调PEFT方法前缀调优LoRA 和Flamingo tuning。使用哪些PEFT方法取决于邻域编码模型当邻域信息被连接到输入序列中SA-Textembedding或SA-embedding邻域编码时论文可以应用前缀调优或LoRA进行微调。当邻域信息被输入交叉注意层ca-embedding时论文应用Flamingo tuning只对带有门控模块的交叉注意层进行稳定的微调。基于论文的MMGL框架论文在最近发布的多模态数据集WikiWeb2M 上进行了广泛的实验。WikiWeb2M统一了每个维基百科的网页内容并将所有文本、图像及其结构包含在一个示例中。这使得它对于研究在生成任务中使用多对多文本和图像关系的多模态内容理解非常有用。在这里论文关注部分摘要任务该任务的目的是通过理解每个维基百科页面上的多模式内容来生成一个句子来捕获关于一个部分内容的信息。通过对WikiWeb2M的严格测试论文为MMGL中提出的研究问题提供了直观的实证经验答案。综上所述论文的贡献是多模态图学习MMGL论文引入了一个系统的MMGL框架用于处理多模态图结构的邻域信息并使用预先训练的LM生成自由形式的文本。原则研究问题论文介绍了MMGL需要回答的三个研究问题 (1)如何向预先训练好的LMs提供多个邻域信息(2)如何将图结构信息注入到LM中(3)如何有效地微调LMs参数。这为未来的MMGL研究铺平了研究方向。广泛的实证结果论文表明经验(1)邻域上下文提高生成性能(2)SA-Textembedding邻域编码显示最高的性能而牺牲可伸缩性(3) GNN嵌入是最有效的图位置编码和(4)SA-Textembedding邻域编码LoRA和ca-embedding邻域编码与Flamingo tuning调整显示不同的PEFT模型中最高的性能。三、针对生成任务的多模态图学习Multimodal Graph Learning for Generative Tasks 给定每个节点上带有文本或图像的多模态图论文的目标是生成以每个节点及其相邻节点为条件的文本。更具体地说给定目标节点上的文本输入预先训练的LM生成基于输入文本和目标节点周围的多模态上下文的自由形式的文本。在论文的多模态图学习MMGL框架中论文首先使用冻结的编码器分别编码每个邻域的信息图2(b)。冻结编码器可以是预先训练的ViT或ResNeT用于将像素映射到嵌入的图像以及预先训练的LM用于将文本映射到嵌入的文本类似于其他模式。然后论文使用图位置编码对目标节点周围的图结构进行编码图2(c)。最后将带有图位置编码的编码邻域信息输入到经过输入文本的LM中生成基于多模态输入内容的文本图2(d)。该框架给论文留下了三个设计空间 (1)论文如何向LM提供邻域信息(2)如何将多模态邻域之间的图结构信息注入到LM中(3)论文如何调整预先训练的LM以有效地从邻域上下文参数学习在本节中论文将研究每个问题并讨论论文可以应用的可能方法。 3.1研究问题1邻域编码与现有的多模态学习假设单个图像对应于输入文本作为输入不同多模态图学习考虑任意数量的邻域图像/文本作为输入因此可伸缩性是从多个多模态邻域中学习所需要解决的第一个问题。在视觉-文本模型中标准的方法是首先使用图像编码器例如ViTResNet将图像处理到图像嵌入中然后将嵌入映射到仅使用文本的LM空间最后将它们输入到LM中。两种流行的将图像嵌入输入到LM中的方法是对跨序列维度连接的模态的完全自注意或与跨模态注意层。基于这两种方法论文提出了以下三种邻域编码方法使用文本嵌入的自注意力SA-Textembedding文本邻域被连接为原始文本而其他模式首先由冻结的编码器处理例如图像的ViT然后它们的嵌入被连接到输入序列中。论文添加了一个线性映射器它将预先计算的嵌入对齐到lLM的文本空间中。使用嵌入的自注意力SA-embedding与SA-Textembedding除了文本邻域也由单独的冻结编码器处理它们的嵌入被连接到输入序列。文本编码器可以与基本的LLM模型相同或不同。使用嵌入的交叉注意ca-embedding所有的邻域都由单独的冻结编码器处理通过线性映射器映射到文本空间然后输入交叉注意层。一般来说当论文提供文本嵌入而不是原始文本时LLM能够利用的信息量会受到预先计算的嵌入的限制。然而由于LM的注意机制使用了序列长度为T的OT 2计算因此原始文本引入了可伸缩性问题。因此在计算成本和可伸缩性之间存在一种权衡。对于SA-Textembedding和SA-embedding论文只针对位于LM之外的映射器有额外的参数而ca-embedding将额外的交叉注意层插入到预先训练的LM中并从头开始训练它们。这意味着ca-embedding可能会导致一个不稳定的初始状态因为预先训练好的LLM层会受到随机初始化的交叉注意层的影响。在第4.4节中论文将探讨这三种方法并讨论它们的实证结果。 3.2研究问题2图的结构编码给定邻域信息论文可以简单地将邻域信息作为原始文本或嵌入的信息连接起来并将它们作为一个序列来处理。但邻域之间都有结构。例如部分具有层次结构图像包含在WikiWeb2M中的某些部分中图1(b)。为了在邻域信息中编码这个图结构论文从图transformer中借用了两种流行的图位置编码并将它们与顺序位置编码进行了比较。拉普拉斯位置编码LPE论文利用从邻域的图结构中计算出的拉普拉斯特征向量作为它们的位置编码。图神经网络GNN论文首先从冻结的编码器中计算邻域嵌入并使用图结构在嵌入上运行GNN。然后论文使用输出的GNN嵌入它编码图结构信息作为位置编码。 LPE有一个额外的1层MLP映射器来将拉普拉斯特征向量映射到LM的文本空间。用于图结构编码的参数例如LPE或GNN参数的映射器在LM微调过程中以端到端方式进行训练。在第4.5节中论文将探讨这些不同的位置编码如何将额外的邻域之间的图结构信息带到LM中并提高性能。 3.3研究问题3参数-效率虽然论文需要针对特定的任务和新添加的邻域信息对预先训练好的LM模型进行微调但完全的微调需要较高的计算成本并且在用户决定使用邻域信息时也给共享MMGL模块带来了不便。近年来各种参数高效微调PEFT方法被提出以只微调少量的参数同时保持完整的微调性能。论文选择了适合于论文上面描述的三种邻域编码方法的三种不同的PEFT模型。前缀调优当论文选择SA-Textembedding或SA-embedding作为邻域编码时除了自注意层没有任何新添加的参数因此论文可以很容易地应用前缀调优它保持语言模型参数冻结并优化所有层中原始激活向量的连续任务特定向量序列。 LoRA与前缀调优一样低秩自适应LoRA也适用于SA-Textembedding或SA-embedding邻域编码。LoRA将每层注入可训练的秩分解矩阵同时冻结原始参数。 Flamingo对于ca-embedding邻域编码论文可以直接应用Flamingo它只对新添加的tanh门的交叉注意层进行微调以保持初始化预训练的LM在初始化时的完整以提高稳定性和性能。在第4.6节中论文将探讨PEFT模型如何通过调优少量参数来保持完整的微调性能。四、实验 4.1 WikiWeb2M数据集 WikiWeb2M数据集是为对具有多对多文本和图像关系的多模态内容理解的一般研究而构建的。WikiWeb2M建立在WIT数据集的基础上它包括页面标题、部分标题、部分文本、图像及其标题以及每个部分的索引、父部分、子部分的索引等等。在这项工作中论文专注于部分摘要任务以生成一个突出显示特定部分内容的单一句子。摘要是根据给定在目标和上下文部分中出现的所有图像和非摘要文本生成的。论文从维基web2M中随机抽取600k个维基百科页面用于部分摘要任务。总的来说部分总结任务的训练/验证/测试集大小分别为680k/170k/170k。 4.2实验设置从WikiWeb2M中论文可以获得四种类型的信息 (1)部分文本(2)部分图像(3)页面描述和其他部分的文本(4)页面描述和其他部分的图像。论文逐步向LM提供信息来研究多模态邻域信息的有效性 (1)部分文本2)所有部分文本文本图像3)页面文本所有来自输入部分所属的维基百科页面4)所有页面所有来自维基百科页面的文本和图像。论文使用Open pre-trained transformerOPT-125m为基本LM读取输入部分文本并生成摘要。对于获取邻域信息的文本和图像编码器论文使用来自CLIP 的文本/图像编码器。论文微调了125个批处理大小的10000步的OPT学习率为10−4。文本/图像编码器在所有实验中都被冻结。论文在验证集上测量了BLEU-4 、ROUGE-L和CIDEr分数。所有实验都运行在4个带有24GB内存的Nvidia-RTX 3090gpu上。 4.3邻域信息的有效性论文首先研究了多模态邻域信息的有效性。如第4.2节所述论文逐步向基本LM提供更多信息(1)部分文本、(2)所有部分文本图像、3页面文本和4所有页面所有文本和图像。在这里论文使用自注意力与文本嵌入SA-textembedding跨不同输入类型的邻域编码。对于图像论文首先从冻结的CLIP图像编码器中计算图像嵌入并在每个图像所属的部分的文本之后连接它们以保持结构。表1中的结果表明更多的多模态邻域信息是有用的当从部分内容到页面内容时性能显著提高并且根据他们的BLEU-4、ROUGE-L和CIDEr分数添加页面所有内容时性能进一步提高。讨论缺少模式。尽管添加了部分图像但所有部分的性能都比部分文本略有下降。在维基百科中并不是每个部分都有相应的图像。因此在所有部分的情况下对LM的输入与一些有文本和图像的样本不一致而其他样本只有文本。这指出了一个重要的未解决的缺失模态问题这在现实世界中很常见这在传统的1对1多模态设置中通常不会遇到强调了开发对缺失模态存在的MMGL方法的重要性。 4.4邻域编码论文使用三种不同的邻域编码对多个多模态邻域信息进行编码即使用文本嵌入的自注意力SA-TE、使用嵌入的自注意力SA-E和使用嵌入的交叉注意力CA-E。SA-E和CA-E使用冻结编码器将所有模式包括文本编码到嵌入中而SA-TE则通过连接到输入文本序列将文本邻域进行编码。因此SA-TE需要更长的输入序列长度1024来编码额外的文本从而导致潜在的可伸缩性问题。另一方面SA-E和CA-E需要一个令牌长度来编码一个文本邻域从而通过更短的输入长度提高了可伸缩性512。表2中的结果表明可伸缩性与性能是权衡的在不同输入类型时SA-TE的性能始终优于SA-E和CA-E但输入长度更长。讨论信息丢失。在传统的具有1-1映射的多模态学习中SA-TE通常用于注入文本输入而作为嵌入的图像输入是由冻结编码器预先计算的。这些方法成功地生成了基于输入图像的文本显示了图像嵌入作为预训练的LM的输入的有效性。然而表2中SA-TE和SA-E之间的性能差距表明文本嵌入可能导致LM中的信息丢失。这可能是因为1层MLP映射器将预先计算的文本嵌入到文本空间的LM不够表达或者因为长输入文本比短文本用于传统的多模式学习例如一句话标题使LM很难从预先计算的文本嵌入。从实际的角度来看论文的结果阐明了可伸缩性和性能之间的权衡。同时论文的研究结果强调了需要更多的MMGL研究来解决在使用嵌入来捕获文本信息时信息丢失的挑战性问题。 4.5图结构编码除了邻域上的每个模态外多模态图还包含邻域之间的图结构信息。论文使用顺序位置编码序列、图神经网络嵌入GNN和拉普拉斯位置编码LPE对多模态邻域之间的图结构进行编码。计算出的位置编码首先通过1层MLP映射到LMs的文本空间添加到输入标记/文本/图像嵌入中并输入到LMs中。在表3中GNN嵌入显示的性能最好。特别是对序列位置编码的改进表明了图感知结构编码方法在MMGL中的重要性。 4.6参数高效的微调对预先训练好的LM进行完全微调需要很高的计算成本。为了实现MMGL进行参数高效微调论文研究了文本嵌入SA-TE和嵌入自注意SA-E邻域编码的前缀调优和LoRA。对于嵌入交叉注意CA-E邻域编码论文采用flamingo风格的微调只添加带门模块的交叉注意层。表4中的结果显示对于具有更多微调参数的SA-TE和SA-E邻域编码LoRA调优前缀调优为7−9%LoRA为26−33%。然而前缀调优仍然显示了与使用SA-TE邻域编码使用近4倍少的参数的LoRA相当的性能。CA-E邻域编码的Flamingo与LoRA相似的性能LoRA为82M90M。请注意SA-E和CA-E邻域编码比SA-TE有更多的参数这是由于包含了用于文本邻域处理的冻结文本编码器。在表2没有PEFT中CA-E邻域编码比SA-TE邻域编码的性能明显滞后。然而当注入Flamingo时Flamingo中的门控模块有效地确保了预训练的LM在初始化时不受随机设置的交叉注意层的影响从而提高了CA-E的性能如表4与PEFT所示。这强调了战略初始化在MMGL中引入邻域编码的补充模块以及将它们集成到预先训练的LM中时战略初始化的关键作用。五、总结在这项工作中论文将传统的多模态学习与一对模态之间的一对一映射扩展到多个模态之间的多对多关系的多模态图学习MMGL。论文的MMGL框架围绕三个关键组件系统结构 (1)邻域编码(2)图结构编码和(3)参数高效的微调。通过对WikiWeb2M数据集的严格测试论文探索了每个组件的不同选项 (1)邻域编码、使用文本嵌入的自注意力SA-Textembedding使用嵌入的自注意力SA-embedding和使用嵌入的交叉注意ca-embedding强调可伸缩性和性能之间的平衡(2)三个不同的图位置编码序列LPE和GNN(3)三个PEFT模型前缀调优、LoRA和Flamingo以及它们在参数效率和性能之间的权衡。论文的深入分析和发现旨在为未来的MMGL研究奠定基础引发在该领域的进一步探索。

查看全文

http://www.pierceye.com/news/464738/