阜阳讯拓网站建设,开发app的网站有哪些,佛山网站快照优化公司,wordpress用户中心主题目录 1. Introduction2. 概述方法多模态指令调优 3.1.1 简介3.1.2 预备知识3.1.3 模态对齐3.1.4 数据3.1.5 模态桥接3.1.6 评估 3.2.多模态情境学习3.3.多模态思维链3.3.1 模态桥接3.3.2 学习范式3.3.3 链配置3.3.4 生成模式3.4.LLMs辅助视觉推理3.4.1 简介3.4.2 训练范式3.4.3… 目录 1. Introduction2. 概述方法多模态指令调优 3.1.1 简介3.1.2 预备知识3.1.3 模态对齐3.1.4 数据3.1.5 模态桥接3.1.6 评估 3.2.多模态情境学习3.3.多模态思维链3.3.1 模态桥接3.3.2 学习范式3.3.3 链配置3.3.4 生成模式3.4.LLMs辅助视觉推理3.4.1 简介3.4.2 训练范式3.4.3 功能3.4.4 评估 4. 挑战和未来方向5.结论 多模态大语言模型MLLM最近成为一个新的研究热点它使用强大的大语言模型LLM作为大脑来执行多模态任务。 MLLM 令人惊讶的新兴功能例如基于图像编写故事和无 OCR 的数学推理在传统方法中很少见这表明了通向通用人工智能的潜在途径。本文旨在追溯和总结MLLM的最新进展。首先论文明确了MLLM的定义并描述了其相关概念。然后论文讨论关键技术和应用包括多模态指令调优M-IT、多模态上下文学习M-ICL、多模态思维链M-CoT和LLM辅助视觉推理LAVR 。最后论文讨论了现有的挑战并指出了有前途的研究方向。收集最新论文的相关 GitHub 链接位于 [https://github.com/BradyFU/AwesomeMultimodal-Large-Language-Models] 1. Introduction
1.引言近年来大型语言模型取得了显着的进展[1-4]。通过扩大数据规模和模型规模LLMs展现了惊人的能力包括情境学习 (ICL) [5]、指令遵循 [4, 6] 和思想链 (CoT) [7]。尽管法LLMs在大多数自然语言处理NLP任务中表现出了令人惊讶的零/少样本推理性能但他们本质上对视觉“视而不见”因为他们只能理解离散文本。同时大视野基础模型在感知方面进展迅速[8-10]而传统与文本的结合更注重模态对齐[11]和任务统一[12]在推理方面发展缓慢。
鉴于这种互补性单模态LLM和视觉模型同时走向彼此最终导致了MLLM这个新领域。从形式上来说它指的是基于LLM的模型具有接收和推理多模态信息的能力。从发展通用人工智能AGI的角度来看MLLM可能比LLM更进一步原因如下1MLLM更符合人类感知世界的方式。人类接收多感官输入这些输入通常是互补和合作的。因此多模态信息有望使 MLLM 更加智能。 (2)MLLM提供了更加用户友好的界面。得益于多模态输入的支持用户可以以更加灵活的方式与智能助手进行交互和沟通。 (3) MLLM 是一个更全面的任务解决者。虽然 LLM 通常可以执行 NLP 任务但 MLLM 通常可以支持更广泛的任务。
GPT-4 [2] 因其展示的令人惊叹的示例而引发了对 MLLM 的研究狂潮但并未开放多模态接口目前尚未公开该模型的信息。尽管如此研究界还是做出了许多努力来开发功能强大且开源的 MLLM并展示了一些令人惊讶的实用能力例如基于图像编写网站代码 [13]、理解图像的深层含义等。 meme [14]以及无 OCR 的数学推理 [15]。这篇综述的目的是为了让研究者了解MLLMs的基本思想、主要方法和当前进展。论文主要关注视觉和语言形式但也包括涉及其他形式的作品。具体来说论文将现有的 MLLM 分为四种类型并进行相应的总结同时维护一个实时更新的 GitHub 页面。
2. 概述
本文将最近具有代表性的 MLLM 分为四种主要类型
多模态指令调优 (M-IT)多模态上下文学习 (M-ICL)多模态思维链 (M-CoT) 和LLM 辅助视觉推理 (LAVR) 。
前三者构成了MLLM的基础而最后一个则是以LLM为核心的多模式体系。需要注意的是这三种技术是相对独立的并且可以组合使用。因此论文对一个概念的阐释也可能涉及到其他概念。论文首先详细介绍 M-IT第 3.1 节从架构和数据两个方面揭示LLMs如何适应多模态。然后论文介绍 M-ICL第 3.2 节这是一种在推理阶段常用来提高小样本性能的有效技术。另一种重要的技术是 M-CoT第 3.3 节它通常用于复杂的推理任务。之后论文进一步总结了LLMs在 LAVR 中主要扮演的几个角色第 3.4 节其中经常涉及到这三种技术。最后论文总结了潜在的研究方向。
方法
多模态指令调优 3.1.1 简介
指令是指任务的描述。指令调优是一种涉及在指令格式数据集集合上微调预训练的 LLM 的技术 [16]。通过这种方式进行调整LLM 可以通过遵循新指令泛化到未见过的任务从而提高零样本性能。这个简单而有效的想法引发了 NLP 领域后续工作的成功例如 ChatGPT [1]、InstructGPT [17]、FLAN [16, 18] 和 OPT-IML [19]。
指令调优和相关典型学习范式之间的比较如图1所示。监督微调方法通常需要许多特定于任务的数据来训练特定于任务的模型。提示方法减少了对大规模数据的依赖并且可以通过提示工程完成专门的任务。在这种情况下尽管少样本性能有所提高但零样本性能仍然相当平均[5]。不同的是指令调优学习如何泛化到未见过的任务而不是像两个对应任务那样适应特定的任务。此外指令调整与多任务提示高度相关[20]。
相比之下传统的多模态模型仍然局限于前两种调优范式缺乏零样本能力。因此最近的许多著作 [13,21,22] 都在探索将LLMs指令调整的成功扩展到多模态。为了从单模态扩展到多模态数据和模型都需要进行相应的调整。对于数据研究人员通常通过调整现有基准数据集[23-28]或通过自我指导来获取M-IT数据集[13,21,29]。关于模型常见的做法是将跨模态的信息注入LLM中并将其视为强推理者。相关工作要么直接将外来嵌入与LLMs[21,23-25,27,28,30-32]对齐要么诉诸专家模型将跨模态翻译成LLMs可以吸收的自然语言[33,34]。以这种方式表述这些作品通过多模态指令调整将 LLM 转变为多模态聊天机器人 [13,21,22,33,35] 和多模态通用任务求解器 [23,24,26]。在本节的以下部分中论文首先提供基础知识第 3.1.2 节接下来论文介绍了 M-IT 之前的对齐预训练第 3.1.3 节。然后论文构建如图 2 所示的剩余内容首先介绍如何收集 M-IT 数据第 3.1.4 节然后详细讨论 MLLM 的模型自适应即桥接 M-IT 数据的各种方法。不同模式之间的差距§3.1.5。最后论文介绍了评估指令调整 MLLM 的评估方法第 3.1.6 节。
3.1.2 预备知识
本节简要说明多模态指令示例的一般结构和M-IT 的通用过程。多模式指令样本通常包括指令和输入输出对。该指令通常是描述任务的自然语言句子例如“详细描述图像”。输入可以是图像-文本对如视觉问答VQA任务[46]或仅图像如图像字幕任务[47]。输出是对以输入为条件的指令的答案。指令模板是灵活的并且可以进行手动设计[21,31,33]如表1所示。请注意指令样本也可以推广到多轮指令其中多模态输入是共享的[21,30, 31、43]。形式上多模态指令样本可以用三元组形式表示即IMR其中IMR分别表示指令多模态输入和真实响应。 MLLM 在给定指令和多模态输入的情况下预测答案
这里A 表示预测答案θ 是模型的参数。训练目标通常是用于训练 LLM [21,30,32,43] 的原始自回归目标基于该目标MLLM 被迫预测响应的下一个标记。目标可以表示为 其中 N 是真实响应的长度。
3.1.3 模态对齐
通常对配对数据进行大规模与指令调整相比预训练以鼓励不同模态之间的对齐[25,29,35,38]。对齐数据集通常是图像文本对[48-56]或自动语音识别ASR[57-59]数据集它们都包含文本。更具体地说图像-文本对以自然语言句子的形式描述图像而 ASR 数据集包含语音转录。对齐预训练的常见方法是保持预训练模块例如视觉编码器和 LLM冻结并训练可学习的界面 [21,37,38]这将在下一节中进行说明。
3.1.4 数据
多模式指令跟随数据的收集是M-IT 的关键。收集方法可大致分为基准适应、自我指导[60]和混合组合。
3.1.5 模态桥接
由于LLMs只能感知文本因此有必要弥合自然语言和其他模态之间的差距。然而以端到端的方式训练大型多模态模型成本高昂。此外这样做会面临灾难性遗忘的风险[61]。因此更实用的方法是在预训练的视觉编码器和LLM之间引入可学习的接口。另一种方法是借助专家模型将图像翻译成语言然后将语言发送给LLM。
可学习接口可学习接口负责在冻结预训练模型的参数时连接不同的模式。挑战在于如何有效地将视觉内容翻译成LLMs可以理解的文本。一种常见且可行的解决方案是利用一组可学习的查询标记以基于查询的方式提取信息[62]该解决方案首先在 Flamingo [63] 和 BLIP-2 [64] 中实现随后由各种工作[23,25,42]。此外一些方法使用基于投影的接口来缩小模态差距[21,30,38,43]。例如LLavA [21]采用简单的线性层来嵌入图像特征MedVInTTE [30]使用两层多层感知器作为桥梁。还有一些作品探索了参数高效的调整方式。 LLaMA-Adapter [28, 35] 在训练过程中在 Transformer 中引入了一个轻量级适配器模块。 LaVIN [32] 设计了一种混合模态适配器来动态决定多模态嵌入的权重。
专家模型除了可学习的接口之外使用专家模型例如图像字幕模型也是弥合模态差距的可行方法[35]。不同的是专家模型背后的想法是将多模态输入转换为语言而无需训练。通过这种方式LLMs可以通过转换后的语言间接理解多模态。例如VideoChat-Text [33] 使用预先训练的视觉模型来提取动作等视觉信息并使用语音识别模型丰富描述。尽管使用专家模型很简单但它可能不如采用可学习界面那么灵活。将外来形式转换为文本通常会导致信息丢失。正如 VideoChat-Text [33] 指出的那样将视频转换为文本描述会扭曲时空关系。
3.1.6 评估
M-IT 后的模型性能评估有多种指标根据问题类型大致可分为两类包括封闭集和开放集。闭集问题是指一种问题类型其可能的答案选项是预先定义的并限制在有限的集合内。评估通常在适应基准的数据集上进行。在这种情况下可以自然地通过基准指标来判断响应[21,23,25,26,28,29,32,35]。例如Instruct-BLIP [23] 报告了 ScienceQA [65] 的准确性以及 NoCaps [67] 和 Flickr30K [68] 上的 CIDEr 评分 [66]。评估设置通常是零样本[23,26,29,36]或微调[21,23,25,28,32,35–37]。第一个设置通常选择涵盖不同一般任务的广泛数据集并将它们分为保留数据集和保留数据集。在对前者进行调整后使用未见过的数据集甚至未见过的任务对后者进行零样本性能评估。相反第二种设置经常出现在特定领域下游任务的评估中。例如LLaVA [21] 和 LLaMA-Adapter [28] 报告了 ScienceQA [65] 上的微调性能。 LLaVA-Med [37] 报告了生物医学 VQA 的结果 [69–71]。
上述评估方法通常仅限于选定的小范围任务或数据集缺乏全面的定量比较。为此一些人努力开发专门为 MLLM 设计的新基准 [39,40,72]。例如Fu 等人。 [73]构建了综合评估基准MME共包括14个感知认知任务。 MME中的所有指令-答案对都是手动设计的以避免数据泄漏。通过详细的排行榜和分析来评估 10 个高级 MLLM。 LAMM-Benchmark [39] 被提议在各种 2D/3D 视觉任务上定量评估 MLLM。 Video-ChatGPT [40]提出了一种基于视频的会话模型的定量评估框架其中包含两种类型的评估即基于视频的生成性能评估和零样本问答。
与封闭集问题相比开放集问题的回答可以更加灵活其中 MLLM 通常扮演聊天机器人的角色。由于聊天的内容可以是任意的因此比封闭式输出更难以判断。标准可分为手工评分、GPT评分和案例研究。手动评分需要人类评估生成的响应。这种方法通常涉及旨在评估特定维度的手工问题。例如mPLUGOwl [22]收集了视觉相关的评估集来判断自然图像理解、图表和流程图理解等能力。类似地GPT4Tools [34] 分别为微调和零样本性能构建了两个集合并从思想、行动、论证和整体方面评估响应。由于人工评估是劳动密集型的一些研究人员探索了用GPT进行评级即GPT评分。这种方法通常用于评估多模式对话的表现。 LLaVA [21] 建议通过 GPT-4 在不同方面对响应进行评分例如有用性和准确性。具体来说从 COCO [48] 验证集中采样了 30 个图像每个图像通过 GPT-4 上的自我指导与一个简短问题、一个详细问题和一个复杂推理问题相关联。 MLLM 和 GPT-4 生成的答案都会发送到 GPT4 进行比较。后续工作遵循这一想法并提示 ChatGPT [22] 或 GPT-4 [25,29,32,36,37] 对结果进行评分 [22,25,29,32,37] 或判断哪个更好 [35]。基于 GPT-4 的评分的一个主要问题是目前其多模式界面尚未公开。因此GPT-4 只能根据图像相关的文本内容例如标题或边界框坐标生成响应而无需访问图像 [37]。因此在这种情况下将 GPT-4 设置为性能上限可能是有问题的。另一种方法是通过案例研究来比较 MLLM 的不同能力。例如mPLUG-Owl 使用视觉相关的笑话理解案例与 GPT-4 [2] 和 MM-REACT [14] 进行比较。同样Video-LLaMA [42]提供了一些案例来展示多种能力例如视听共同感知和常识概念识别。其他一些其他方法侧重于 MLLM 的特定方面。例如MultiInstruct [26] 提出了一种称为灵敏度的指标用于评估模型对各种指令的鲁棒性。李等人。 [44]深入研究了物体幻觉问题并提出了一种查询方法POPE来评估这方面的性能。赵等人。 [45]考虑安全问题并建议评估 MLLM 对对抗性攻击的鲁棒性。
3.2.多模态情境学习
ICL 是LLMs重要的新兴能力之一。 ICL 有两个优点1与从大量数据中学习隐式模式的传统监督学习范式不同ICL 的关键是从类比中学习[74]。具体来说在 ICL 设置中LLMs从一些示例以及可选指令中学习并推断出新问题从而以几次方式解决复杂和看不见的任务 [14,75,76]。 2ICL通常以免训练的方式实现[74]因此可以在推理阶段灵活地集成到不同的框架中。与 ICL 密切相关的技术是指令调整参见第 3.1 节经验表明它可以增强 ICL 能力 [16]。在 MLLM 的背景下ICL 已扩展到更多模式形成多模式 ICL (M-ICL)。基于§3.1.2中的设置在推理时可以通过向原始样本添加演示集即一组上下文样本来实现 M-ICL。在这种情况下可以如表3所示扩展模板。请注意论文列出了两个上下文中的示例进行说明但示例的数量和顺序可以灵活调整。事实上模型通常对演示的安排很敏感 [74, 77]。 在多模态应用方面M-ICL主要用于两种场景1解决各种视觉推理任务[14,27,63,78,79]和2教授LLMs使用外部工具[75,76,80]。前者通常涉及从一些特定于任务的示例中学习并归纳到一个新的但类似的问题。从说明和演示中提供的信息中LLMs可以了解任务正在做什么以及输出模板是什么并最终生成预期的答案。相比之下工具使用的示例通常是纯文本且更细粒度。它们通常包含一系列可以顺序执行以完成任务的步骤。因此第二种情况与 CoT 密切相关参见§3.3。
3.3.多模态思维链
正如开创性工作[7]所指出的CoT是“一系列中间推理步骤”已被证明在复杂推理任务中是有效的[7,87,88]。 CoT的主要思想是促使LLM不仅输出最终答案而且输出导致答案的推理过程类似于人类的认知过程。受 NLP 成功的启发多项工作 [81,82,85,86] 被提出将单模态 CoT 扩展到多模态 CoT (M-CoT)。论文总结了这些工作如图 3 所示。首先与 M-IT 中的情况类似参见第 3.1 节需要填补模态缺口第 3.3.1 节。然后论文介绍了获取 M-CoT 能力的不同范例§3.3.2。最后论文描述了 M-CoT 的更具体方面包括配置第 3.3.3 节和链的公式第 3.3.4 节。
3.3.1 模态桥接
为了将 NLP 的成功转移到多模态模态桥接是首先要解决的问题。大致有两种方法可以实现这一目标通过特征融合或通过将视觉输入转换为文本描述。与§3.1.5中的情况类似论文将它们分别归类为可学习接口和专家模型并按顺序进行讨论。可学习的界面这种方法涉及采用可学习的界面将视觉嵌入映射到单词嵌入空间。然后映射的嵌入可以作为提示发送给其他语言的LLMs以引发 M-CoT 推理。例如CoT-PT [81]链接多个元网络进行提示调整以模拟推理链其中每个元网络将视觉特征嵌入到提示的特定步骤偏差中。 Multimodal-CoT [82] 采用具有共享 Transformer 结构的两阶段框架 [89]其中视觉和文本特征通过交叉注意力进行交互。专家模型引入专家模型将视觉输入转换为文本描述是另一种模态桥接方式。例如ScienceQA [65] 采用图像字幕模型并将图像字幕和原始语言输入的串联提供给LLMs。虽然简单明了但这种方法可能会在字幕过程中丢失信息 [33, 82]。
3.3.2 学习范式
学习范式也是一个值得研究的方面。获取 M-CoT 能力的方法大致有三种即通过微调和免训练的少样本/零样本学习。三种方式的样本量要求按降序排列。
3.3.3 链配置
链配置是推理的一个重要方面可以分为自适应和预定义的形式。前一种配置要求 LLM 自行决定何时停止推理链 [14, 65, 75, 76, 82, 83]而后一种设置则以预定义的长度停止推理链 [81, 84–86] 。
3.3.4 生成模式
论文将当前的工作总结为1基于填充的模式和2基于预测的模式。具体来说基于填充的模式需要在周围上下文之前和之后的步骤之间推导步骤来填补逻辑间隙 [85, 86]。相反基于预测的模式需要在给定条件例如指令和先前的推理历史的情况下扩展推理链[14,65,75,76,82,83]。两种类型的模式都要求生成的步骤一致且正确。
3.4.LLMs辅助视觉推理
3.4.1 简介
受到工具增强LLMs[95-98]成功的启发一些研究探索了调用外部工具[14,34,75,76]或视觉基础模型[14, 83,84,91,92,99]用于视觉推理任务。这些作品以LLMs为不同角色的帮助者构建了特定任务[84,90,93]或通用[14,75,76,80,83]视觉推理系统。与传统的视觉推理模型[100-102]相比这些作品表现出几个良好的特点1泛化能力强。这些系统配备了从大规模预训练中学到的丰富的开放世界知识可以轻松泛化到看不见的物体或概念并具有出色的零/少样本性能[75,76,90,91,93,94]。 (2)涌现能力。借助强大的推理能力和丰富的LLMs知识这些系统能够执行复杂的任务。例如给定一个图像MM-REACT [14] 可以解释表面之下的含义例如解释为什么一个模因很有趣。 (3)更好的交互性和控制性。传统模型通常允许一组有限的控制机制并且通常需要昂贵的精选数据集[103,104]。相比之下基于 LLM 的系统能够在用户友好的界面中进行精细控制例如点击和自然语言查询[84]。本节的以下部分的组织如图 4 所示论文首先介绍用于构建 LLM 辅助视觉推理系统的不同训练范例第 3.4.2 节。随后论文深入研究LLMs在这些系统中发挥的主要作用§3.4.3。最后论文评估了各种类型的绩效
3.4.2 训练范式
根据训练范式LLM辅助视觉推理系统可以分为两种类型即trainingfree和finetuning。
3.4.3 功能
LLM在LLM辅助视觉推理系统中可以分为三种角色
LLM作为控制器LLM作为决策者LLM作为语义精炼器两个角色
控制者和决策者与 CoT 相关见§3.3。它被频繁使用因为复杂的任务需要分解为中间更简单的步骤。 LLM 作为控制器时LLM 充当中央控制器(1) 将复杂的任务分解为更简单的子任务/步骤(2) 将这些任务分配给适当的工具/模块。第一步通常是通过利用LLMs的 CoT 能力来完成的。具体来说LLM 被明确提示输出任务规划 [80]或者更直接地提示要调用的模块 [34,75,76]。
LLM 作为决策者时复杂的任务以多轮方式解决通常以迭代方式[91]。决策者通常履行以下职责1总结当前上下文和历史信息并决定当前步骤可用的信息是否足以回答问题或完成任务 2对答案进行整理和总结以通俗易懂的方式呈现。
当LLM作为语义精炼时研究人员主要利用他们丰富的语言学和语义知识。具体来说LMs经常被要求将信息整合成一致且流畅的自然语言句子[94]或根据不同的特定需求生成文本[84,90,93]。
3.4.4 评估
有两种方法可以评估LLMAided Visual Reasoning系统的性能即基准指标[75,76,90,91,93,94]和手动评估[34,76,92]。基准指标一种直接的评估方法是在现有基准数据集上测试系统因为指标可以直接反映模型完成任务的程度。例如Chameleon [75] 在复杂推理基准上进行评估包括 ScienceQA [65] 和 TabMWP [106]。 IdealGPT [91] 报告了 VCR [107] 和 SNLI-VE [108] 的准确性。手动评估有些作品采用手动评级来评估模型的特定方面。例如ChatCaptioner [92] 要求人类注释者判断不同模型生成的标题的丰富性和正确性。 GPT4Tools [34] 计算思想、行动、论证的成功率和总体成功率以衡量模型分配工具使用的能力。 VISPROG [76] 在评估语言引导图像编辑任务的模型时手动计算准确性。
4. 挑战和未来方向
MLLM 的发展仍处于初级阶段因此还有很大的改进空间论文总结如下
目前的 MLLM 感知能力仍然有限导致视觉信息不完整或错误收购 [13, 73]。这可能是由于信息容量和计算负担之间的折衷。更具体地说Q-Former [64] 仅使用 32 个可学习标记来表示图像这可能会导致信息丢失。尽管如此扩大token长度不可避免地会给LLMs带来更大的计算负担因为LLMs的输入长度通常是有限的。一种潜在的方法是引入像 SAM [8] 这样的大型视觉基础模型以更有效地压缩视觉信息 [21, 29]。MLLM 的推理链可能很脆弱。例如Fu 等人。 [73]发现在数学计算案例中尽管MLLM计算出正确的结果但由于推理的破坏它仍然给出了错误的答案。这表明单模态LLMs的推理能力可能不等于接收视觉信息后的LLMs的推理能力。改进多模态推理的主题值得研究。MLLM 的指令跟踪能力需要升级。在 M-IT 之后尽管有明确的指示“请回答是或否”一些 MLLM 仍无法生成预期的答案“是”或“否”[73]。这表明指令调优可能需要涵盖更多任务以提高泛化能力。物体幻觉问题很普遍[13, 44]这在很大程度上影响了MLLM 的可靠性。这可能归因于对齐预训练不足[13]。因此一个可能的解决方案是在视觉和文本模态之间执行更细粒度的对齐。细粒度是指图像的局部特征可以通过SAM[21,29]获得以及相应的局部文本描述。需要参数有效的培训。现有的两种模态桥接方式即可学习接口和专家模型都是减轻计算负担的初步探索。更高效的训练方法可以在计算资源有限的情况下释放 MLLM 的更多功能。
5.结论
该论文对现有的 MLLM 文献进行了调查并对其主要方向进行了广泛的了解包括三种常见技术M-IT、M-ICL 和 MCoT以及构建任务的通用框架 -求解系统LAVR。此外论文强调了当前需要填补的研究空白并指出了一些有前途的研究方向。论文希望这项调查能让读者清楚地了解 MLLM 当前的进展并激发更多的工作。