章丘网站建设,做私单的网站,网站做担保交易,微信网站建设咨询LongVLM#xff1a;让大模型解读长视频 SOTA 的方法 使用LongVLM处理长视频的步骤LongVLM 方法3.1 总体架构3.2 局部特征聚合3.3 全局语义整合 效果4.1 实验设置4.2 主要结果4.3 消融研究4.4 定性结果 论文#xff1a;https://arxiv.org/pdf/2404.03384.pdf
代码#xff1a… LongVLM让大模型解读长视频 SOTA 的方法 使用LongVLM处理长视频的步骤LongVLM 方法3.1 总体架构3.2 局部特征聚合3.3 全局语义整合 效果4.1 实验设置4.2 主要结果4.3 消融研究4.4 定性结果 论文https://arxiv.org/pdf/2404.03384.pdf
代码https://github.com/ziplab/LongVLM LongVLM是一种高效的长视频理解方法它通过大型语言模型LLMs来增强对长视频的理解。
针对现有VideoLLM在处理长视频时因无法精细理解而面临的挑战LongVLM采用了一种简单有效的方法提出了以下解决方案
具体问题与解法 问题1 处理长视频需要模型能够处理大量的视觉令牌导致计算成本高昂。 解法 通过预先压缩视觉令牌和利用池化操作或查询聚合来提取视频表示减少了需要处理的视觉令牌数量。 问题2 现有模型无法精确识别长视频中的细节信息如特定颜色或正在修理的具体部件。 解法 LongVLM通过将长视频分解为多个短期片段并针对每个片段提取局部特征以维持故事线的连续性和时间结构。
解法拆解 子解法1均匀采样视频帧和特征提取 使用预训练的视觉编码器如CLIP-ViT-L/14提取每帧的视觉特征包括[CLS]令牌和最后第二层的补丁特征。 之所以使用均匀采样和特征提取是因为这可以有效地从长视频中捕获关键视觉信息同时降低处理长视频的复杂性。 子解法2局部特征聚合和时间序列维护 通过令牌合并模块将每个短期片段内的补丁特征聚合成一组紧凑的令牌以获得每个片段的局部特征并将这些特征按时间顺序连接。 之所以采用局部特征聚合和时间序列维护是因为它们有助于保留长视频中各个短期片段的时间结构从而实现对视频内容更细致的理解。 子解法3全局语义信息整合 将来自视频帧的[CLS]令牌平均化以代表整个视频的全局语义信息并将这些全局信息与每个短期片段的特征结合然后输入到LLM中。 之所以整合全局语义信息是因为它可以丰富对每个短期片段的上下文理解增强模型对长视频内容的整体把握能力。
主要贡献
提出了LongVLM一种针对长视频内容进行精细级别理解的简单而有效的VideoLLM同时保持计算成本在可接受范围内。短期片段分解和特征提取通过将长视频分解为短期片段并提取每个片段的局部特征LongVLM能够保持这些片段的时间顺序通过层次化的令牌合并模块聚合视觉令牌同时将全局语义信息整合到每个片段中以增强对上下文的理解。在实验中取得显著进展在VideoChatGPT基准测试和零样本视频问答数据集上的实验结果显示LongVLM在细粒度水平上为长视频生成的响应比先前的最先进方法更为精确和准确。
LongVLM的提出有效地解决了长视频理解的挑战其结合局部和全局信息的策略为视频内容理解领域提供了新的视角和方法。 例子背景假设我们有一个5分钟长的视频记录了一个手工艺人在工作坊中从头到尾制作一个木制桌子的过程。
这个视频涵盖了多个关键活动包括选择木材、切割、打磨和组装等。
使用LongVLM处理长视频的步骤 均匀采样和特征提取 LongVLM首先均匀地从整个视频中采样视频帧。例如它可能从这5分钟视频中每隔10秒提取一个帧然后使用预训练的视觉编码器如CLIP-ViT-L/14来提取每帧的视觉特征。这样做能够捕获从选择木材到最终组装各个阶段的关键视觉信息同时避免处理整个视频中的每一帧从而降低复杂性和计算成本。 局部特征聚合和时间序列维护 接下来LongVLM将视频划分为若干短期片段每个片段可能代表一个关键活动如切割木材或打磨边缘。通过令牌合并模块模型聚合每个短期片段内的补丁特征生成每个活动的紧凑表示。通过按照这些活动发生的时间顺序连接这些表示LongVLM能够保持视频故事的连贯性使得最终的视频理解能够反映出手工艺人工作的实际流程。 全局语义信息整合 同时模型计算整个视频范围内[CLS]令牌的平均值代表整个视频的全局语义信息。然后将这些全局信息与每个短期片段的特征结合确保在理解每个具体活动时也考虑到整个视频的上下文。例如在解释打磨过程的具体细节时模型也能考虑到这一步骤在整个桌子制作流程中的位置和重要性。
LongVLM 方法
LongVLM的方法包括其总体架构、局部特征聚合过程和全局语义信息整合方式。
通过细化各个组成部分的作用和逻辑我们可以更清晰地理解LongVLM如何实现对长视频的细粒度理解。
3.1 总体架构 图展示了所提出的LongVLM长视频理解的大型语言模型的总体架构。
从图中可以看出LongVLM的流程包括以下几个主要步骤 均匀采样视频帧首先从视频中均匀采样T帧。 视觉编码器对采样出的每帧视频独立地使用视觉编码器提取帧级特征。 视频划分将输入视频划分成S个片段每个片段包含K帧。 局部特征的聚合在每个片段内应用层次化的令牌合并模块来获取紧凑的局部特征。 序列连接将片段级特征顺序连接起来显式地保留了长视频中多个短期片段的时间顺序。 全局语义特征的整合收集[CLS]令牌并通过平均池化来聚合全局语义特征。 特征融合将全局特征与局部特征序列连接起来形成视频表示。 投影层投影层将视频表示转换为适合LLM处理的格式。 大型语言模型LLM最终将投影后的视觉特征与标记化的系统指令和用户查询结合并输入到LLM以生成响应。
此图还显示了模型中不同组件的参数更新状态标识为冰雪晶体的部分表示参数在此过程中是冻结的而火焰图标的部分表示参数在训练过程中会更新。
这表明LongVLM在不同阶段利用了不同的训练策略。
此外通过图示的步骤性描述我们可以了解到该模型如何从输入视频中提取关键信息并最终生成对用户查询的响应。 子解法1视觉编码器 用于独立地提取每个视频帧的帧级特征包括补丁特征和[CLS]令牌。 之所以使用视觉编码器是因为它能够从视频帧中提取丰富的视觉信息为后续的特征聚合和语义理解提供基础。 子解法2局部特征序列的创建 将长视频分解为短期片段对每个片段应用令牌合并模块生成紧凑的片段级特征这些特征按顺序连接显式保留短期片段在长视频中的时间顺序。 之所以这样做是为了捕获视频中的局部信息并保持短期事件或动作的时间结构有助于理解视频的序列性质。 子解法3全局语义特征的整合 通过汇集和平均每个帧的[CLS]令牌形成代表整个视频全局语义的特征与局部特征序列一起输入到LLM。 之所以整合全局语义信息是为了丰富局部特征序列的上下文信息帮助模型在整个视频范围内生成合理的响应。
3.2 局部特征聚合
子解法1分段和令牌合并 对每个短期片段应用层次化的令牌合并模块通过软匹配方法逐步合并视觉令牌以减少视觉令牌的数量并生成紧凑的局部特征。 之所以采用层次化的令牌合并是因为视频具有高度的时空冗余直接考虑所有补丁特征会导致冗余的计算成本。
3.3 全局语义整合
子解法1全局特征的提取和整合 通过从每个帧的编码器层收集[CLS]令牌并在时间维度上进行平均生成代表整个视频的全局语义特征。 之所以重视全局语义特征是因为它为模型提供了视频的整体上下文信息有助于理解不同片段之间的关系从而在整个视频上生成合理的响应。
LongVLM通过将长视频分解为多个短期片段并聚合每个片段的局部空间-时间特征同时通过整合全局语义信息提出了一种既能捕获细粒度局部信息又能保留视频整体上下文的方法。
这种结合局部和全局信息的策略使得LongVLM能够实现对长视频内容的精细理解和响应生成克服了现有方法在处理长视频时细节理解不足的问题。
不同于依赖全局语义进行长视频理解的传统方法LongVLM提供了一种直接且有效的方法用于实现长期视频中的精细级别理解。
效果
这部分文本描述了LongVLM模型的实验设置、主要结果、消融研究和定性结果。以下是各个部分的中文概述和针对问题与解法的精细化分析。
4.1 实验设置 数据集和评估指标使用VideoChatGPT基准和ANET-QA等数据集对模型进行量化评估。涵盖了多个评估方面如正确性信息、细节取向、上下文理解等。 实现细节使用CLIP-ViT-L/14作为视觉编码器Vicuna-7B-v1.1作为LLM并在VideoChatGPT-100K数据集上微调。
4.2 主要结果 基于视频的生成基准LongVLM在细节取向和一致性方面相较于现有模型有显著提升。 零样本视频问答在三个零样本视频QA数据集上均达到了最高准确率。 4.3 消融研究 局部特征聚合的影响 子解法1引入短期片段级特征保留局部信息和时间结构。 理由与全局语义特征相比局部特征更能够提高对视频的细粒度理解。 全局语义整合的影响 子解法1将全局语义特征融入局部特征。 理由全局语义的加入显著提升了上下文理解和一致性的评分。 M的影响 子解法1选定M值平衡内存成本和性能。 理由适当长度的视觉令牌能够提高模型性能。 E的影响 子解法1选取不同的[CLS]令牌数量以选择最佳的E值。 理由适当数量的全局语义令牌能够提高生成质量分数。
4.4 定性结果
精细理解的展示模型能够捕捉细节信息如准确识别正在修理的是链条而非车轮。 例子与Video-ChatGPT相比LongVLM能够更准确地识别视频内容中的细节信息。