肇庆网站制作策划,app制作平台大全,网站改版工作方案,网站 易用性原则快速看一下Kwai Keye-VL的技术报告#xff0c;
模型架构 Keye-VL和经典的MLLM架构类似#xff0c;由ViTMLPLLM组成。视觉侧有两点可以看看#xff1a;
1、具有原生分辨率的视觉编码器
提到#xff0c;MLLMs使用预训练的固定分辨率ViT作为视觉编码器。然而#xff0c;这…快速看一下Kwai Keye-VL的技术报告
模型架构 Keye-VL和经典的MLLM架构类似由ViTMLPLLM组成。视觉侧有两点可以看看
1、具有原生分辨率的视觉编码器
提到MLLMs使用预训练的固定分辨率ViT作为视觉编码器。然而这些ViT通常是为处理粗粒度的图像-文本匹配任务而设计的而MLLMs需要处理更细粒度的生成任务。因此Kwai Keye-VL模型实现了一个原生分辨率的ViT以自然地处理原始分辨率的图像避免复杂的图像拼接或分割操作。ps前期介绍的《Kimi-VL的MoonViT视觉编码器》中好像也是个思想。
具体实现Kwai Keye-VL的ViT是基于SigLIP-400M-384-14进行初始化。为了保持图像的结构完整性和细节模型采用了插值技术将固定的位置嵌入扩展为自适应分辨率的位置嵌入并引入了二维旋转位置嵌入RoPE来增强视觉信息的建模能力。
2、视觉编码
为了确保语言解码器能够充分感知和理解图像和视频中的视觉信号模型为图像和视频建模保留了足够的token缓冲区。
对于不同分辨率的图像每个图像的总token数设置为16384这足以覆盖超过一百万像素的图像并帮助模型在大多数情况下看到图像的细节。对于视频建模模型设计了一种动态分辨率策略平衡了最大帧数和总token数。
训练策略
预训练
1、训练数据概述
模型使用了超过600B token来源包括公共数据集和专有的内部数据。训练数据主要涵盖六个类别图像字幕、OCR和VQA、定位和计数、交错文本-图像、视频理解和纯文本数据。
2、预训练管道
预训练采用了四阶段的渐进式训练策略如下图 阶段0视觉预训练 预训练视觉编码器以使其适应内部数据分布并支持动态分辨率。 阶段1跨模态对齐 语言模型从Qwen3-8B初始化在此阶段视觉和语言模型的参数被冻结专注于优化投影MLP层。通过大规模数据集建立跨模态特征的强对齐为后续学习阶段奠定基础。 阶段2多任务预训练 解冻所有模型参数进行端到端的优化使用多样化的多任务训练数据。数据涵盖了常见的视觉-语言任务如图像字幕、OCR、定位、VQA和交错图像-文本数据显著增强了模型的基本视觉理解能力。 阶段3退火 在此阶段模型在精选的高质量数据上进行微调目标是解决在大规模训练中缺乏高质量样本暴露的问题。通过优化的学习策略和数据混合进一步细化模型的细微理解能力。 模型合并 在预训练的最后阶段探索同质-异质合并技术通过平均不同数据混合的模型权重减少整体偏差并增强模型鲁棒性。
后训练 后训练过程分为两个阶段训练模型的综合能力。初始阶段专注于建立自然图像理解和文本交互的基础性能后续阶段则集中于逐步增强模型的复杂推理能力。
1、无推理训练建立基础性能
这一阶段通过两个连续步骤建立模型在非推理场景中的核心性能和稳定性。由sftmpo两步骤构成
1.1、SFT
SFT数据候选池包含超过500万个多模态QA样本。为了确保任务的多样性和数据的质量采取了以下方法
任务多样性使用TaskGalaxy框架将数据分类为70,000种不同的多模态任务类型。数据挑战性通过MLLMs生成多个推理路径测量每个样本的复杂性过滤过于简单的样本。数据可靠性人类注释者为训练集中的图像和视频精心制作字幕。
训练策略包括动态学习率并在训练后期进行退火处理以提高性能。
1.2、混合偏好优化MPO
MPO可以看看前期文章《多模态偏好数据集生成与混合偏好优化MPO方法》这里不展开。
在SFT之后模型通过MPO进一步优化其性能。数据集包括开源样本、重建偏好样本、自我改进样本、仅文本样本和人类注释样本。MPO算法用于优化模型在非推理环境中的整体性能。
2、推理训练复杂认知 这一阶段通过引入混合模式的CoT冷启动和强化学习机制显著增强模型的多模态感知、推理和“思考与图像”能力。分下面三步
2.1、CoT冷启动
此步骤初始化模型的链式思维能力结合长CoT数据和指示性数据促进复杂问题的结构化思考同时保持开放任务的风格多样性和响应灵活性。
2.2、混合模式RL
在CoT冷启动的基础上使用RL进一步增强模型的能力特别是在多模态感知、推理和数学推理方面。通过GRPO算法模型在短视视频理解等任务上表现出显著的性能提升。
2.3、迭代对齐
最后一步通过迭代对齐来解决重复崩溃和逻辑错误问题。使用拒绝采样数据通过多轮迭代优化模型使其能够根据任务难度自动选择合适的推理模式。
数据概览 阶段子阶段数据集组成数据类型数据来源和构建方法无推理训练建立基础性能监督微调SFT超过500万个多模态QA样本多样化的任务类型包括复杂的推理路径使用TaskGalaxy框架分类为70,000种不同的多模态任务类型通过MLLMs生成多个推理路径过滤过于简单的样本人类注释者为图像和视频制作字幕。混合偏好优化MPO400,000个开源样本50,000个重建偏好样本10,000个自我改进样本90,000个仅文本样本30,000个人类注释样本开源数据、重建偏好数据、自我改进数据、仅文本数据和人类注释数据- 开源数据进行简单去重和过滤保留400,000个样本。 - 重建偏好数据使用现有多模态偏好数据集如MM-RLHF并使用开源大模型生成高质量负例。 - 强化微调RFT数据针对SFT模型的弱点构建偏好对。 - 仅文本数据包括90,000个内部仅文本偏好对。 - 人类注释数据使用MM-RLHF流程生成30,000个人类注释偏好对。推理训练复杂认知的核心突破CoT冷启动330,000个非推理样本230,000个推理样本20,000个自动推理样本100,000个代理推理样本长CoT数据和指示性数据结合推理和非推理数据结合长CoT数据和指示性数据促进复杂问题的结构化思考。混合模式RL多模态感知数据多模态推理数据基于文本的数学推理数据代理推理数据MMPR、MM-Eureka等数据集DeepEyes数据集中的47,000个样本使用MMPR、MM-Eureka等数据集以及DeepEyes数据集中的样本通过GRPO算法增强模型的能力。迭代对齐来自指令跟随、OCR、数学、图表、计数、仅文本内容、安全和认知领域的拒绝采样数据拒绝采样数据用于选择“好案例”和“坏案例”通过多轮迭代选择“好案例”和“坏案例”来构建偏好对使用MPO算法更新模型。
实验 ViT的零样本图像分类 公共基准测试 参考文献Kwai Keye-VL Technical Reporthttps://arxiv.org/pdf/2507.01949 repo:https://github.com/Kwai-Keye/Keye