当前位置：首页 > news >正文

个人网站备案转公司备案长沙网站seo报价

news 2025/11/22 4:22:04

个人网站备案转公司备案,长沙网站seo报价,广州百度竞价开户,做网站游戏都需要什么目录一、InternVL1.5 1、改进二、InternVL2 1、渐进式扩展 2、多模态扩展三、InternVL2.5 1、方法 2、数据优化四、InternVL3 2、方法 3、训练后处理 4、测试时扩展五、BLIP-3o 一、InternVL1.5 1、改进 InternVL1.5在InternVL基础上#xff0c;优化了QLLa…目录一、InternVL1.5 1、改进二、InternVL2 1、渐进式扩展 2、多模态扩展三、InternVL2.5 1、方法 2、数据优化四、InternVL3 2、方法 3、训练后处理 4、测试时扩展五、BLIP-3o 一、InternVL1.5 1、改进 InternVL1.5在InternVL基础上优化了QLLaMA中间件转而采用简单的MLP作为图文对齐的桥梁。视觉编码器将InternViT-6B的层数从48层优化到45层并且通过连续学习策略提升视觉理解能力在高质量图文数据上微调处理高分辨率图像448x448 动态高分辨率根据输入图像宽高比和分辨率将图像分割为1到40个448x448的图块最高支持4K分辨率输入。低分辨率用于场景描述高分辨率用于文档理解。训练过程中先使用224x224的分辨率进行训练再使用448x448分辨率训练。 Pixel Shuffle为提升高分辨率的扩展性将像素随机排列为visual tokens数量降低到原来的四分之一。训练过程包含预训练微调两步预训练数据采用海量互联网公开数据集弱标注图文对采用双语数据数亿级别只训练InternViT-6B和MLP。微调部分数据包含文档解析、数学推理、多轮对话多任务百万级别数据量对所有260亿参数进行全参数调整确保模态对齐。上下文均为4096tokens。在InternVL1.2与LLaVA-NeXT对比中提到二者的LLM部分参数量一致均为34Bvision encoder部分InternVL1.2采用InternViT-6B的6B参数量LLAVA-NeXT采用CLIP-ViT约300M。由于LLAVA-NeXT训练数据集未公开所以自己做了一个相似数据集但由于框架本身问题LLaVA-NeXT采用了672x672的分辨率InternVL采用448x448的分辨率。经过作者的训练过后InternVL1.2在更多的Benchmark下更优证明了大的vision encoder 参数量可以支撑更复杂的推理的特征信息。 InterVL1.5在OCR任务中效果可以与GPT-4VQwen-VL-MaxGemini ultra1.0这些方法竞争在多模态评估问题上还是站不太住。二、InternVL2 InternVL2在InternVL1.5架构基础上针对更多模态更多任务更大参数量进行了扩展。InternVL2系列也是从2B参数量到108B参数量适应不同的场景应用。 1、渐进式扩展采用从小模型到大模型渐进训练数据从粗到精迭代的策略。通过这种方式显著降低了大模型训练成本并且在有限资源下实现高性能。具体来说先用小规模语言模型20B参数训练视觉编码器InternViT之后将视觉编码器迁移到大规模LLM上通过这种机制训练效率提升十倍参数量更大。这一部分在InternVL2.5论文才提到另外提到InternVL2首次实现视觉基础模型与大语言模型的原生对齐。由于没有论文只有一个technical log不太懂 2、多模态扩展支持文本、图像、视频、医疗数据统一输入并且在以往1.5版本聚焦图文双模态的基础上增加了视频理解和医疗数据解析。支持下游任务泛化通过VisionLLMv2框架链接下游任务解码器支持图像生成、检测框、分割掩码等多样化输出。VisionLLMv2框架图如下。 InternVL2的训练第一阶段应该是冻结了InternViT只训练MLP第二阶段依然是全参数微调。三、InternVL2.5 InternVL2.5的架构如出一辙他的改进在于训练过程和数据。 1、方法训练过程由于InternVL2采用的渐进式训练所以已经预训练了InternViT。第一部分训练MLP第二部分训练InternViTMLP第三部分训练所有参数。测试时扩展test-time scaling在推理阶段动态调整模型行为通过多次生成结果优化最终输出。通过CoTMajority Voting实现。通过这种方式多步验证降低大模型illusion尤其是在复杂数学问题长文档分析上。思维链推理CoTChain-of-Thought通过多步逻辑推理生成答案并模拟人类逐步分析问题的过程。在提示词中要求模型先解释推理步骤再给出最终答案。 2、数据优化尽管CoT在推理阶段执行但是其效果高度依赖训练数据的质量低质量的数据会导致模型在CoT推理过程中陷入循环错误。以往推理循环的表现如下。 InternVL2.5解决办法文本数据通过严格过滤训练数据使用LLM评分来剔除低质量样本多模态数据采用启发式规则人工审核的方式。图像数据 1动态切片机制根据输入图像的宽高比和分辨率动态划分为448x448的像素切片范围在1-40每一张图片根据最接近的最优宽高比进行最小化失真最优宽高比为预定义的35种组合1:12:13:2等 2多模态数据统一由于在对话中可以输入单图多图视频数据所以进行了统一对于单图数据多图数据均进行动态切片划分单图分割为12个切片全局缩略图多图分割为总切片12个切片。视频数据简化操作固定每帧分辨率448x448保证显存承受压力由于帧数过多放弃动态切片用全局理解替换牺牲细节。数据量从v1.5到v2.5是逐渐增长的。通过这一设计InternVL2.5OCR多图片理解多模态理解和幻觉处理视觉定位多模态多语言性能视频理解等任务均达到SOTA。另外InternViT2.5在图像分类图像分割指标上也超过以往的1.0,1.2,1.5,2.0主要是因为参数量训练数据量扩展。四、InternVL3 1、概述以往的InternVL系列都是先训练LLM模块再将LLM改造成可以支持输入多模态信息的MLLM的“先纯文本预训练-后多模态对齐”的分阶段流程。而InternVL3是通过单阶段联合训练范式的原生预训练解决了以往MLLM训练后处理的视觉和语言一致性和复杂性挑战提升了性能和扩展性。这也是第一个原生多模态模型。创新可变视觉位置编码以适应更长的多模态上下文。后训练策略SFTMPOtest-time缩放原则提升了性能和效率。 InternVL3不仅在原有的多学科推理文档理解图像视频理解现实场景理解幻觉检测视觉定位多语言能力中领先InternVL2.5同时在工具使用空间推理工业图像分析图形用户界面代理上也取得了新的进展。性能上与开源项目Qwen2.5-VL不相上下与闭源项目Chatgpt-4o,Gemini-2.5 ProClaude3.5-sonnet旗鼓相当。 OpenCompass多模态学术排行榜上不同MLLMs的比较。 2、方法整体架构仍然沿用ViT-MLP-LLM的三阶段架构。视觉编码器采用两种预训练视觉模型作为基础InternViT-300M用于轻量级模型InternVL3-1BInternViT-6B用于大型模型InternVL3-78B。采用高分辨率优化Pixel Unshuffle将图像分割成448x448像素图块并编码为256个tokens显著降低计算开销。这一波方法跟之前相同语言模型基于开源LLM初始化预训练Qwen2.5-72B或InternLM3-8B。 MLP两层全连接网络随机初始化权重并将ViT输出的视觉嵌入投影到LLM嵌入空间中实现模态对齐。变量视觉位置编码V2PE) 由于MLLM中的传统位置编码对视觉令牌使用固定增量1导致长序列视频超出模型的位置窗口限制。V2PE中设置动态增量对文本token仍然1视觉token其中在训练中从离散数据集中随机采样。具体来说MLLM中一组token记录为位置编码记录为。函数关系在V2PE中满足其中原生多模态预训练方法数据混合 1多模态数据图像-文本对视频帧序列跨膜态文档医学图标GUI 2纯文本数据开源语料数学文本知识文本数据比例为纯文本 vs 多模态1:3共200B tokens平衡模态对齐与语言能力。所有输入统一为序列。仅仅通过token计算自回归损失迫使视觉token编码为语言预测的有效信号。由于token输入中对于长文本或者短文本保证一定的理解所以以往的方法设计了token平均偏向长文本或样本平均偏向短文本从而存在梯度偏差而本文采用了平方平均加权。权重定义为为样本token数。训练过程中ViTMLPLLM同步更新突破传统冻结策略的限制并全局采用text-only loss。 3、训练后处理原生多模态训练之后采用两阶段的后处理训练策略提升模型性能。监督微调对数据采用随机JPEG压缩模拟真实场景下图像退化的问题并继续沿用平方平均加权数据采用图像、视频、文本混合输入并且将训练样本数据量再一次提高1630w-2170w) 新增GUI操作3D场景理解科学图标解析等数据领域。混合偏好优化由于SFT的训练过程中训练时采用真实标签推理时依赖模型自生成内容会造成曝光偏差exposure bias)所以基于300K的偏好对信息覆盖科学推理科学问答OCR复杂场景并在正例中包含CoT反例加入错误模式。损失采用偏好损失学习人类偏好质量损失独立评估响应的绝对质量生成损失三重融合以往的LM loss维持文本生成流畅性。 4、测试时扩展提升复杂任务的鲁棒性引入动态推理优化机制。采用Best-of-N采样策略选用VisualPRM视觉过程奖励模型作为评估模型利用最优响应完成推理和评估任务。 Best-of-N工作流程对同一问题生成 N 个候选响应默认 N8用 VisualPRM 奖励模型对每个响应评分选择最高分响应作为最终输出。五、BLIP-3o

查看全文

http://www.pierceye.com/news/172878/