当前位置: 首页 > news >正文

遂溪网站建设公司深圳网站建设 设计科技有限公司

遂溪网站建设公司,深圳网站建设 设计科技有限公司,wordpress赚钱方法,做一个网站首页多少钱目录 一、InternVL1.5 1、改进 二、InternVL2 1、渐进式扩展 2、多模态扩展 三、InternVL2.5 1、方法 2、数据优化 四、InternVL3 2、方法 3、训练后处理 4、测试时扩展 五、BLIP-3o 一、InternVL1.5 1、改进 InternVL1.5在InternVL基础上#xff0c;优化了QLLa…目录 一、InternVL1.5 1、改进 二、InternVL2 1、渐进式扩展 2、多模态扩展 三、InternVL2.5 1、方法 2、数据优化 四、InternVL3 2、方法 3、训练后处理 4、测试时扩展 五、BLIP-3o 一、InternVL1.5 1、改进 InternVL1.5在InternVL基础上优化了QLLaMA中间件转而采用简单的MLP作为图文对齐的桥梁。 视觉编码器将InternViT-6B的层数从48层优化到45层并且通过连续学习策略提升视觉理解能力在高质量图文数据上微调处理高分辨率图像448x448 动态高分辨率根据输入图像宽高比和分辨率将图像分割为1到40个448x448的图块最高支持4K分辨率输入。低分辨率用于场景描述高分辨率用于文档理解。训练过程中先使用224x224的分辨率进行训练再使用448x448分辨率训练。 Pixel Shuffle为提升高分辨率的扩展性将像素随机排列为visual tokens数量降低到原来的四分之一。 训练过程包含预训练微调两步预训练数据采用海量互联网公开数据集弱标注图文对采用双语数据数亿级别只训练InternViT-6B和MLP。微调部分数据包含文档解析、数学推理、多轮对话多任务百万级别数据量对所有260亿参数进行全参数调整确保模态对齐。上下文均为4096tokens。 在InternVL1.2与LLaVA-NeXT对比中提到二者的LLM部分参数量一致均为34Bvision encoder部分InternVL1.2采用InternViT-6B的6B参数量LLAVA-NeXT采用CLIP-ViT约300M。由于LLAVA-NeXT训练数据集未公开所以自己做了一个相似数据集但由于框架本身问题LLaVA-NeXT采用了672x672的分辨率InternVL采用448x448的分辨率。经过作者的训练过后InternVL1.2在更多的Benchmark下更优证明了大的vision encoder 参数量可以支撑更复杂的推理的特征信息。 InterVL1.5在OCR任务中效果可以与GPT-4VQwen-VL-MaxGemini ultra1.0这些方法竞争在多模态评估问题上还是站不太住。 二、InternVL2 InternVL2在InternVL1.5架构基础上针对更多模态更多任务更大参数量进行了扩展。InternVL2系列也是从2B参数量到108B参数量适应不同的场景应用。 1、渐进式扩展 采用从小模型到大模型渐进训练数据从粗到精迭代的策略。通过这种方式显著降低了大模型训练成本并且在有限资源下实现高性能。具体来说先用小规模语言模型20B参数训练视觉编码器InternViT之后将视觉编码器迁移到大规模LLM上通过这种机制训练效率提升十倍参数量更大。这一部分在InternVL2.5论文才提到 另外提到InternVL2首次实现视觉基础模型与大语言模型的原生对齐。由于没有论文只有一个technical log不太懂 2、多模态扩展 支持文本、图像、视频、医疗数据统一输入并且在以往1.5版本聚焦图文双模态的基础上增加了视频理解和医疗数据解析。 支持下游任务泛化通过VisionLLMv2框架链接下游任务解码器支持图像生成、检测框、分割掩码等多样化输出。VisionLLMv2框架图如下。 InternVL2的训练第一阶段应该是冻结了InternViT只训练MLP第二阶段依然是全参数微调。  三、InternVL2.5 InternVL2.5的架构如出一辙他的改进在于训练过程和数据。 1、方法 训练过程由于InternVL2采用的渐进式训练所以已经预训练了InternViT。第一部分训练MLP第二部分训练InternViTMLP第三部分训练所有参数。 测试时扩展test-time scaling在推理阶段动态调整模型行为通过多次生成结果优化最终输出。通过CoTMajority Voting实现。通过这种方式多步验证降低大模型illusion尤其是在复杂数学问题长文档分析上。 思维链推理CoTChain-of-Thought通过多步逻辑推理生成答案并模拟人类逐步分析问题的过程。在提示词中要求模型先解释推理步骤再给出最终答案。 2、数据优化 尽管CoT在推理阶段执行但是其效果高度依赖训练数据的质量低质量的数据会导致模型在CoT推理过程中陷入循环错误。 以往推理循环的表现如下。 InternVL2.5解决办法文本数据通过严格过滤训练数据使用LLM评分来剔除低质量样本多模态数据采用启发式规则人工审核的方式。 图像数据 1动态切片机制根据输入图像的宽高比和分辨率动态划分为448x448的像素切片范围在1-40每一张图片根据最接近的最优宽高比进行最小化失真最优宽高比为预定义的35种组合1:12:13:2等 2多模态数据统一由于在对话中可以输入单图多图视频数据所以进行了统一对于单图数据多图数据均进行动态切片划分单图分割为12个切片全局缩略图多图分割为总切片12个切片。视频数据简化操作固定每帧分辨率448x448保证显存承受压力由于帧数过多放弃动态切片用全局理解替换牺牲细节。 数据量从v1.5到v2.5是逐渐增长的。 通过这一设计InternVL2.5OCR多图片理解多模态理解和幻觉处理视觉定位多模态多语言性能视频理解等任务均达到SOTA。 另外InternViT2.5在图像分类图像分割指标上也超过以往的1.0,1.2,1.5,2.0主要是因为参数量训练数据量扩展。 四、InternVL3 1、概述 以往的InternVL系列都是先训练LLM模块再将LLM改造成可以支持输入多模态信息的MLLM的“先纯文本预训练-后多模态对齐”的分阶段流程。而InternVL3是通过单阶段联合训练范式的原生预训练解决了以往MLLM训练后处理的视觉和语言一致性和复杂性挑战提升了性能和扩展性。这也是第一个原生多模态模型。 创新可变视觉位置编码以适应更长的多模态上下文。后训练策略SFTMPOtest-time缩放原则提升了性能和效率。 InternVL3不仅在原有的多学科推理文档理解图像视频理解现实场景理解幻觉检测视觉定位多语言能力中领先InternVL2.5同时在工具使用空间推理工业图像分析图形用户界面代理上也取得了新的进展。性能上与开源项目Qwen2.5-VL不相上下与闭源项目Chatgpt-4o,Gemini-2.5 ProClaude3.5-sonnet旗鼓相当。 OpenCompass多模态学术排行榜上不同MLLMs的比较。 2、方法 整体架构 仍然沿用ViT-MLP-LLM的三阶段架构。 视觉编码器采用两种预训练视觉模型作为基础InternViT-300M用于轻量级模型InternVL3-1BInternViT-6B用于大型模型InternVL3-78B。采用高分辨率优化Pixel Unshuffle将图像分割成448x448像素图块并编码为256个tokens显著降低计算开销。这一波方法跟之前相同 语言模型基于开源LLM初始化预训练Qwen2.5-72B或InternLM3-8B。 MLP两层全连接网络随机初始化权重并将ViT输出的视觉嵌入投影到LLM嵌入空间中实现模态对齐。 变量视觉位置编码V2PE) 由于MLLM中的传统位置编码对视觉令牌使用固定增量1导致长序列视频超出模型的位置窗口限制。V2PE中设置动态增量对文本token仍然1视觉token其中在训练中从离散数据集中随机采样。 具体来说MLLM中一组token记录为位置编码记录为。 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         函数关系在V2PE中满足 其中 原生多模态预训练方法 数据混合 1多模态数据图像-文本对视频帧序列跨膜态文档医学图标GUI 2纯文本数据开源语料数学文本知识文本 数据比例为纯文本 vs 多模态1:3共200B tokens平衡模态对齐与语言能力。所有输入统一为序列。仅仅通过token计算自回归损失迫使视觉token编码为语言预测的有效信号。 由于token输入中对于长文本或者短文本保证一定的理解所以以往的方法设计了token平均偏向长文本或样本平均偏向短文本从而存在梯度偏差而本文采用了平方平均加权。权重定义为为样本token数。 训练过程中ViTMLPLLM同步更新突破传统冻结策略的限制并全局采用text-only loss。 3、训练后处理 原生多模态训练之后采用两阶段的后处理训练策略提升模型性能。 监督微调      对数据采用随机JPEG压缩模拟真实场景下图像退化的问题并继续沿用平方平均加权数据采用图像、视频、文本混合输入并且将训练样本数据量再一次提高1630w-2170w) 新增GUI操作3D场景理解科学图标解析等数据领域。 混合偏好优化 由于SFT的训练过程中训练时采用真实标签推理时依赖模型自生成内容会造成曝光偏差exposure bias)所以基于300K的偏好对信息覆盖科学推理科学问答OCR复杂场景并在正例中包含CoT反例加入错误模式。 损失采用偏好损失学习人类偏好质量损失独立评估响应的绝对质量生成损失三重融合以往的LM loss维持文本生成流畅性。 4、测试时扩展 提升复杂任务的鲁棒性引入动态推理优化机制。 采用Best-of-N采样策略选用VisualPRM视觉过程奖励模型作为评估模型利用最优响应完成推理和评估任务。 Best-of-N工作流程对同一问题生成 ​​N 个候选响应​​默认 N8用 ​​VisualPRM 奖励模型​​ 对每个响应评分选择 ​​最高分响应​​ 作为最终输出。 五、BLIP-3o
http://www.pierceye.com/news/12947/

相关文章:

  • 更改网站描述新公司简介范文
  • 网站建设需要注意什么哪些微信里的小程序找不到了
  • 常州网站建设 光龙用html表格做的网站
  • 深圳网站平台哪家强网站 宣传方案
  • 什么网站从做系统上海排名优化推广工具
  • 自学网站建设看哪本书宁波网站建设设计至诚服务
  • 网站开发技术书籍用asp.net做购物车网站
  • 网站上图片不能下载 该怎么做找网站做q币
  • 电商网站规划的开发背景网站建设维护去哪里学
  • 网站如何做二级域名东莞市有几个区
  • 网站的内链建设wordpress 播放视频
  • 微网站开发提供的服务器可以做网站的路由器
  • php电子商务网站模板全国网站开发公司
  • 建站网站主题设置不能点学校网站开发需求
  • 网站设计 品牌设计做下载网站赚钱吗
  • 怎么知道网站有没有备案推荐微网站建设
  • 贵州建设监理协会网站网站筛选功能
  • 网站开发常用语言总结黑龙江网站建设巨耀网络
  • 网站改版怎么弄做有网被视频网站有哪些
  • 商城网站建设教学央企网站开发
  • 高职图书馆网站建设大赛拼多多货源一件代发平台
  • 网站数据修改WordPress立体边框
  • 怎么做网站版面网站建设产品经理职责
  • html5做网站链接范例在线生成个人网站免费观看
  • 做网站如何对接支付科技小制作怎么做视频网站
  • 福州++网站建设自己怎么制作网页链接
  • 用html做网站顺序wordpress上传的图片不显示
  • 屋领网站固链广告平面设计师
  • 陕西省建设教育培训中心网站网站建设投资
  • 定制网站哪个好无锡市网站设计