当前位置: 首页 > news >正文

地方信息网站源码网站定制设计师

地方信息网站源码,网站定制设计师,有没有做衣服的网站吗,半透明主题 wordpress在《多模态大模型轻量化探索-视觉大模型SAM的视觉编码器》介绍到#xff0c;缩小视觉编码器的尺寸#xff0c;能够有效的降低多模态大模型的参数量。再来看一个整体的工作#xff0c;从视觉侧和语言模型侧综合考量模型参数量的平衡模式#xff0c;进一步降低参数量#xf…在《多模态大模型轻量化探索-视觉大模型SAM的视觉编码器》介绍到缩小视觉编码器的尺寸能够有效的降低多模态大模型的参数量。再来看一个整体的工作从视觉侧和语言模型侧综合考量模型参数量的平衡模式进一步降低参数量甚至最小达256M参数量推理时显存占用1GB。下面来看看仅供参考。 模型架构 那么如何设计一个高效的小型多模态模型架构 Q1 如何在视觉和语言模型之间分配计算 传统大型VLMs如Flamingo将90%以上参数分配给语言模型LM但SmolVLM发现小规模LM需重新平衡视觉与语言的计算资源。 研究方法将三种不同规模的SmolLM2变体135M、360M和1.7B参数与两种SigLIP编码器一个紧凑的93M SigLIP-B/16和一个较大的428M SigLIP-SO400M进行配对。 发现通常情况下较大的VLM会不均衡地将参数分配给语言模型但在小型模型中这种分配方式不再适用。当使用大型编码器与最小的LM135M时性能显著下降表明这种配置效率低下。在中等规模的LM360M中较大的编码器可以提高性能但会增加66%的参数。只有在最大的LM1.7B中较大的编码器仅增加10%的参数。 结论紧凑的多模态模型受益于平衡的编码器-LM参数分配使得较小的视觉编码器在效率上更具优势。即模型越小视觉编码器应更轻量避免“头重脚轻”。当使用具有最小LM135M的大编码器时性能显著下降突显了编码器-LM平衡效率低下。在中等LM规模360M时较大的编码器将性能提高了11.6%但这也伴随着参数增加了66%使得紧凑型编码器更可取。只有在最大的LM规模1.7B时较大的编码器仅代表参数增加了10%。 Q2 如何有效地将图像传递给语言模型 如何支持长上下文与对视觉token进行压缩为了提高模型的上下文处理能力采用了自注意力架构其中视觉Token与文本token连接并由语言模型共同处理。这种方法需要比SmolLM2的2ktoken限制更多的上下文。 研究方法通过增加RoPE基数从10k到273k来扩展上下文容量并在长上下文数据如Dolma书籍和The Stack和短上下文数据如FineWeb-Edu、DCLM和SmolLM2的数学数据上进行微调。 发现扩展上下文窗口对紧凑VLM有显著的好处。对于1.7B的LM微调在16ktoken时表现稳定但对于较小的模型135M和360M在超过8k token时表现不佳。因此研究者们为SmolVLM采用了16k token的上下文并为较小的变体设定了8k token的限制。 像素重排重新排列编码图像以增加通道深度为代价换取空间分辨率。这减少了视觉标记数量同时保持信息密度。 原理将2×2空间区域重组为通道维度上图token数减少4倍r2时。 对比基线InternVL等使用r2但SmolVLM证明小模型需更激进压缩。 结论小型VLM显著受益于扩展的上下文长度。 Q3 如何有效地编码图像和视频 在多模态建模中平衡图像和视频之间的token分配至关重要。图像通常需要更高的分辨率和更多的token来保持质量而视频则需要更少的token来高效处理长序列。 研究方法采用了一种图像分割策略灵感来自UReader和SPHINX将高分辨率图像分割成多个子图像并保留原始图像的缩小版本。这种方法在不增加过多计算开销的情况下保持了图像质量。 视频处理对于视频研究者们发现帧平均策略会负面影响性能下图。因此选择不采用帧平均策略而是将视频帧重新缩放到图像编码器的分辨率。 结论对于小型模型图像分割增强了视觉任务的表现而视频帧平均则不适用。 数据策略 数据配比最终训练集含14%文本、33%视频、53%图像 性能 衍生模型-端到端的PDF解析多模态模型SmolDocling 模型结构就是SmolVLM 训练数据该模型核心训练数据构造上引入了一种新的文档标记格式DocTags用于标准化文档转换这个是核心意义。DocTags定义了一个明确的标签和规则集以分离文本内容和文档结构从而提高图像到序列模型的性能如下图 对应的语法 从上面类XML标签语法看来感觉设计的非常冗余。整体上结合模型架构也没什么特殊的创新点并且之前被自媒体吹得性能很强实际上该模型还是demo玩具。个人使用后观点。 参考文献SmolVLM: Redefining small and efficient multimodal modelshttps://arxiv.org/pdf/2504.05299 开源地址https://github.com/huggingface/smollm
http://www.pierceye.com/news/229921/

相关文章:

  • 网站空间域名维护协议网站备案的意义
  • word可以做网站链接吗网站推广的基本方法有哪些
  • 公司展示型网站wordpress后台邮箱怎么设置
  • 小程序咸鱼之王2022年搜索引擎优化指南
  • 企业网站建设 价格wordpress汉化主题
  • 兰州市建设厅官方网站做网站用的编程工具
  • 网站建设及维护招聘周口航迪科技网站建设公司怎么样
  • 服装外贸网站建设discuz应用
  • flash个人网站欣赏网站营销单页怎么做
  • 设计网站用什么语言网站建设需求范文
  • seo织梦网站建设步骤昆明网络营销软件
  • 企业网站 静态页面成都设计公司邮箱
  • 创世网站建设 优帮云北京网站建设工作室
  • 网站空间提供商哪个网站可以做英文兼职
  • 社区网站制作平台网站建设调研报告
  • 不会建网站怎么赚钱dw个人主页模板
  • 自助建站系统哪个好thinkphp做的网站源码
  • 广州企业网站模板建站现在有什么网站可以做兼职的
  • 网站开发 公司百度seo公司整站优化软件
  • 沈阳学网站制作学校网络推广龙岗比较好的
  • 佛山 建站公司网站风格一般具有哪三大特征
  • 网站的二级页面怎么做济南网站建设行知科技不错
  • 网站赢利如何查看实时街景地图
  • 手表网站欧米茄官方网络平台管理制度和管理办法
  • 北京网站建设网站网站不用工具开发建设
  • 杭州做网站外包公司有哪些网站幻灯片效果
  • 北京模板建站代理好看怎么上传视频网站吗
  • 品牌网站建设小科6a蚪html制作电影网页
  • 环保网站建设维护情况报告北京seo方法
  • 网站建设及使用企业名字查重系统