地方信息网站源码,网站定制设计师,有没有做衣服的网站吗,半透明主题 wordpress在《多模态大模型轻量化探索-视觉大模型SAM的视觉编码器》介绍到#xff0c;缩小视觉编码器的尺寸#xff0c;能够有效的降低多模态大模型的参数量。再来看一个整体的工作#xff0c;从视觉侧和语言模型侧综合考量模型参数量的平衡模式#xff0c;进一步降低参数量#xf…在《多模态大模型轻量化探索-视觉大模型SAM的视觉编码器》介绍到缩小视觉编码器的尺寸能够有效的降低多模态大模型的参数量。再来看一个整体的工作从视觉侧和语言模型侧综合考量模型参数量的平衡模式进一步降低参数量甚至最小达256M参数量推理时显存占用1GB。下面来看看仅供参考。
模型架构 那么如何设计一个高效的小型多模态模型架构
Q1 如何在视觉和语言模型之间分配计算
传统大型VLMs如Flamingo将90%以上参数分配给语言模型LM但SmolVLM发现小规模LM需重新平衡视觉与语言的计算资源。
研究方法将三种不同规模的SmolLM2变体135M、360M和1.7B参数与两种SigLIP编码器一个紧凑的93M SigLIP-B/16和一个较大的428M SigLIP-SO400M进行配对。
发现通常情况下较大的VLM会不均衡地将参数分配给语言模型但在小型模型中这种分配方式不再适用。当使用大型编码器与最小的LM135M时性能显著下降表明这种配置效率低下。在中等规模的LM360M中较大的编码器可以提高性能但会增加66%的参数。只有在最大的LM1.7B中较大的编码器仅增加10%的参数。
结论紧凑的多模态模型受益于平衡的编码器-LM参数分配使得较小的视觉编码器在效率上更具优势。即模型越小视觉编码器应更轻量避免“头重脚轻”。当使用具有最小LM135M的大编码器时性能显著下降突显了编码器-LM平衡效率低下。在中等LM规模360M时较大的编码器将性能提高了11.6%但这也伴随着参数增加了66%使得紧凑型编码器更可取。只有在最大的LM规模1.7B时较大的编码器仅代表参数增加了10%。 Q2 如何有效地将图像传递给语言模型
如何支持长上下文与对视觉token进行压缩为了提高模型的上下文处理能力采用了自注意力架构其中视觉Token与文本token连接并由语言模型共同处理。这种方法需要比SmolLM2的2ktoken限制更多的上下文。
研究方法通过增加RoPE基数从10k到273k来扩展上下文容量并在长上下文数据如Dolma书籍和The Stack和短上下文数据如FineWeb-Edu、DCLM和SmolLM2的数学数据上进行微调。
发现扩展上下文窗口对紧凑VLM有显著的好处。对于1.7B的LM微调在16ktoken时表现稳定但对于较小的模型135M和360M在超过8k token时表现不佳。因此研究者们为SmolVLM采用了16k token的上下文并为较小的变体设定了8k token的限制。 像素重排重新排列编码图像以增加通道深度为代价换取空间分辨率。这减少了视觉标记数量同时保持信息密度。 原理将2×2空间区域重组为通道维度上图token数减少4倍r2时。 对比基线InternVL等使用r2但SmolVLM证明小模型需更激进压缩。
结论小型VLM显著受益于扩展的上下文长度。
Q3 如何有效地编码图像和视频
在多模态建模中平衡图像和视频之间的token分配至关重要。图像通常需要更高的分辨率和更多的token来保持质量而视频则需要更少的token来高效处理长序列。
研究方法采用了一种图像分割策略灵感来自UReader和SPHINX将高分辨率图像分割成多个子图像并保留原始图像的缩小版本。这种方法在不增加过多计算开销的情况下保持了图像质量。
视频处理对于视频研究者们发现帧平均策略会负面影响性能下图。因此选择不采用帧平均策略而是将视频帧重新缩放到图像编码器的分辨率。 结论对于小型模型图像分割增强了视觉任务的表现而视频帧平均则不适用。
数据策略
数据配比最终训练集含14%文本、33%视频、53%图像 性能 衍生模型-端到端的PDF解析多模态模型SmolDocling
模型结构就是SmolVLM 训练数据该模型核心训练数据构造上引入了一种新的文档标记格式DocTags用于标准化文档转换这个是核心意义。DocTags定义了一个明确的标签和规则集以分离文本内容和文档结构从而提高图像到序列模型的性能如下图 对应的语法
从上面类XML标签语法看来感觉设计的非常冗余。整体上结合模型架构也没什么特殊的创新点并且之前被自媒体吹得性能很强实际上该模型还是demo玩具。个人使用后观点。
参考文献SmolVLM: Redefining small and efficient multimodal modelshttps://arxiv.org/pdf/2504.05299
开源地址https://github.com/huggingface/smollm