婚纱网站建设案例,网站开发流程中客户的任务是什么,深圳餐饮网站建设,免费建自己的网站本论文研究了能否利用一个“冻结”的LLM#xff0c;直接理解视觉信号#xff08;即图片#xff09;#xff0c;而不用在多模态数据集上进行微调。核心思想是把图片看作一种“语言实体”#xff0c;把图片转换成一组离散词汇#xff0c;这些词汇来自LLM自己的词表。为此直接理解视觉信号即图片而不用在多模态数据集上进行微调。核心思想是把图片看作一种“语言实体”把图片转换成一组离散词汇这些词汇来自LLM自己的词表。为此作者提出了Vision-to-Language TokenizerV2T Tokenizer通过编码器-解码器、LLM词表和CLIP模型的结合把图像转化成一种“外语”。这样编码后LLM不仅能够理解视觉内容还能做图像去噪和修复而且完全不用微调只用冻结的LLM。Abstract问题关注如何让LLM直接理解视觉信号如图像不依赖于多模态数据集的微调。方法核心将图像看作语言实体将图像编码为LLM词表中的离散token单词。设计了Vision-to-Language TokenizerV2L Tokenizer通过encoder-decoder架构、LLM词表和CLIP模型将图像翻译成LLM可解释token。转换后冻结的LLM不仅能做图像理解类任务还能做图像去噪和修复任务自回归生成全程无需fine-tuning。支持的任务包括分类、caption、VQA以及inpainting、outpainting、deblurring等去噪/修复任务。V2L Tokenizer的主要流程。把图像转成一组可解释的token词元这些token直接来自LLM的词表。LLM冻结后它通过这些token就能理解视觉信号能执行多模态相关任务蓝色标记部分也能做图像去噪修复类任务橙色标记部分而无需微调。
Introduction背景
当前多模态模型如GPT、PaLM、LLaMA正从单一NLP任务向视觉-语言任务扩展。一般做法是在语言模型基础上增加视觉模块。然后通过多模态数据集联合训练fine-tuning使视觉和语言latent space对齐。局限性现有做法依赖大规模数据和计算资源。多模态对齐通常在latent特征空间层面训练成本高。本论文贡献在输入token空间对齐视觉和语言信息不是特征空间避免了多模态训练/微调。操作流程通过V2L Tokenizer把图像转为LLM词表内的离散token用encoder-quantizer-decoder架构。冻结LLM可直接接收、处理这些token实现视觉理解、生成和恢复等任务。词表扩展bigrams/trigrams方式提高了视觉到语言token的表达力。用CLIP筛选最具语义信息的组合token作为最终codebook加强与视觉内容的语义对齐。采用in-context learning无需LLM训练仅靠prompt即可做zero-shot视觉任务。
Method3.1 Problem Formulation and Overview图像作为“外语”设定LLM词表为T{t1, t2, ..., tN}。目标是将图像编码为K个LLM词表内的token属于T。实现V2L Tokenizer将图像编码为Kg个全局token语义类任务如分类、caption、VQA等和Kl个局部token细节类任务如denoising、patch level编辑等。K总数KgKl。使用将任务说明in-context学习样本全局或局部token一起输入LLM实现各种自回归视觉任务。3.2 Vision-to-Language Tokenizer整体架构采用encoder-quantizer-decoder结构。有两个独立量化器全局量化器对应全局codebook局部量化器对应局部codebook。Global CodebookLLM词表为一组subword token如BPE/SentencePiece。问题单词token通常语义有限。策略词表扩展为bigrams/trigrams提升语义表达力。但组合词可能语义杂乱如符号。解决用CLIP计算每个图片与所有扩展token的相似性选top-5最相关token。聚合全图片的top-5组合形成最终全局codebook。Local Codebook用于局部patch编码细节直接用LLM原始词表无需扩展。Embedding表示global/local codebook分别通过CLIP text-encoder转化为embeddingLLM embeddinglocal、E-LLM embeddingglobal。增设用户可训练的线性投影器实现语义空间与视觉空间对齐。Encoder包括可训练CNN encoder和冻结CLIP-vision-encoder。CNN encoder类似VQ-GAN提取local特征空间downsample rate为8。CLIP-vision-encoder提取global语义特征。空间特征F∈Rh×w×dlglobal特征f∈Rdg。Quantizerlocal quantizerpatch级对每个F(i,j)选距离最近的局部codebook embedding获得Kl个token。global quantizer对global特征f选最近的全局codebook embedding获得Kg个token。两类embedding全程冻结。Decoder基于VQ-GAN解码器结构stacked transposed卷积自注意力层cross-attention层输入f空间信息F为queryf为key实现全局信息对局部还原的辅助重建。Loss仅优化编码器、解码器、投影层。LLM/E-LLM embedding/vocab及CLIP模型全程冻结。损失包括LVQ、感知损失LPerceptual和GAN损失LGAN各权重λ11.0, λ20.1。具体损失计算参考VQ-GAN。3.3 Visual Signal Comprehension图像处理后得到全局token Tg和局部token Tlflatten后Klhw。结合任务prompt、样例和token一起输入LLM即可实现多样视觉任务。具体任务prompt设计N-way K-shot分类[任务说明样例“Input:Tg, output:类别”]最后输入待测TgLLM输出类别。Image Caption[提示样例“Input:Tg, output:caption”]测样输入TgLLM自回归生成caption遇到句号停止。VQA[说明样例“Condition:Tg. Question:Q. Answer:A”]测样输入Tg和问题LLM输出答案。Image Denoising参考SPAE补全、去模糊、outpainting等均设计相应prompt输入token与要求输出重构token。(a) Inpainting/Outpainting提取local tokens给定一张图片首先用V2L Tokenizer提取它的局部token记为Tl每个token对应图片的一个小块。生成token变体按照SPAE的做法基于Tl生成10份变体记为{Tₗˢ}¹⁰ˢ₌₁。每份变体都是把Tl里的部分token随机换成LLM词表里的其它token形成不同程度“污染”的版本。替换比例按 [23%, 50%; 3%]生成从23%到50%之间每次递增3%形成不同难度的样本。应用掩码对于inpainting任务在Tl的中心加一个8×8掩码区域即中间小块都遮住需要去恢复。对于outpainting则在图片底部加一个8×16掩码区域需要补全图片下方。预测被遮盖token目标是一次预测m个被掩码的token利用它们前面的n个token信息。Prompt结构为[学习新语言按示例推测后面的m个token。{Input: Tₗˢ[n], output: Tₗˢ[m]}¹⁰ˢ₌₁. Input: Tl[n], output:]意思是有10个样例每个输入是前n个token输出是接下来的m个token。实际推理时LLM先用n个未被掩码token连续生成m个被掩码token每次预测完成后把新生成的token补上继续预测下一个m个直到所有被遮盖token都恢复出来。拼接token还原图片最后把生成的token恢复的掩码区域和剩下未被遮盖的token一起拼成完整token map然后送入解码器还原图片。
(b) Deblurring去模糊、Shift/Rotation Restoration任务原理相似Deblurring、Shift和Rotation恢复原理都类似也是“输入一部分token预测剩下的token”。prompt结构差别prompt结构是[学习新语言按示例推测后面的m个token。{Input: Tₗˢ[n m], output: Tₗˢ[m]}¹⁰ˢ₌₁. Input: Tl[n m], output:]这里输入是nm个token预测的还是m个token。Tₗ是模糊/位移/旋转过的图片对应的token序列Tₗˢ表示经过随机token替换后的版本。Tₗˢ也对应原图的random变体。默认n16, m2即每次输入162个token预测2个目标token。关键思路用局部token表示图片把一部分设为掩码/异常/模糊等状态然后通过预设“few-shot prompt”即带10个有答案的示例样例都经过随机扰动让冻结的LLM逐步恢复被遮盖或污染的token再用解码器还原整图。这样就实现了不用微调仅靠文本推理能力恢复修补、补全、去模糊等损坏图片的效果。4. Experiments 4.1 Settings采用了LLaMA2作为LLM有三种参数规模版本分别为7B70亿、13B130亿、70B700亿词表为32,000个词元。局部码本local codebook用的是LLaMA2原始词表global codebook扩展并过滤后规模是11,908。CLIP模型用的是ViT-L/14结构。图片统一resize成128×128像素然后用V2L Tokenizer编码成16×16的token map。训练数据用的是ImageNet-1K共训练100个epoch使用32张NVIDIA V100显卡进行训练。优化器选Adam初始学习率5e-4前5个epoch线性升温然后采用半周期余弦衰减。4.2 Image ComprehensionFew-Shot Classification小样本分类实验在Mini-ImageNet的2-way和5-way分类基准上做图像理解。所有样本和测试图像都用V2L Tokenizer转成Kg个global token。按照3.3节和图3设计prompt输入LLM做分类预测LLM输出文本形式的类别必须所有token跟类别名完全吻合才算正确。在表1比较了不同LLaMA2版本7B/13B/70B、以及同行的LQAE[25]、SPAE[54]、和另一个基线方法。影响分类精度的因素有(1)分类类别N、(2)每类样本K、(3)任务描述、(4)few-shot样本重复次数。主要发现①本方法在各种场景下都超过了SPAE尽管用更小的LLM和更精简的词表②代表图片的token数量越多性能越高这是因为词表扩展使得可选语义token更丰富。Image Caption Visual Question Answering按SPAE的流程从COCO Caption和VQA数据集中随机挑选10个样本做in-context示例默认每图用21个global token表示。图5展示了一些可视化结果还有更多结果在补充材料里。Semantic Interpretation图6可视化了6张图像各自得分最高的4个global token可以看出词表扩展明显丰富了语义选择空间如bigrams、trigrams。表2则用CLIP分数和CLIP-R相对分数评价global token的语义质量和SPAE对比结果显示本方法虽然词表更小但语义质量更优。4.3 Image Reconstruction and DenoisingReconstruction EvaluationV2L Tokenizer把图像编码成LLM词表上的local token这些token要能充分表达图像信息以便解码器重建原图或去除污染。用FID、LPIPS、PSNR三种指标评估重建质量结果见表3。比较了两种配置①用VQ-GAN的解码器不加global token②用论文提出的带global token解码器默认为section3.2配置。本方法在所有指标上都优于SPAE。Image Denoising介绍了prompt设置如何复原被污染破坏的图片包括修补、扩展、去模糊、位移、旋转等任务如图4所示。表4分析了两大影响因素①图片tokenizer编码能力②LLM预测local tokens能力以VQ-GAN、LQAE、SPAE为对比方法。随机挑选5000张ImageNet验证集图片做评测指标为FID和LPIPS。V2L Tokenizer在五类任务上几乎所有指标都优于对比方法主要原因是图片特征能更好地和LLM token空间对齐。Masked Image Restoration在ImageNet验证集图片上先用V2L Tokenizer获取global和local token然后随机把30% local token做掩码遮盖。用LoRA微调过的LLaMa-2 7B模型来预测这些掩码token具体微调方法见补充材料。把预测的token与未被掩码的token联合输入解码器进行重建定性结果见图8。图中“input”是把未掩码token拼实际像素掩码部分设为0送入解码器。
Conclusion把图片视作“外语”提出了V2L Tokenizer将连续视觉信号映射到LLM的token空间使冻结的LLM也能不经多模态微调理解视觉信息。V2L Tokenizer能生成全局和局部token全局token通过词表扩展做语义表达支持识别、描述和问答任务局部token则用于提取图片细节实现去噪、修复等任务