平台网站建设协议书,wordpress上传安装包,wordpress论坛插件,Sensei wordpress插件文章目录 摘要1.问题的提出引出当前研究的不足与问题属性不平衡问题属性共现问题 解决方案 2.数据集和模型构建数据集传统的零样本学习范式v.s. DUET学习范式DUET 模型总览属性级别对比学习正负样本解释#xff1a; 3.结果分析VIT-based vision transformer encoder.消融研究消… 文章目录 摘要1.问题的提出引出当前研究的不足与问题属性不平衡问题属性共现问题 解决方案 2.数据集和模型构建数据集传统的零样本学习范式v.s. DUET学习范式DUET 模型总览属性级别对比学习正负样本解释 3.结果分析VIT-based vision transformer encoder.消融研究消融研究解释 4.结论与启示结论总结启发PLMs的潜在语义知识引入多模态跨模态整合细粒度角度考虑 原文链接
https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886 该论文设计了一种新的零样本学习范式通过迁移语言模型中的先验语义知识与视觉模型的特征感知能力进行对齐以增强后者对于未见过图像的识别能力。
摘要
零样本学习ZSL旨在预测在训练期间从未出现样本的未知类别。作为类别级视觉特征的注释属性是零样本图像分类的广泛使用的语义信息。然而由于缺乏细粒度的注释以及属性不平衡和共现问题目前的方法常常无法区分图像之间的微妙视觉差异。在本文中作者提出了一种基于Transformer的端到端ZSL方法命名为DUET通过自监督多模态学习范式整合了来自预训练语言模型PLMs潜在语义知识。具体而言论文中1开发了一个跨模态语义定位网络来研究模型从图像中分离语义属性的能力2采用了属性级对比学习策略进一步增强模型对细粒度视觉特征的区分能力克服属性共现和不平衡问题3提出了 考虑多模型目标的多任务学习策略。论文中发现DUET在三个标准ZSL基准和一个带有知识图的ZSL基准上均取得了最先进的性能其组成部分是有效的预测是可解释的。
1.问题的提出
引出当前研究的不足与问题
零样本学习Zero-shot learning, ZSL旨在预测在训练期间从未出现过样本的未知类别。对于零样本图像分类来说最有效且广泛使用的语义信息是属性它们用于描述类别级别视觉特征。然而当前的方法难以区分图像间的微妙视觉差异这不仅来源于细粒度属性注释的不足还由于属性间的不平衡和共现现象。
属性不平衡问题
即有些属性频繁出现而有些属性很少出现 例如在零样本场景分类数据集 SUN中属性“树”和“云”分别与 301 和 318 个类相关联 而“铁路”和“消防”只与15和10个类相关联。
属性共现问题
例如“花”与“叶”一起出现了39次但单独的“花”只出现了10次
这种分布偏差可能会影响模型对那些包含稀有属性或新属性组合的看不见的类的判断。 图一
解决方案
在本文中作者提出了一种基于Transformer的端到端零样本学习方法DUET它通过自监督的多模态学习范式将来自预训练语言模型的潜在语义知识进行整合。 贡献如下 1开发了一个跨模态语义基准网络以研究模型从图像中分离语义属性的能力 2应用了基于属性级对比学习的策略进一步增强模型对细粒度视觉特征的区分能力克服属性的共现和不平衡问题 3提出了多任务学习策略考虑多模型目标。该方法可以同时在连续型的属性向量和离散型/结构化属性特征场景下工作具有比较好的迁移泛化能力。 关于监督学习无监督学习半监督学习自监督学习强化学习等 自监督学习 | (1) Self-supervised Learning入门 强化学习与监督学习和无监督学习有什么区别 【深度学习】04 机器学习类型监督学习 半监督学习 无监督学习 强化学习视频 深度学习常见名词概念Sota、Benchmark、Baseline、端到端模型、迁移学习等的定义 2.数据集和模型构建
数据集
三个配备标准属性的 ZSL 基准数据集 AWA2、CUB、SUN及其在Xian 等人2019中提出的分割以及知识图谱基准数据集 AWA2-KG它与 AWA2 具有相同的分割但包含有关层次类和属性的语义信息用于评估。
传统的零样本学习范式v.s. DUET学习范式
传统的零样本学习模式主要强调利用更多外部类别知识、进行数据增强或研究更好的视觉编码器。相比而言该框架强调跨模态模型的知识迁移图二所示。
传统强调利用更多外部类别知识、进行数据增强或研究更好的视觉编码器 DUET强调跨模态模型的知识迁移 图二
DUET 模型总览 图三
DUET由三部分组成 1特征到序列转换FST模块它将每个类的属性统一为文本格式 (2) 跨模态语义定位 (CSG) 模块可通过跨模态掩模重建 (CMR) 将知识从 PLM 转移到视觉变换器编码器 (3)属性级对比学习(ACL)模块以自监督的方式增强CSG中的信号。
利用预训练语言模型PLMs的知识以自监督的方式将知识转移到视觉转换器编码器中从而实现对细粒度语义的有效定位。具体来说其利用基于提示prompt的特征序列转换FST将不同类型的属性转换为文本序列。通过跨模态的语义定位网络CSGCross-modal Semantic Grounding和属性级对比学习ACLattribute-level contrastive learning机制利用跨模态的掩码复原CMRcross-modal mask reconstruction训练目标从PLM中传递语义知识同时缓解属性不平衡和共现问题提高模型对细粒度视觉特征的区分能力。
属性级别对比学习
本文引入了一个巧妙的属性级别对比学习的模式让模型来重点关注那些整体相似的图像中容易造成困扰的细粒度特征差异。 第一步是属性值序列化文章从nlp中广泛运用的prompt中获得启发借鉴表格预训练中的序列化模式将图片属性值以key: [value,…]的形式进行文本序列化。这样做的好处是可以兼容多种不同的属性格式包括知识图谱KG形式向量形式离散格式。当然为了增加属性分布的多样性diversity作者对属性列表进行了基于概率的剪枝attributes pruning目的是为了防止模型因为属性的频繁共现而陷入懒惰学习。 跨模态的掩码复原。图像和文本同时输入文本掩码让模型强制从图像信息中获得相关属性来恢复掩码。这种方法其实在早期的多模态预训练模型中非常见目的是让模型对齐视觉/语言的理解。而本文用一种巧妙的方法让视觉模型的零样本学习能力得到了强化 – 使用预训练的语言模型Bert预训练视觉模型ViTSwinDeiT等通过添加跨模态注意力层cross-attention layer进行桥接而不是直接用多模态预训练模型。这样的好处是可以最大程度利用语言模型的语义信息和视觉模型的理解能力。 – 在视觉模型选择上规避掉了使用ImageNet-21K进行预训练的模型避免零样本测试过程中样本泄露。测试集的图片不应该在预训练过程见过 – 属性级别的对比学习Attribute-level Contrastive Learning。本文的核心贡献点可以用图1c表示对于一个目标样本选择与其整体特征相似度高的作为负样本与其整体特性相似度低的作为正样本。对于一个正负样本对其需要与目标样本有公共的属性key比如“羽毛图案”在这种情况下对负样本的要求是其他属性尽可能相似而“羽毛图案”不同 对正样本的要求是其他属性尽可能不同而“羽毛图案”相同最后在属性的掩码-恢复过程中模型被迫找到两个差异悬殊图片中细粒度的属性交集两个非常相似图片中细粒度的属性差异从而实现属性感知的解耦。
正负样本解释
对于目标样本 正样本与其整体特性相似度低其他属性尽可能不同而“羽毛图案”相同 负样本与其整体特征相似度高其他属性尽可能相似而“羽毛图案”不同 正负样本对需要与目标样本有公共的属性key比如“羽毛图案”
3.结果分析 本文作为语言模型在零样本学习上的第一次尝试在不同数据集上取得了优越甚至sota的效果。其中较为明显地看到在 标准ZSL数据集AWA2CUBSUN上相比于传统ResNet-based的方法视觉预训练模型对于可见类的预测效果有明显提升Seen class。而在 K-ZSL数据集 上模型也可以达到SOTA效果。此外模型还获得了细粒度属性预测的附带能力这是相比传统模型的额外优势。
VIT-based vision transformer encoder.
为了进一步了解论文中的模型论文中报告了使用 ViT-baseDosovitskiy 等人2021作为视觉编码器的 DUET 结果。对比于 2 个最近的基于 ViT 的 ZSL 方法ViT-ZSL 和 IEAM-ZSL 。如图 4(b) 所示DUET 大幅超越了这两种方法并且也超过了论文中的 SOTA 性能 (H) 4.8%。这表明论文中的 DUET 极大地改善了原始vision transformer较差的 ZSL 能力。可以认为通过插入更好的vision transformer encoder性能将进一步提高。
消融研究 消融研究解释
(1) 冻结language transformer encoder时性能急剧下降。虽然它可以减少整体可学习参数但它使模型更难理解提示、文本属性和视觉特征之间的特殊关系。
(2仅用prompt作为无提示的序列输入 (3仅concatenating attribute作为无提示的序列输入 论文中观察到采用半序列化属性的 FST 策略确实有利于论文中的模型提高了 4.3。
(4随机屏蔽属性 属性短语掩码APM。论文中应用 APM 策略在每个步骤中屏蔽完整的属性短语然后敦促模型恢复它。论文中认为属性集合中频率较低的判别属性更重要。因此论文中通过**线性加权随机采样LWRS**策略对要屏蔽的目标属性进行采样 (5不进行属性剪枝 (6)放弃class-level对比学习导致下降0.8%。这一点是因为对比学习可以通过缩小潜在空间中类内的距离来帮助模型学习更好的视觉表示。 (7应用完整的CSG
此外论文中的可插拔 ACL 模块在 CSG 的基础上进一步将性能提高了3.5%这说明这两个模块都是有益的。 属性级对比学习ACL模块 4.结论与启示
结论总结
在本文中论文中提出了一种名为 DUET 的端到端 ZSL 框架以解决零样本图像分类中众所周知的属性不平衡和共现问题。论文中设计了一种具有新颖的属性级对比学习机制的跨模态语义定位网络以增强模型对新类的判别能力可以很好地解决零样本学习中的属性不平衡和共现问题。通过广泛的消融研究以及在具有实值和二元值属性的四个 ZSL 基准上与相当多最先进的方法进行比较论文中证明了 DUET 的有效性及其对解释的支持。
启发
PLMs的潜在语义知识引入
DUET通过整合PLMs中的潜在语义知识采用自监督多模态学习在ZSL任务上取得了卓越的性能。可以认为利用PLMs的知识能够有效提高ZSL的性能。
多模态跨模态整合
DUET引入了一个跨模态语义定位网络用于分离图像中的语义属性。在ZSL中理解图像中的语义属性可能是提高性能的关键因素。 文本图像 信息整合
细粒度角度考虑
DUET采用了属性级对比学习策略以进一步提高模型对细粒度视觉特征的区分能力克服了属性不平衡和共现的问题。 类级别 — 属性级别