南阳做网站收费,引流推广的方法,广告设计主要做什么,企业网站排名优化哪家好PAPERCODEhttps://arxiv.org/pdf/2308.12213v2.pdfhttps://github.com/xmed-lab/clipn
文章创新 以往由CLIP驱动的零样本OOD检测方法#xff0c;只需要ID的类名#xff0c;受到的关注较少。 本文提出了一种新的方法#xff0c;即CLIP说“不”#xff08;CLIPN#xff09;…PAPERCODEhttps://arxiv.org/pdf/2308.12213v2.pdfhttps://github.com/xmed-lab/clipn
文章创新 以往由CLIP驱动的零样本OOD检测方法只需要ID的类名受到的关注较少。 本文提出了一种新的方法即CLIP说“不”CLIPN它赋予了CLIP中说“不”的逻辑。
主要动机 我们的主要动机是使 CLIP 能够使用积极语义提示和否定语义提示来区分 OOD 和 ID 样本。
实现方法 具体来说我们设计了一种新颖的可学习的“不”提示和“不”文本编码器以捕获图像中的否定语义。随后我们引入了两个损失函数图像文本二进制相反的损失和文本语义相反的损失我们用它来教导 CLIPN 将图像与“否”提示相关联从而使其能够识别未知样本。此外我们提出了两种无阈值推理算法利用来自“no”提示和文本编码器的否定语义来执行 OOD 检测。
实验结果 在9个基准数据集3个ID数据集和6个OOD数据集上用于OOD检测任务的实验结果表明基于ViT-B-16的CLIPN在ImageNet-1K上零样本OOD检测方面在AUROC和FPR95方面比7种常用算法至少高出2.34%和11.64%。 标准OOD检测算法和所提出的CLIPN之间的特征空间的玩具比较图。我们的方法涉及一个“否”逻辑它提供了一个新的特征空间黄色区域来直接识别 OOD 样本。定性实验可视化如图所示。 用于确定原始 CLIP 缺少“否”逻辑的示例插图。如图a所示给定一个狗图像和一个猫图像我们设计了四组提示。两组包含带有(with,of,having)狗(或猫)的照片的类提示而另外两组使用“no()”提示的照片。我们在 CLIP 上进行了一项实验将图像与四个提示相匹配。不幸的是结果显示 CLIP 无法准确匹配图像这意味着它缺乏“无”逻辑; CLIPN 的推理流水线。它由三个网络组成图像编码器、文本编码器和带有可学习的“no”提示 ρ 的“no”文本编码器。在推理阶段使用两个文本编码器共同确定结果。这里的 ID 类是牛、猫、鱼OOD 类是狗。 1图像编码器 φ φ φ CLIPN 的图像编码器φ与预训练 CLIP 的图像编码器保持相同的结构和参数。2文本编码器 ψ ψ ψ CLIPN的文本编码器ψ与预训练的CLIP的文本编码器保持相同的结构和参数。3“no”文本编码器 ψ n o ψ^{no} ψno 由预训练的CLIP的文本编码器初始化。但与ψ的区别在于我们设置了 ψ n o ψ^{no} ψno可学习。 匹配 x 和 t n o t^{no} tno 的图示。绿色和粉红色框分别表示标准文本 t 和“否”文本 t n o t^{no} tno 。 m ( x i t j n o ) 1 m(x_i t_j^{no}) 1 m(xitjno)1 表示它们匹配但不相关即“no”文本不是错误的描述但在语义上无关紧要。 m ( x i t j n o ) 0 m(x_i t_j^{no}) 0 m(xitjno)0 表示它们是反向匹配的即“no”文本与图像具有相反的语义。 Image-Text Binary-Opposite Loss (ITBO) 此损失函数可帮助模型将图像特征与正确的“否”文本特征进行匹配。第 i 个图像和第 j 个“no”文本之间的匹配度可以定义如下 其中 mx t 0 表示它们反向匹配mx t 1 表示它们匹配但不相关。然后我们驱动CLIPN 来匹配图像和no文本以匹配性为指导。损失表述为 Text Semantic-Opposite Loss (TSO) 在特征空间中g也应该彼此相距较远: