网站域名如何查询,网站开发支持上传gif,代理网店,play字体WordPressCVPR2022
链接#xff1a;https://arxiv.org/pdf/2112.02413.pdf
0、Abstract 最近#xff0c;通过对比视觉语言预训练(CLIP)的零镜头学习和少镜头学习在2D视觉识别方面表现出了鼓舞人心的表现#xff0c;即学习在开放词汇设置下将图像与相应的文本匹配。然而#xff0c;… CVPR2022
链接https://arxiv.org/pdf/2112.02413.pdf
0、Abstract 最近通过对比视觉语言预训练(CLIP)的零镜头学习和少镜头学习在2D视觉识别方面表现出了鼓舞人心的表现即学习在开放词汇设置下将图像与相应的文本匹配。然而在二维大规模图像文本对的预训练下CLIP识别能否推广到三维识别还有待研究。在本文中我们通过提出PointCLIP来确定这样的设置是可行的它对CLIP-encoded的点云和3D类别文本进行对齐。具体来说我们对点云进行编码在不渲染的情况下将点云投影到多视图深度图中并对视图上的零点预测进行聚合实现从2D到3D的知识转移。在此基础上我们设计了一个inter-view adapter以便更好地提取全局特征并自适应地将3D中学习到的少镜头知识融合到2D预训练的CLIP中。通过在少数镜头设置中对轻量级适配器进行微调PointCLIP的性能可以得到很大的改善。此外我们观察了PointCLIP与经典3d监督网络之间的互补性。通过简单的集成PointCLIP提高了基线的性能甚至超过了最先进的模型。因此PointCLIP是在低资源成本和低数据条件下通过CLIP有效理解3D点云的一个有前途的替代方案。我们对广泛采用的ModelNet10、ModelNet40和具有挑战性的ScanObjectNN进行了深入的实验以证明PointCLIP的有效性。代码在https://github.com/ZrrSkywalker/PointCLIP发布。
1. Introduction 近年来深度学习已经主导了二维和三维领域的计算机视觉任务如图像分类[12,17,21,28,36,41]目标检测[1,4,13,29,46,64]语义分割[3,24,35,61,65]点云识别和部分分割[19,43,44,55]。随着三维传感技术的迅速发展对三维点云数据处理需求的不断增长催生了许多具有更好的局部特征聚合器[30,32,49]、几何建模[20,39,40]和基于投影的处理[20,34,48]的先进深度模型。与基于网格的二维图像数据不同三维点云存在空间稀疏和不规则分布的问题阻碍了直接方法从二维域转移。此外新捕获的大规模点云数据包含大量“看不见”类别的对象到训练有素的分类器。在这种情况下即使是性能最好的模型也可能无法识别它们而且当“看不见的”对象出现时每次都要重新训练也是负担不起的。 对比视觉语言预训练(CLIP)[45]在2D视觉中显著缓解了类似的问题该方法提出在自然语言监督下学习可转移的视觉特征。对于“未见”类目的零拍分类CLIP利用预先训练的视觉和语言之间的相关性进行开放词汇识别取得了很好的效果。为了进一步提高在少镜头设置下的准确性CoOp[66]采用可学习标记对文本提示进行编码从而自适应形成分类器权重。从另一个角度来看CLIP-Adapter[16]添加了一个具有两个线性层的轻量级残留样式适配器以更好地适应图像特征。Tip-Adapter[63]进一步提高了它的性能同时大大减少了训练时间。这两种方法都实现了显著的改进超过零镜头剪辑。因此识别新的未标记物体的问题已经在二维CLIP中得到了探索。然而一个问题自然出现了:这种基于clip的模型能否转移到3D领域实现对“看不见”的3D对象的零拍分类? 为了解决这个问题我们提出了PointCLIP它将CLIP的2D预训练知识转换为3D点云理解。第一个问题是在无序点云和CLIP可以处理的基于网格的图像之间架起桥梁。考虑到自动驾驶[4,13,29,42]、室内导航[67]等多种场景对实时预测的需求我们建议采用在线透视投影[19]不进行后期渲染[48]即将每个点简单地投影到一系列预定义的图像平面上生成散点深度图。该投影过程在时间和计算上的成本都很小但保留了多视图点云的原始属性。在此基础上我们利用CLIP预处理的视觉编码器对点云的多视图特征进行编码并通过零镜头分类器独立获得每个视图的文本匹配预测。在CLIP之后我们根据提示将3D类别名称放入手工制作的模板中并通过CLIP的文本编码器生成零镜头分类器。由于不同的视图对整个场景的识别有不同的贡献我们通过视图之间的加权聚合来获得对点云的最终预测。 尽管PointCLIP在没有任何3D训练的情况下实现了跨模态零拍分类但其性能仍落后于在完整数据集上经过良好训练的经典点云网络。为了消除这一差距我们引入了一个具有瓶颈线性层的可学习访问视图适配器以便在少镜头设置中更好地从多个视图中提取特征。具体来说通过交互和汇总交叉视图信息将所有视图的特征连接起来提取点云的紧凑全局特征。基于全局表示生成每个视图的自适应特征并通过残差连接将其添加到原始的clip编码特征中。通过这种方式每个视图都配备了融合的全局特征并将来自3D少镜头数据集的新适应特征与2D预训练的CLIP编码相结合。在培训期间我们只对这个轻量级适配器进行了微调并冻结了CLIP的可视和文本编码器以避免过度拟合因为每个类只有几个样本。令人惊讶的是PointCLIP与具有较少镜头微调的采访适配器实现了与使用完整数据集进行良好训练的一些以前的模型相当的性能这是性能和成本之间的良好平衡。 此外我们观察到在对比缺失的监督下CLIP的2D知识与近距离的3D监督是互补的。带有访问视图适配器的PointCLIP可以在少镜头设置下进行微调以提高经典的全训练3D网络的性能。以16镜头的ModelNet40[57]和完全训练的PointNet[44]中的PointCLIP为例直接集成它们的预测logit进行测试。令人惊讶的是PointCLIP将PointNet 89.71%的性能提高到92.03%准确率为87.20%。此外我们选择目前最先进的三维识别模型CurveNet[39]作为集成基线实现了从93.84%到94.08%的性能提升。相比之下简单地将两个在ModelNet40上完全训练过的模型集成在一起而不使用PointCLIP只会导致性能损失。因此PointCLIP可以被重新评级为一个多知识集成模块通过有限的额外训练通过2D对比知识促进3D网络。 •我们提出PointCLIP来扩展CLIP处理3D点云数据通过将2D预训练的知识转换为3D实现跨模态零拍识别。 •PointCLIP上引入了一个访问视图适配器通过多个视图之间的特性交互提高了少镜头微调的性能。 •PointCLIP可以作为一个多知识集成模块用于提高现有完全训练的3D网络的性能其性能超过了最先进的性能。 •在广泛适应的ModelNet10、ModelNet40和具有挑战性的ScanObjectNN上进行了全面的实验这表明PointCLIP在3D理解方面的潜力。 2. Related Work
3D的零镜头学习。零拍学习的目的是使识别“看不见的”物体在训练中没有采用。虽然零拍学习在二维分类中引起了广泛的关注[26,45,58]但是在三维领域中如何进行零拍学习的研究却很少。作为对点云的第一次尝试[7]将3D数据集分为两部分:“见过的”和“未见过的”样本并对前者进行PointNet[43]训练而对后者通过度量类别语义的余弦相似度进行测试。基于之前的工作[5]进一步缓解了由于提取的3D特征质量较低而导致的毂度问题[62][6]引入了三重损失以在转换设置中获得更好的性能这允许在训练时利用未标记的“看不见的”数据。与以上设置中对部分三维样本进行训练对其他三维样本进行预测不同的是PointCLIP不需要进行任何三维训练直接实现零点识别对整个点云数据集进行预测。因此我们的设置对于2D预训练和3D应用之间的领域差距更具挑战性但对于实际问题更迫切。
迁移学习。迁移学习[9,60]的目的是利用数据丰富领域的知识来帮助数据稀缺领域的学习。对于一般的视觉ImageNet[9]的预训练可以极大地辅助下游的任务如对象检测[1,18,46]和语义分割[35]。在自然语言处理方面通过蒙版语言模型[10]在网络语料库上预先训练的表示在机器翻译[38]和自然语言推理[8]上也取得了领先的性能。在没有任何微调的情况下最近推出的CLIP[45]显示了对“不可见”数据集的卓越的图像理解能力。CLIP- adapter[16]、Tip-Adapter[63]、ActionCLIP[53]和WiSE-FT[56]进一步表明通过注入特定领域的监控CLIP的性能可以大大提高。虽然成功的案例令人鼓舞但现有的方法大多都是在相同的模式下进行知识转移即图像到图像[9]、视频到视频[2]或语言到语言[10]。与他们不同的是我们的PointCLIP能够有效地将从2D图像中学习到的表示转移到完全不同的3D点云中这激发了未来在不同模式间迁移学习的研究。
面向点云的深度神经网络。现有的点云深度神经网络可分为基于点的方法和基于投影的方法。基于点的模型在原始点上处理而不需要任何预转换。PointNet[43]和PointNet[44]首先用一个多层感知器(multilayer Perceptron, MLP)对每个点进行编码并利用max pooling操作实现置换不变性。最近的基于点的方法提出了更先进的本地聚合器和架构设计[30,49]。除了原始点之外基于投影的方法通过将点云转换为体积[37]或多视图[48]数据表单来理解点云。其中多视图方法将点云投影到多视图图像中利用在ImageNet[28]上预先训练的2D Convolution Neural Networks (CNN)[21]对其进行处理如MVCNN[48]等[14,15,25,59]。通常这种视图投影方法操作离线生成的图像这些图像是从点转换的3D网格[54]投影出来的或者需要渲染后的阴影和纹理[47]所以它们在实时应用中昂贵且不实用。相反我们遵循SimpleView[19]天真地将原始点投影到图像平面上并根据垂直距离设置它们的像素值。这种深度图的生成在时间和计算成本上都是边际的满足了高效的端到端零镜头识别的需求。
3. Method
在3.1节中我们首先回顾了用于2D零拍分类的对比视觉语言预训练(CLIP)。然后在3.2节中我们引入PointCLIP它将2D预训练的知识转换为3D。在第3.3节中我们为PointCLIP提供了访问视图适配器以便在少镜头设置下获得更好的性能。在3.4节中我们提议将PointCLIP与经过充分训练的经典3D网络集成在一起进行多知识集成可以实现最先进的性能。 3.1. A Revisit of CLIP CLIP被训练来匹配图像与它们相应的自然语言描述。CLIP中有两个独立的编码器分别用于视觉和文本特征编码。在训练过程中给一组图像和文本CLIP提取它们的特征并学习在对比缺失的嵌入空间中对齐它们。为了确保全面的学习从互联网上收集了4亿个训练图像文本对这使得CLIP能够将图像与开放词汇表中的任何语义概念进行对齐以进行零拍分类。 具体来说对于K类的“看不见的”数据集CLIP通过将所有类别名称放入预定义的模板(称为提示符)来构造文本输入。然后由类别提示符的c维文本特征得到零射分类器记为。Wt中的每K行向量对预训练的类别权重进行编码。同时将每个测试图像的特征通过CLIP的视觉编码器编码为分类计算为: 其中softmaxi(·)和pi表示第一类的softmax函数和预测概率。整个过程不需要新的训练图像仅通过冻结的预先训练的编码器就可以获得很好的零拍分类性能。
3.2. Point Cloud Understanding by CLIP 二维中各种大规模数据集[28,31]为模型的预训练提供了丰富的样本[11,21]以实现高质量和鲁棒的二维特征提取。相比之下被广泛采用的3D数据集相对来说要小得多类别也比较有限如ModelNet40[57]有9843个样本40个类而ImageNet[28]有100万个样本1000个类。因此很难获得良好的预训练的三维网络进行迁移学习。为了缓解这一问题并探究CLIP的跨模性能力我们提出了PointCLIP基于预训练的CLIP对点云进行零拍学习。 弥合模态差距。点云是一组分散在三维空间中的无序点其稀疏性和分布与基于网格的二维图像有很大的不同。为了将点云转换为CLIP-accessible表示我们从多个视图生成点投影图像以消除3D和2D之间的模态差距。例如在三维空间中将一个点的坐标记为(x, y, z)以底部投影视图为例其在图像平面上的位置为(x/zy/z)位于[19]之后。这样投影出的点云就是一个透视缩短的图形远处小近处大更接近于真实照片。除了[19]应用卷积层将单通道深度图预处理为三个通道外我们没有采用任何预卷积而是在三个通道中直接将像素值设置为z。另外与其他脱机投影方法根据网格[54]或CAD模型[48]生成的投影图像不同我们的投影深度图是由原始点生成的没有颜色信息而是深度值分散这导致了时间和计算成本的边际。有了这种轻量级的跨模态聚合CLIP的预先训练的知识就可以用于点云的理解。 零拍分类。基于M个视图的投影图像我们使用CLIP提取其视觉特征{fi}对于i 1… m对于文本分支我们在预定义模板的类标记位置放置K个类别名:“[class]的点云深度图。”并将其文本特征编码为零射分类器Wt∈RK×C。然后分别计算各视图的分类logitsi通过加权求和得到点云的最终logitsp 其中αi是衡量视图i重要性的超参数。每个视图fi编码点云特征的不同视角能够进行独立的零拍分类。他们的总结进一步补充了不同角度的信息以获得全面的了解。PointCLIP的整个过程对于“不可见的”3D数据集来说是非参数化的它通过CLIP的预先训练的2D知识将每个点云与其类别配对而不需要任何3D训练。
3.3. Inter-view Adapter for PointCLIP 虽然PointCLIP在点云上实现了高效的零拍分类但其性能仍无法与完全训练的3D神经网络相比[43,44]。然后我们考虑一个更常见的场景在新收集的数据中包含每个“看不见的”类别的一些对象网络需要在这样的少镜头设置下识别它们。对整个模型进行微调是不现实的因为参数庞大样本不足容易导致过拟合。因此参考自然语言处理(NLP)中的[23]和CLIP-Adapter[16]对下游任务的预训练模型进行微调我们在PointCLIP之上附加了一个三层多层感知器(MLP)命名为inter-view adapter以进一步提高其在少镜头设置下的性能。为了进行培训我们冻结CLIP的可视和文本编码器并通过交叉熵损失对可学习适配器进行微调。 具体来说给定一个点云的clip编码的M-view特征我们将它们沿通道维串接为通过inter-view adapter的前两层获取点云的紧凑全局特征为 其中, W1、W2表示适配器中的两层权值。通过这种访问视图聚合来自多个透视图的特性融合成一个总括表示。之后由全局特征生成视图适配特征并通过残差连接将其添加到原始的clip编码特征中 其中表示视图i中W3的第i部分。一方面该算法将全局引导的自适应特征融合到fi中实现了对点云的整体理解从而实现了更好的视景预测;另一方面残差样式适配器将新学习的3D少镜头知识与2D预训练的CLIP知识相融合进一步促进了知识的跨模态转移。 在inter-view adapter之后每个视图用自适应的特征和文本分类器进行分类。与零镜头分类一样将所有视图的所有M logits进行汇总构建最终的预测这里视图权值αi可以作为可学习参数以便更自适应的聚合。令人惊讶的是只需对这个轻量级适配器进行少量样本的微调就可以显著提高性能例如在ModelNet40上每个类别有16个样本从20.18%提高到87.20%不到全部数据的1/10。这一鼓舞人心的推进展示了特征适应对3D少镜头数据的有效性和重要性这极大地促进了从2D到3D的知识转移。因此带有访问视图适配器的PointCLIP为理解点云提供了一个有前途的替代解决方案。在一些应用程序中没有条件用大规模的全注释数据来训练整个模型只有微调带有少量数据的三层适配器才能达到相当的性能。
感觉思路很简单就是通过DNN做域转换前两层有一点融合第三层有一个shortcut 类似resnet的残差但是这么讲就觉得高级了 3.4. Multi-knowledge Ensembling 经典的点云网络如早期的PointNet[43]和最近的CurveNet[39]都是通过密切的监控在3D数据集上从头开始训练的。相反PointCLIP主要从2D视觉语言学习中继承预先训练好的先验包含不同方面的知识。然后我们研究这两种形式的知识是否可以合集在一起进行联合推理。在实践中我们首先得到经典的模型如由[22]预训练的PointNet[44]以及zero-shot或适配器版本的PointCLIP。我们对两个模型进行推理并通过简单的加法将它们的预测对数集成为最终输出。出乎我们的意料在16-shot微调的PointCLIP 87.20%的辅助下89.71%的PointNet提高到92.03%显著提高了2.32%。换句话说两个低分数模型的集成可以产生一个更强的模型它充分展示了来自两个模型的知识的互补交互。此外即使零镜头PointCLIP为20.18%PointNet仍然可以改进到92.10%。相比之下对两个受过全面训练的经典模型进行集成并不会提高性能这表明互补知识的重要性。我们还将这种集成与其他高级网络一起实现并观察到类似的性能提升其中一些实现了最先进的性能。因此PointCLIP可以作为一个即插即用的增强模块来实现健壮的点云理解。
(感觉自己做融合两个同样的任务的结果融合后很难提升这是什么原理这个也没看懂不知道对不对
微调的PointCLIP 87.20% 89.71%的PointNet 92.03%
零镜头PointCLIP为20.18% 89.71%的PointNet 92.10%怎么零镜头的提高更多
但是后边的表格里92.1又是16-shot的结果
4. Experiments
4.1. Zero-shot Classificatio
设置。我们评估了PointCLIP在ModelNet10[57]、ModelNet40[57]和ScanObjectNN[51]三个知名数据集上的零镜头分类性能。对于每个数据集我们不需要训练数据采用完整的测试集进行评估。对于预训练的CLIP模型我们默认采用ResNet-50[21]作为视觉编码器transformer[52]作为文本编码器。然后我们从6个正交视图投影点云:前、右、后、左、顶和底每个视图的相对权重值从1到10如表1的第四列所示。由于点坐标从-1归一化到1我们将6个图像平面与坐标中心(0,0)的距离设定为固定的距离这个距离表示为Proj的第一个值。设置如表1所示距离越大图像上的点分布越密集。投影的方形深度图的边长因数据集的不同而不同在Proj中以第二个值表示。设置更大的边长导致更小的投影对象大小。然后我们将所有图像上采样到(224,224)以便与CLIP的设置对齐。另外我们将文本模板设置为“一个[CLASS]的点云深度图”。以迎合点云的视觉特征。
性能。在表1中我们展示了zero-shot PointCLIP在三个数据集的最佳性能设置下的性能。在没有任何3D培训的情况下PointCLIP能够在ModelNet10上实现30.23%的良好效果这证明了从2D到3D的知识转移是有效的。对于具有4倍于嘈杂的真实世界场景的类别数量的ModelNet40和ScanObjectNN, PointCLIP的性能略差分别为20.18%和15.38%这是因为缺少3D下游适配。对于项目的投影距离和图像分辨率。设置它们的方差符合不同数据集的属性。与室内的ModelNet10相比ModelNet40上的PointCLIP对于识别复杂的室外物体(如飞机、植物等)需要更多的细节因此在点分散更多、物体尺寸更大(即透视投影距离和分辨率更大)的情况下表现更好。而ScanObjectNN则需要更密集的点和更大的分辨率来过滤噪声保留复杂的真实场景信息。在视图权重方面合成对象的ModelNet10和ModelNet40要求所有6个视图对最终分类的贡献具有不同的重要性但对于包含有楼层和天花板噪声点的ScanObjectNN来说上下视图几乎不能提供任何信息。 Ablations
在表2中我们对ModelNet40上的投影视图数和每个视图的重要性进行了消融研究。对于投影视图数我们尝试了1、4、6、8、10和121个视图以便越来越多地捕捉点云的多视图信息但超过6个视图会带来冗余导致性能下降。为了探索不同视图如何影响性能我们将所有相对权重统一为3并分别将每个视图的权重增加到9。从表中可以看出从右边投影的效果最好这说明它的作用是主导的而top视图和down视图对零拍分类的贡献相对较小。在表4中我们实现了ResNet[21]到vision transformer[11]不同的视觉骨干RN50×16[45]的性能最好达到了23.78%比ResNet-50多16倍的计算量。然而将ResNet-50升级到ResNet-101参数更多、层次更深并不能提供更高的分类精度。 Prompt Design
我们在表3中给出了五种零弹点剪辑提示设计。我们观察到天真的“一张[CLASS]的照片。在ModelNet40上达到17.02%但简单地插入“点云”一词将损害性能。然后我们去掉“一张照片”直接利用“点云”作为主体使正确率提高了1.66%。此外由于投影的点云通常覆盖图像的大部分区域添加一个形容词“大”可以带来进一步的性能改进。此外我们添加了“深度图”以更恰当地描述投影图像这有助于最佳表现20.18%表明提示选择的重要性。 4.2. Few-shot Classification
设置。我们也在ModelNet10[57]、ModelNet40[57]和ScanObjectNN[51]这三个数据集中在1、2、4、8、16个镜头下对访谈视图适配器进行PointCLIP实验。对于K-shot设置我们从训练集的每个类别中随机抽取K个点云。我们从4.1节的零拍实验中继承了最佳的投影设置。相比之下考虑到效率和性能我们采用ResNet-101[21]作为CLIP的预先训练的视觉编码器更强的特征提取并将投影视图数增加到10增加了上/下、前/后左上角的视图因为在表2中左视图被证明是对少镜头识别最有价值的。此外我们将提示修改为“一个大[类]的点云”。它在几次射击实验中表现得更好。对于访问视图适配器我们构建了一个残差式多层感知器(MLP)由三个线性层组成如第3.3节所述。
性能。在图5中我们展示了PointCLIP的少数shot性能并将其与4个具有代表性的3D网络进行比较:PointNet[43]、PointNet[44]、SimpleView[19]和最先进的CurveNet[39]。正如我们所看到的PointCLIP与访谈视图适配器优于所有其他方法的少数镜头分类。在每个类别样本数量较少的情况下PointCLIP优势明显在ModelNet40上以1次投注的方式超过PointNet 25.49%超过CurveNet 12.29%。当提供更多的训练样本时PointCLIP仍然领先于性能但由于轻量级三层适配器的拟合能力有限差距变得更小。详细的培训设置请参见附录。
消融。在表2中我们展示了不同投影视图下的16镜头PointCLIP并探讨了每个视图Score (%) Score (%) Score(%)对ModelNet40的贡献。与zero-shot版本不同16-shot PointCLIP的10个视图的性能优于6个视图这可能是因为新添加的适配器能够更好地利用来自更多视图的信息并自适应地聚合它们。考虑到视图的重要性我们遵循零镜头版本的配置并观察到相反的结论左边的视图在这里提供的信息最多。令人惊讶的是对于表4中不同的视觉编码器ResNet-101比vision transformer或ResNet-50×16用更少的参数实现了最高的精度。表3列出了提示设计对性能的影响以及某大[类]的“点云”。这与第4.1段的分析略有不同。
4.3. Multi-knowledge Ensembling
设置。为了验证预先训练的2D先验与3D知识混合的互补性我们将ModelNet40上经过精细调整的87.20%的16 shot PointCLIP分别与经过完全训练的PointNet[43]、PointNet[44]、DGCNN[55]、SimpleView[19]和CurveNet[39]进行聚合其训练模型由[22,50]不经过任何投票获得。我们手动调整PointCLIP与每个模型的融合比例并在表5中报告比例最佳的性能它代表了PointCLIP相对于整体的权重。 性能。如表5所示与PointCLIP集成提高了所有经典的全训练3D网络的性能。结果充分证明了PointCLIP与现有的完全训练的3D模型的互补性并且性能增益不是简单地通过集成模型实现的。这些结果对我们来说是令人惊讶的因为16杆PointCLIP的准确性低于所有其他模型的全数据集训练但仍然可以受益于他们已经很高的性能更高。其中在PointNet上准确率提高最大从89.71%提高到92.10%将PointCLIP与最先进的CurveNet相结合进一步提高了94.08%。此外我们观察到对于具有低基线性能的模型PointCLIP的logit需要占很大的比例但对于性能良好的模型如CurveNet它们的知识应该在整体中发挥主导作用。
消融。我们对两个在没有PointCLIP的ModelNet40上完全训练的模型进行了消融研究并为简单起见将它们的logits以相同的比例融合。如表6所示将PointNet集成降低了RSCNN和CurveNet的性能将两个模型中最高的SimpleView和CurveNet进行聚合并不能获得更好的性能。另外一对PointCLIP也会损害性能。因此简单地将两个具有相同训练方案的模型集成通常会导致性能下降这说明了多知识交互的重要性。在表7中我们将zero-shot PointCLIP和分别经过8、16、32、64、128个镜头调整的模型与CurveNet融合探究其整体性能。据报道zeroshot PointCLIP仅为20.18%可以使CurveNet增强0.04%。但是在三维数据集上进行过多的训练会影响集成的精度。这可能是由于两个模型之间的相似度过高不能提供预期的互补知识。
5. Conclusion and Limitation 我们提出PointCLIP在不需要任何3D训练的情况下在点云上进行跨模态零拍识别。PointCLIP通过多视图投影有效地将CLIP预训练的2D知识转移到3D领域。在少镜头设置下我们设计了一个轻量级的访问视图适配器来聚合多视图表示并生成自适应的特征。通过微调这样的适配器和冻结所有其他模块PointCLIP的性能得到了很大的改进。此外PointCLIP可以作为即插即用模块为经典的3D网络提供免费信息其性能超过了最先进的技术。虽然PointCLIP实现了从2D到3D的迁移学习但是如何将CLIP的知识应用到其他3D任务中还有待探索。我们未来的工作将集中于将CLIP应用于更广泛的3D应用。
自己总结
1、把z直接当图像深度因此直接算应该不大行所以加了adapter。但是Clip是RGB色彩通道训练的为什么直接用深度也可以
2、可能clip本身对小类比较擅长因此直接加原始模型效果也有提高只能说是巧妙作者也尝试了普通的两个模型直接相加并不能提高结果。
3、在想怎么做点云分割Lseg pointclip?
存在疑问
pointclip对结果的提升分别是92.03和92.10是怎么理解的