仿牌网站,仿牌外贸网站制作,变装WordPress,忘记网站后台账号iclr 2024 reviewer 打分 6666 窗口注意力、位置嵌入以及高分辨率微调是现代Transformer X CV 时代的核心概念。论文发现#xff0c;将这些几乎无处不在的组件简单地结合在一起#xff0c;可能会对性能产生不利影响问题很简单#xff1a;在使用窗口注意力时对位置嵌入进行插…iclr 2024 reviewer 打分 6666 窗口注意力、位置嵌入以及高分辨率微调是现代Transformer X CV 时代的核心概念。论文发现将这些几乎无处不在的组件简单地结合在一起可能会对性能产生不利影响问题很简单在使用窗口注意力时对位置嵌入进行插值是错误的 相对位置嵌入直接添加到注意力矩阵——不仅速度慢而且无法从最近的创新中受益理想情况下希望只使用简单快速的绝对位置嵌入就像最初的ViT一样论文研究了两种具有这三个组件的最先进方法即Hiera和ViTDet发现两者确实都存在这个问题 Hiera是一个现代层次化视觉变换器只使用绝对位置嵌入。 Hiera比其他最先进的视觉架构更强大、更高效而且完全由简单的ViT块组成。但是Hiera的插值效果不佳当在比训练时稍大的图像上微调Hiera时所得模型的准确性急剧下降罪魁祸首是窗口注意力和绝对位置嵌入之间的相互作用。 即在同一模型中同时使用窗口注意力和绝对位置嵌入时在插值到更大的图像时会引入一个错误 为了解决这个问题论文引入了一种简单的绝对窗口位置嵌入策略这在Hiera中彻底解决了这个问题并允许在ViTDet中提高模型的速度和性能 可以插值到任何图像大小而不会出现问题最终论文将两者结合起来得到了HieraDet其在COCO上达到了61.7的box mAP 这一切都源于本质上是一个3行代码的错误修复我们将其命名为“absolute win” ※论文并不声称引入了任何极其新颖的技术。相反它识别并分析了当前最先进状态中存在的一个错误引入了一个简单的策略来修复它并建立了插值位置嵌入的最佳实践