网站备案信息查询申请,wordpress新浪图,北京学校网站建设,seo查询站长1. 动机
传统的目标检测任务需要大量的人工先验知识#xff0c;例如预定义的先验anchor#xff0c;NMS后处理策略等。这些人工先验知识引入了很多人为因素#xff0c;且较难处理。如果能够端到端到直接生成目标检测结果#xff0c;将会使问题变得很优雅。
2. 主要贡献
提…1. 动机
传统的目标检测任务需要大量的人工先验知识例如预定义的先验anchorNMS后处理策略等。这些人工先验知识引入了很多人为因素且较难处理。如果能够端到端到直接生成目标检测结果将会使问题变得很优雅。
2. 主要贡献
提出了一个新的目标函数用二分图匹配的方式强制模型输出一个独一无二的目标框避免了传统方法中的非极大值抑制。
首次把transformer引入到目标检测领域。
简化了检测流程有效地消除了对许多人工设计组件的需求如NMS或anchor生成。实现了端到端的目标检测。
3. 模型结构
DETR将目标检测看作一种set prediction问题并提出了一个十分简洁的目标检测pipeline即CNN提取基础特征送入Transformer做关系建模得到的输出通过二分图匹配算法与图片上的ground truth做匹配。
先使用CNN对图像进行特征提取把得到的二维特征转换到一维然后送入transformer的encoder-decoder结构之中。然后利用decoder的结果预测检测框的输出。 将目标检测看作set prediction问题 DETR算法流程 3.1. backbone
DETR基础版本的backbone使用torchvision上预训练过的ResNet-50训练时冻结BN层参数。设输入img维度为(3, H, W)经过backbone后变为。此外在后续实验阶段论文还使用了ResNet-101以及改进过的DC5版本。
3.2. transfomer
CNN提取的特征拉直flatten后加入位置编码positional encoding得到序列特征作为Transformer encoder的输入。Transformer中的attention机制具有全局感受野能够实现全局上下文的关系建模其中encoder和decoder均由多个encoder、decoder层堆叠而成。每个encoder层中包含self-attention机制每个decoder中包含self-attention和cross-attention。
3.3. object queries
输出100个目标框和它的分类。设计了一套全新的损失函数能够在训练的时候把与ground truth匹配的框算作为正样本不匹配的框作为负样本。在推理的时候使用一个阈值来选择结果预测得分高于阈值的作为输出低于阈值的忽略。
transformer解码器中的序列是object queries。每个query对应图像中的一个物体实例包含背景实例 ϕ它通过cross-attention从编码器输出的序列中对特定物体实例的特征做聚合又通过self-attention建模该物体实例域其他物体实例之间的关系。最终FFN基于特征聚合后的object queries做分类的检测框的回归。
值得一提的是object queries是可学习的embedding与当前输入图像的内容无关不由当前图像内容计算得到。论文中对不同object query在COCO数据集上输出检测框的位置做了统计如上图所示可以看不同object query是具有一定位置倾向性的。对object queries的理解可以有多个角度。首先它随机初始化并随着网络的训练而更新因此隐式建模了整个训练集上的统计信息。其次在目标检测中每个object query可以看作是一种可学习的动态anchor可以发现不同于Faster RCNN, RetinaNet等方法在特征的每个像素上构建稠密的anchor不同detr只用少量稀疏的anchorobject queries做预测这也启发了后续的一系列工作。
3.4. 损失函数
DETR有两种损失1二分图匹配阶段的损失用于确定最优匹配。2在最优匹配下的模型损失。
3.4.1. 二分图匹配 3.4.2. 匹配后损失计算 参考文献
End-to-end object detection with transformers
DETR目标检测新范式带来的思考 - 知乎
DETRDEtection TRansformer要点总结-CSDN博客
DETR 论文精读【论文精读】_哔哩哔哩_bilibili