长宁区网站制作,免费装修设计app,大型国企网站建设费用,济南做兼职网站本文介绍一篇注意力图神经网络用于停车位检测论文#xff0c;论文已收录于 RA-L2021。在之前的基于卷积神经网络的停车位检测方法中#xff0c;很少考虑停车位标记点之间的关联信息#xff0c;从而导致需要复杂的后处理。在本文中#xff0c;作者将环视图中的标记点看作图结… 本文介绍一篇注意力图神经网络用于停车位检测论文论文已收录于 RA-L2021。在之前的基于卷积神经网络的停车位检测方法中很少考虑停车位标记点之间的关联信息从而导致需要复杂的后处理。在本文中作者将环视图中的标记点看作图结构数据使用图神经网络聚合相邻的标记点信息不需要任何后处理可以端到端训练。在ps2.0 和 PSV 停车位数据集上都取得了最优的检测性能。
论文链接为https://arxiv.org/pdf/2104.02576.pdf
项目链接为https://github.com/Jiaolong/gcn-parking-slot 1. Method
1.1 Overview
本文提出的基于注意力图神经网络停车位检测模型结构如下图所示由三部分组成Graph feature encoderGraph feature aggregationEntrance line discriminator。停车位一般由四个标记点组成 (P1,P2,P3,P4)(P_1,P_2,P_3,P_4)(P1,P2,P3,P4) 四个顶点按照逆时针排序因此停车位检测问题可以描述为检测车位进入线上顶点 (P1,P2)(P_1,P_2)(P1,P2) 的问题。本文提出的停车位检测流程为
给定一张环视图 I∈RH×W×3\mathbf{I} \in \mathbb{R}^{H\times W\times 3}I∈RH×W×3首先使用卷积神经网络进行特征提取。 然后标记点检测器检测标记点标记点编码网络提取标记点特征。接着使用注意力图神经网络推理标记点之间的关系本文设计的图神经网络为全连接网络其中每一个点表示为标记点。最后使用车位进入线判别器决定两个标记点是否可以形成一个有效的车位进入线。 1.2 Graph Feature Encoder
标价点检测器输出为 S×S×3S\times S\times 3S×S×3 的特征图其中通道 333 包含标记点位置 (x,y)(x,y)(x,y) 和置信度 ccc。在使用极大值抑制(NMS)后会得到 NNN 个标记点。
标记点特征编码器包含 444 个卷积层输出特征图为 S×S×64S\times S \times 64S×S×64。对于检测到的 NNN 个标记点位置 P(x,y)∈RN×2P(x,y) \in \mathbb{R}^{N\times 2}P(x,y)∈RN×2使用双线性插值计算标记点特征。最终得到标记点特征 F∈RN×64\mathbf{F} \in \mathbb{R}^{N\times 64}F∈RN×64。这里特征图大小 S16S16S16。
为了增强特征表示将标记点位置和特征进行融合 vifiMLP(xi,yi)\mathbf{v}_i\mathbf{f}_i\mathbf{MLP}(x_i,y_i) vifiMLP(xi,yi)
其中fi\mathbf{f}_ifi 为最初的标记点特征。 1.3 Graph Feature Aggregation
融合后的标记点特征集合 V\mathbf{V}V构造一个全连接的图网络 G(V,E)\mathbf{G}(\mathbf{V},\mathbf{E})G(V,E)其中 V\mathbf{V}V 表示 NNN 个节点 (xi)(\mathbf{x}_i)(xi)E\mathbf{E}E 表示 N×NN \times NN×N 条边。
图神经网络每一层标记点特征更新方法为 xil1xilMLP([xil∥mEi→il])\mathbf{x}_{i}^{l1}\mathbf{x}_{i}^{l}\mathbf{M L P}\left(\left[\mathbf{x}_{i}^{l} \| \mathbf{m}_{E_{i} \rightarrow i}^{l}\right]\right) xil1xilMLP([xil∥mEi→il])
其中 mEi→il\mathbf{m}_{E_{i} \rightarrow i}^{l}mEi→il 为第 iii 个节点一阶邻域 Ei{E}_iEi 聚合的信息由注意力机制计算得来[⋅∥⋅][\cdot \| \cdot][⋅∥⋅] 为特征结合操作。
对于每一个图节点特征 xil\mathbf{x}_i^lxilquery,key,value 计算为 qiW1lxilb1lkjW2lxjlb2lvjW3lxjlb3l\begin{aligned} \mathbf{q}_{i} \mathbf{W}_{1}^{l} \mathbf{x}_{i}^{l}\mathbf{b}_{1}^{l} \\ \mathbf{k}_{j} \mathbf{W}_{2}^{l} \mathbf{x}_{j}^{l}\mathbf{b}_{2}^{l} \\ \mathbf{v}_{j} \mathbf{W}_{3}^{l} \mathbf{x}_{j}^{l}\mathbf{b}_{3}^{l} \end{aligned} qikjvjW1lxilb1lW2lxjlb2lW3lxjlb3l
节点 i,ji,ji,j 之间的注意力计算为αi,jSoftmax(qiTkj)\alpha_{i,j}Softmax(\mathbf{q}_i^{T} \mathbf{k}_j)αi,jSoftmax(qiTkj)则图节点聚合信息为 mEi→il∑j∈Eiαi,jkvj\mathbf{m}_{E_{i} \rightarrow i}^{l}\sum_{j \in E_{i}} \alpha_{i, j}^{k} \mathbf{v}_{j}mEi→il∑j∈Eiαi,jkvj。在本文中使用多个注意力头则聚合信息为mEi→ilWl(mEi→il,1∥mEi→il,2∥⋯∥mEi→il,h)\mathbf{m}_{E_{i} \rightarrow i}^{l}\mathbf{W}^{l}\left(\mathbf{m}_{E_{i} \rightarrow i}^{l, 1}\left\|\mathbf{m}_{E_{i} \rightarrow i}^{l, 2}\right\| \cdots \| \mathbf{m}_{E_{i} \rightarrow i}^{l, h}\right)mEi→ilWl(mEi→il,1∥∥∥mEi→il,2∥∥∥⋯∥mEi→il,h)。 1.4 Entrance Line Discriminator
两个图节点特征结合得到一个 1×1281\times 1281×128 的输入特征然后输入到线性判别器。最终输出为 K×5K \times 5K×5 的矩阵其中 KN×NKN \times NKN×N表示为标记点对。每一对标记点对包含5个元素x1,y1,x2,y2,tx_1,y_1,x_2,y_2,tx1,y1,x2,y2,t。其中 (x1,x2,x2,y2)(x_1,x_2,x_2,y_2)(x1,x2,x2,y2) 为标记点位置 ttt 表示形成车位进入线的概率。
整个损失函数为 lossλ1losspointλ2losslineloss\lambda_1 loss_{point} \lambda_2 loss_{line} lossλ1losspointλ2lossline
其中标记点损失 losspointloss_{point}losspoint 为 losspoint 1S2∑i1S2{(ci−ci^)21i[(xi−xi^)2(yi−y^i)2]}\operatorname{los} s_{\text {point }}\frac{1}{S^{2}} \sum_{i1}^{S^{2}}\left\{\left(c_{i}-\hat{c_{i}}\right)^{2}\mathbb{1}_{i}\left[\left(x_{i}-\hat{x_{i}}\right)^{2}\left(y_{i}-\hat{y}_{i}\right)^{2}\right]\right\} losspoint S21i1∑S2{(ci−ci^)21i[(xi−xi^)2(yi−y^i)2]}
车位进入线损失 losslineloss_{line}lossline 为 lossline1N2(−∑i1N∑j1Nlij^loglij)loss_{line} \frac{1}{N^2} (-\sum_{i1}^{N}\sum_{j1}^{N} \hat{l_{ij}}logl_{ij}) losslineN21(−i1∑Nj1∑Nlij^loglij) 2.Experimental Results and Discussion
2.1 Datastes Setting
ps2.0 停车位数据集包含9827张训练图片9476个停车位2338张测试图片2168个停车位每一张图片大小为 600×600600 \times 600600×600对应物理空间大小为 10m×10m10\mathbb{m} \times 10\mathbb{m}10m×10m。
Sg\mathbf{S}_gSg 表示为停车位真值集合Sd\mathbf{S}_dSd 为检测结果集合如果满足下列条件则检测结果为真阳性。
∥(p1g−p1d,p2g−p2d)∥210\left\|\left(\mathbf{p}_{1}^{g}-\mathbf{p}_{1}^{d}, \mathbf{p}_{2}^{g}-\mathbf{p}_{2}^{d}\right)\right\|_{2}10 ∥∥(p1g−p1d,p2g−p2d)∥∥210 2.2 Results and Discussions
在 ps2.0 和 PSV 数据集上的测试结果如下同时作者还使用了FCN网络代替图网络比较了标记点的相似性得分。 2.3 Ablation study
下面是一些对照实验结果比较了使用不同特征网络的检测性能和时间消耗位置编码器、图神经网络层数和注意力头个数影响以及损失函数权重影响。
从中可以看到标记点损失权重对最终影响是比较大的不过在ps2.0数据集上各种特征提取网络的检测性能都已经很高了后续还需要在更大的数据集上进行测试。