自建房设计网站推荐,去哪里做网站比较好,嵌入式开发流程,一个网站的年维护费1 背景信息
团队#xff1a;南京大学#xff0c;上海人工智能实验室 时间#xff1a;2023年12月 代码#xff1a;https://github.com/MCG-NJU/SparseOcc
2 OCC预测存在的问题
2.1 dense 3D features
目前都是提取的密集3D特征#xff0c;但是据统计#xff0c;**90%*…1 背景信息
团队南京大学上海人工智能实验室 时间2023年12月 代码https://github.com/MCG-NJU/SparseOcc
2 OCC预测存在的问题
2.1 dense 3D features
目前都是提取的密集3D特征但是据统计**90%**的Voxel都是空的造成了极大的浪费帧率现在很低在Tesla A100上只能达到2-3FPS然而SparseOCC达到了17FPS 还有一些稀疏的特征表征方式最后还是做了saprse2dense的操作比如VoxFormer。所以本文说自己是fully sparse。
2.2 evaluation
原本是mIOU这篇文章提出了自己的评价方式RayIOU。
3 SparseOCC的做法
分为3个部分
backbone FPN提取特征sparse voxel decoder解码出占据网格但是不带类别信息mask transformer分别各个实例的类别2个decoder输出处理得到带分类的占据网格
3.1 sparse voxel decoder
将下述的层多次执行
将一个体素voxel 8等份得到8个新的体素这一步就是论文里说的coarse2fine的步骤它一步步把占据的网格细化得到更细致的占据分布这一步使用交叉熵损失进行监督并考虑到地面这个种类最多所以对每个类别进行了权重的平衡。
3.2 Mask transformer
这一步用到了上一步的输出但是上一步输出的占据网格也会有错误因此会把错误的结果类别设为no object损失使用focal loss
4 Evaluation
4.1 mIOU的问题
一言以蔽之mIOU鼓励模型预测的网格更厚和真实场景不符。 If the model fills all areas behind the surface, it inconsistently penalizes depth predictions. The model can obtain a higher IoU by filling all areas behind the surface and predicting a closer depth. 如果模型预测的网格在真实网格的后面那么IOU得分为0那么如果想要得分高而且也不预测那么准的话就把网格预测厚一点把真实网格包裹住就可以。 If the predicted occupancy represents a thin surface, the penalty becomes overly strict. Even a deviation of just one voxel results in an IoU of zero. 反之预测薄了的话如果没包住真值那IOU为0得分就很低。 The visible mask only considers the visible area at the current moment, reducing occupancy prediction to a depth estimation task and overlooking the scene completion ability. visible mask告诉模型哪些区域有效哪些区域无效invisible那么模型只需要预测有效区域的深度就可以了让模型occ预测变成了深度预测。
4.2 Ray-IOU的提出
针对每一束射线射到的第一个样本C求
TP / (TP FP FN)
TP表征实际有预测有
FP表征实际没有预测有
FN表征实际有预测没有这样有好处
只看射线射到的第一个样本不考虑其厚度TP的阈值更宽比mIOU宽松一点任何位置都有可能成为光束的起始点这样子让模型能够真正进行场景建模能力而不是仅仅深度预测能力
实验
在Ray-IOU中SparseOCC达到最佳在mIOU中BEVDet-OCC达到最佳。 后面的实验结论没看了。