当前位置：首页 > news >正文

营销型网站建设有哪些平台外贸论坛有哪些平台

news 2025/11/13 22:33:33

营销型网站建设有哪些平台,外贸论坛有哪些平台,医院网站可以自己做吗,建站网站有哪些论文地址#xff1a;https://arxiv.org/abs/2211.11962 论文代码#xff1a;https://github.com/hailanyi/TED 论文背景三维场景中的物体分布有不同的方向。普通探测器不明确地模拟旋转和反射变换的变化。需要大的网络和广泛的数据增强来进行鲁棒检测。 equivariant netw…论文地址https://arxiv.org/abs/2211.11962 论文代码https://github.com/hailanyi/TED 论文背景三维场景中的物体分布有不同的方向。普通探测器不明确地模拟旋转和反射变换的变化。需要大的网络和广泛的数据增强来进行鲁棒检测。 equivariant networks 通过在多个变换点云上应用共享网络显式地模拟变换变化显示出在物体几何建模方面的巨大潜力。这种网络计算量大推理速度慢难以应用于自动驾驶中的 3D 目标检测。希望 3D detector 的预测与旋转和反射等变换是一致的。换句话说当一个目标在输入点中改变它的方向时该目标被检测到的 box 应该具有相同的形状但相应地改变它的方向。然而大多数基于体素和点的方法都没有对这种变换等价方差进行显式建模在处理变换后的点云时会产生不可靠的检测结果。论文提出了 an efficient Transformation-Equivariant 3D DetectorTED 论文相关 3D物体检测先前的方法将点云转换成2D多视图图像以执行3D目标检测。最近大量的方法采用体素或基于点的检测框架。通过使用基于体素的稀疏卷积SECOND、PointPillars、SA-SSD 和 SE-SSD 执行单阶段3D对象检测而体素-RCNN 和SFD 执行两阶段检测。通过使用基于点的集合抽象3DSSD、SASA 和 IA-SSD 执行单阶段检测而PointRCNN 和 STD 进行两阶段检测。 PVRCNN 和 CT3D 使用基于体素和基于点的操作两者来生成和细化目标 proposal。一些最近的方法生成伪点云或来自RGB图像的虚拟点用于基于体素的多模态3D目标检测。论文扩展了流水线与变换等变性设计拥有更高的检测精度。变换等变性建模目前已经提出了各种各样的变换平移、旋转和反射等变网络。一些基于点的SO3和基于体素的SE3等变网络被设计用于处理3D数据。一些等变网络被设计用于目标检测和姿态估计。最相近的是专为室内场景设计的EON但是它没有考虑效率。论文的TED主要是为户外场景中的实时目标检测而设计的。变换等变性和不变性给定运算f X → Y X → Y X→Y 和变换群 G G G等方差定义为 f [ T g X ( x ) ] T g Y [ f ( x ) ] , ∀ x ∈ X , ∀ g ∈ G , (1) \tag1 f[T_g^X(x)]T_g^Y[f(x)],\forall x\in X,\forall g \in G, f[TgX(x)]TgY[f(x)],∀x∈X,∀g∈G,(1)其中 T g X T^X_g TgX 和 T g Y T^Y_g TgY 分别指 X X X 和 Y Y Y 空间中的变换操作。当 T g Y T^Y_g TgY 是单位矩阵时等方差变为不变性。论文研究了自动驾驶场景中的3D目标检测其中变换主要发生在道路平面上。不失一般性考虑 2D BEV平面上的变换。形式上认为变换群 G G G 是二维平移群 ( R 2 , ) (\R^2,) (R2,) 和二维旋转反射群 K K K 的半直积 G ( R 2 , ) ⋊ K G (R2,)\rtimes K G(R2,)⋊K。旋转反射群 K K K 由反射群 ( { ± 1 } , ∗ ) (\{±1\},*) ({±1},∗) 和离散旋转群 O N O_N ON 组成。在反射的情况下群 K K K 包含角度分辨率 β β β 的角度倍数的 N N N 个离散旋转因此 K K K 是 2 N 2N 2N 阶的离散子群。对于输入点云 P P P论文试图找到具有参数 θ θ θ 的检测器 D θ ( ⋅ ) D^θ(·) Dθ(⋅) 来检测 bounding box B B B满足变换等方差 D θ ( T g ( P ) ) T g [ D θ ( P ) ] (2) \tag2D^θ(T_g(P))T_g[D^\theta(P)] Dθ(Tg(P))Tg[Dθ(P)](2) 其中 T g T_g Tg 是 G G G 的变换操作。用于3D检测的对象增强基于“copy-andpaste”的增强GT-aug在最近的 3D 目标检测中被广泛使用。LiDAR-Aug 解决了GT-aug中的闭塞问题。通过交换目标的一部分PA-Aug 和 SE-SSD 创建用于数据增强的不同目标。与之不同的是论文通过从附近密集的对象中创建稀疏的训练样本来增强远处对象的检测。 3D 目标检测给定输入点云 P { p i } i P \{p_i\}_i P{pi}i3D对象检测旨在找到由 3D BBs(Bounding boxs) B { b i } i B \{b_i\}_i B{bi}i表示的所有对象。每个框 b i b_i bi 由坐标编码尺寸和方向。论文中从最先进的 Voxel-RCNN 提出了单模态 TED-S 和多模态 TED-M 3D目标检测器。TED-S和TED-M之间的区别在于TED-S 仅取 LiDAR 点而 TED-M 取 LiDAR 点和由深度估计算法生成的 RGB 图像伪点两者。遵循基于区域的检测框架。它包括一个稀疏卷积主干一个2D区域提议网络RPN和一个建议细化分支。论文内容论文提出了 TED它既是变换等价的又是有效的。通过一个简单而有效的设计来实现让 TeSpconv 堆叠多通道变换-等变体素特征而 TeBEV 池和 Tivoxel 池化将等变特征对齐并聚合到轻量级的 scene-Level 和实例级表示中以实现高效有效的 3D 目标检测。等差变换体素 Backbone 为了有效地将原始点编码为等差变换特征首先设计了等差变换稀疏卷积TeSpConvBackbone。 TeSpConv 由广泛使用的稀疏卷积(SpConv)构造。与CNNs类似SpConv 是等差变换的。然而SpConv 与旋转和反射并不时等变换的。因此通过添加转换通道将 SpConv 扩展到旋转和反射等变1转换通道之间权重高度共享2输入点的变换拥有不同旋转角度和反射。形式上基于 2 N 2N 2N 个变换动作 { T i } i 1 2 N ⊂ K \{T_i\}_{i1}^{2N} \sub K {Ti}i12N⊂K将点云 P P P 变换为 2 N 2N 2N 个不同点集 { P T i } i 1 2 N \{P^{T_i}\}_{i1}^{2N} {PTi}i12N。然后将所有点集划分为体素集 { P ^ T i } i 1 2 N \{\hat P^{T_i}\}_{i1}^{2N} {P^Ti}i12N。在每个体素中原始特征被计算为所有内部点的 point-wise 特征的平均值。利用共享 SpConv φ ( ⋅ ) φ(·) φ(⋅) 将体素 { P ^ T i } i 1 2 N \{\hat P^{T_i}\}_{i1}^{2N} {P^Ti}i12N 编码为等差变换体素 { V T i } i 1 2 N \{V^{T_i}\}_{i1}^{2N} {VTi}i12N V T i φ ( P ^ T i ) , i 1 , 2 , . . . , 2 N . (3) \tag 3 V^{T_i} \varphi (\hat P^{T_i}),i1,2,...,2N. VTiφ(P^Ti),i1,2,...,2N.(3)对于多模态设置论文使用相同的网络结构对伪点特征进行编码。与常规稀疏卷积编码的体素特征相比在不同的旋转和反射变换下特征 { V T i } i 1 2 N \{V^{T_i}\}_{i1}^{2N} {VTi}i12N 包含了不同的特征。等差变换 BEV Pooling 体素特征 { V T i } i 1 2 N \{V^{T_i}\}_{i1}^{2N} {VTi}i12N 包含大量的变换通道因此直接将它们输入RPN将引入大量额外的计算并需要更大的GPU内存。为了解决这个问题论文提出了 TeBEV Pooling通过双线性插值和 max-pooling 将 scene-level 体素特征对齐和聚集成一个紧凑的 BEV map。首先将体素特征 { V T i } i 1 2 N \{V^{T_i}\}_{i1}^{2N} {VTi}i12N沿高度维压缩为BEV特征 { E T i } i 1 2 N \{E^{T_i}\}_{i1}^{2N} {ETi}i12N。由于 BEV 特征是在不同的变换下得到的因此有必要将它们对齐到同一个坐标系中。首先在 E T 1 E^{T_1} ET1 坐标系中生成一组 scene-level 网格点 X T 1 X^{T_1} XT1。根据变换动作 { T i } i 1 2 N \{T_i\}_{i1}^{2N} {Ti}i12N将网格点转换到 BEV 坐标系中生成一组新的网格点 { X T i } i 1 2 N \{X^{T_i}\}_{i1}^{2N} {XTi}i12N。然后在 BEV map 上应用一系列双线性插值 I ( ⋅ , ⋅ ) \mathcal I(·, ·) I(⋅,⋅)得到一组对齐特征 { A T i } i 1 2 N \{A^{T_i}\}_{i1}^{2N} {ATi}i12N A T i I ( X T i , E T i ) , i 1 , 2 , . . . , 2 N . (4) \tag4 A^{T_i} \mathcal I(X^{T_i}, E^{T_i}),i1,2,...,2N. ATiI(XTi,ETi),i1,2,...,2N.(4)如果 E T 1 E^{T_1} ET1 中的边界像素在 E T 2 , . . . , E T N E^{T_2},...,E^{T_N} ET2,...,ETN 中没有对应的像素则内插结果将被填充零。为了提高效率在 2 N 2N 2N 个对齐特征映射上应用最大池 M ( ⋅ ) \mathcal M(·) M(⋅) 来得到一个紧致表示 A ∗ A^* A∗ A ∗ M ( A T 1 , A T 2 , . . . , A T 2 N ) . (5) \tag5 A^* \mathcal M(A^{T_1},A^{T_2},...,A^{T_{2N}}). A∗M(AT1,AT2,...,AT2N).(5)轻量级特征 A ∗ A^* A∗ 被放入RPN 中以有效地生成一组目标 proposals B ∗ B^* B∗. 变换不变体素 Pooling 近年来许多检测器都采用了兴趣区域(Region of Interest, RoI)池化操作从 scene-level 变换等变 backbone 特征中提取 instance-level 变换不变特征用于 proposal refinement。然而直接应用这样的池化操作从 backbone 中提取特征是不可行的 1.坐标系 T 1 T_1 T1 中的 proposal B ∗ B^* B∗ 与不同 T i T_i Ti变换的体素特征 { V T i } i 1 2 N \{V^{T_i}\}_{i1}^{2N} {VTi}i12N不对齐。 2.TeSpConv中的体素特征包含多个变换通道将提取的特征直接送入检测头需要大量的额外计算和GPU内存。因此论文提出了 TiVoxel pooling它通过多网格池和跨网格关注将实例级体素特征对齐并聚合成一个紧凑的特征向量。多网格 pooling Proposal B ∗ B^* B∗ 是在 T 1 T_1 T1 坐标系中获得的而 backbone 特征是在不同的变换下获得的。因此在池化之前需要进行 proposal 对齐。首先在坐标系 T 1 T_1 T1 中使用 proposal B ∗ B^* B∗ 生成一组局部网格点然后根据变换动作 T 2 , . . . , T 2 N {T_2,...,T_{2N}} T2,...,T2N 将网格点变换到 { A T i } i 1 2 N \{A^{T_i}\}_{i1}^{2N} {ATi}i12N 中的每个通道的坐标系中最后由变换后的 2 N 2N 2N 组网格点提取变换不变的局部特征。对于 proposal B ∗ B^* B∗ 基于变换动作 { T i } i 1 2 N \{{T_i}\}_{i1}^{2N} {Ti}i12N首先生成 2 N 2N 2N 个 instance-level 网格点集合 { X T i } i 1 2 N \{{ \boldsymbol X^{T_i}}\}_{i1}^{2N} {XTi}i12N X T i { X j T i } j 1 J ⊂ R 3 { \boldsymbol X^{T_i}} \{ X_j^{T_i} \}_{j1}^{J} \sub \R^3 XTi{XjTi}j1J⊂R3。 J J J 表示在每个集合中的网格点数量。通过使用 2 N 2N 2N 各网格点集论文从 { V T i } i 1 2 N \{ V^{T_i}\}_{i1}^{2N} {VTi}i12N 提取多个 instance-level 特征 { F T i } i 1 2 N \{\boldsymbol F^{T_i}\}_{i1}^{2N} {FTi}i12N F T i V S A ( X T i , V T i ) , i 1 , 2 , . . . , 2 N , (6) \tag6 \boldsymbol F^{T_i} VSA(\boldsymbol X^{T_i},V^{T_i}),i1,2,...,2N, FTiVSA(XTi,VTi),i1,2,...,2N,(6)其中 VSA 指的是体素集 Abstraction 模块且 F T i { F j T i } j 1 J ⊂ R 1 × C \boldsymbol F^{T_i} \{ F_j^{T_i}\}_{j1}^J \sub \R^{1 \times C} FTi{FjTi}j1J⊂R1×C。 C C C 为 grid-wise 特征通道数。 Cross-grid attention { F T i } i 1 2 N \{\boldsymbol F^{T_i}\}_{i1}^{2N} {FTi}i12N 包含多个 instance-level 特征。为了编码更好的局部几何论文应用一个 cross-grid attention 操作来进一步将多个特征聚合成一个更紧凑的变换不变特征向量。具体来说对于第 j j j 个网格点串联了 2 N 2N 2N 个 grid-wise 特征 F j c o n c a t ( F j T 1 … F j T 2 N ) F_j concat(F^{T_1}_ j… F^{T_{2N}}_j) Fjconcat(FjT1…FjT2N) F j ∈ R 2 N × C F_j \in \R^{2N \times C} Fj∈R2N×C。然后有 Q j F j W q K j F j W k V j F j W v \boldsymbol Q_j F_j\boldsymbol W^q\boldsymbol K_j F_j \boldsymbol W^k\boldsymbol V_j F_j \boldsymbol W^v QjFjWqKjFjWkVjFjWv其中 W q , W k , W v \boldsymbol W^q,\boldsymbol W^k,\boldsymbol W^v Wq,Wk,Wv都是线性投影。因此grid-wise 特征为 F ^ j s o f t m a x ( Q j ( K j ) T C ) V j . (7) \tag7 \hat F_j softmax(\frac{\boldsymbol Q_j(\boldsymbol K_j)^T}{\sqrt{C}})\boldsymbol V_j. F^jsoftmax(C Qj(Kj)T)Vj.(7)沿 2 N 2N 2N 平均特征得到特征 F ^ { F ^ j } j 1 J ⊂ R 1 × C \hat {\boldsymbol F} \{\hat F_j\}^J_{j 1}\sub \R^{1 \times C} F^{F^j}j1J⊂R1×C。然后这些特征被扁平化成一个单一的特征向量以执行类似于 object proposal refinement。距离感知数据增强远距离物体的几何形状不完整通常会导致检测性能的巨大下降。为了解决这个问题论文通过从附近的密集对象创建稀疏训练样本来增加遥远稀疏对象的 geometric knowledge。一种简单的方法是采用随机采样或最远点采样(FPS)。但是它破坏了激光雷达扫描到的点云的分布模式。为了解决这个问题论文提出了一种距离感知采样策略该策略考虑了激光雷达和场景遮挡的 scanning 机制。具体来说给定一个位置为 C g C^g Cg 的近地真值 box内部点 { P i g } i \{P^g_i\}_i {Pig}i添加一个随机距离偏移 ∆ α ∆α ∆α即 C g : C g ∆ α C^g: C^g ∆α Cg:Cg∆α P i g : P i g ∆ α P^g_i: P^g_i ∆α Pig:Pig∆α。然后将 { P i g } i \{P^g_i\}_i {Pig}i 转换为球面坐标系并根据激光雷达的角度分辨率将它们体素化为球面体素。在每个体素中最接近体素中心的点被保留作为采样点。然后得到一组采样点它具有与实际扫描点相似的分布模式。由于真实场景中由于遮挡导致的数据不完整是很常见的因此还随机去除一些部分来模拟遮挡。在训练过程中类似于GT-AUG将采样点和 bounding box 添加到训练样本中进行数据扩充。论文总结论文提出了一个高性能的三维目标检测器TED。TED将变换等变体素特征编码为紧凑的场景级和实例级表示用于目标候选生成和精细化。该设计效率高能更好地学习物体的几何特征。局限性 (1)由于输入的变换是离散的和体素化的TED的设计不是严格的变换等变的。通过使用更多的变换和更小的体素TED将更接近完全等变但这带来了更高的计算成本。 (2)考虑到加入更多的变换方式会增加计算成本没有考虑缩放变换。 (3)与 baseline 相比TED需要大约2倍的GPU内存。

查看全文

http://www.pierceye.com/news/322070/