MVF 在俯视图点云特征的基础上,融合了点云的前视图特征,由此解决点云在远处比较稀疏,以及行人等狭长型目标特征信息较少的问题。本文[1]基于 MVF 作了三部分的改进:
- 检测头改为 Anchor-Free 的形式,本文称之为 Pillar-based,其实就是图像中对应的像素点;
- 前视图用 Cylindrical View 代替 Spherical View,解决目标高度失真的问题;
- 两个视图的栅格特征反投影回点特征作融合时,采用双线性插值的形式,避免量化误差的影响。
1. Framework
图 1. Framework
具体的,设 \(N\) 个点的点云 \(P=\{p _ i\} _ {i=0} ^ {N-1}\subseteq\mathbb{R} ^ 3\),对应的特征向量为 \(F = \{f _ i\} _ {i=0} ^ {N-1}\subseteq\mathbb{R} ^ K\)。令 \(F _ V(p _ i)\) 返回点 \(p _ i\) 对应的栅格柱子 \(v _ j\) 的索引 \(j\);\(F _ P(v _ j)\) 则返回栅格柱子 \(v _ j\) 对应的点集。对每个柱子进行特征整合,一般采用类似 PointNet(PN) 的方法: \[f _ j ^{pillar} = \mathrm{PN} (\{f _ i|\forall p _ i\in F _ P(v _ j)\}) \tag{1}\] pillar 级别的特征经过 CNN \(\phi\) 后得到进一步的 pillar 级别特征:\(\varphi=\phi(f ^ {pillar})\)。然后分别对 BEV,CYV 作 pillar-to-point 的特征投影变换: \[f _ i^{point}=f _ j^{pillar}\;\mathrm{and}\;\varphi _ i^{point} = \varphi _ j^{pillar},\;\mathrm{where}\; j = F _ V(p _ i) \tag{2}\] 最后的检测头是应用已经较为广泛的 Anchor-Free 形式。
2. Cylindrical View
图 2. Projection
3. Pillar-based Prediction
这里所谓的 Pillar-based 预测,本质上就是图像中常说的 Anchor-Free 的 Pixel-Level 的检测方法。最后特征图上的每个点预测类别概率,以及 3D 框属性 \(\Delta _ x,\Delta _ y,\Delta _ z,\Delta _ l,\Delta _ w,\Delta _ h,\theta ^ p\)。这里不作展开。
4. Bilinear Interpolation
图 3. Bilinear
5. Reference
[1] Wang, Yue, et al. "Pillar-based Object Detection for Autonomous Driving." arXiv preprint arXiv:2007.10323 (2020).