Voxel-based 点云分割/检测等任务中,点云的投影表示方法有三种:
- Spherical
- Bird-eye View
- Cylinder
其中 Spherical 球坐标投影代表为 RandLA-Net;Bird-eye View 则是目前主流的方法。有关 Bird-eye View 点云处理的优劣已经说了很多了,这里不再赘述。本文[1] 介绍一种 Cylinder 柱状投影的点云处理方式,类似 Pillar-based Object Detection,也可以认为是 PolarNet 的 3D 版本。 图 1. Comparison
1. Framework
图 2. Framework
2. Cylinder Partition
图 3. Cylinder Partition
3. Network
3.1. Asymmetry Residual Block
如图 4. 所示,Asymmetry Residual Block 将 \(3\times 3\times 3\) 卷积拆分成 \(1\times 3\times 3\) 和 \(3\times 1\times 3\) 两种,这样作有两个好处:
- 由于待检测的目标都接近于长方体,这种卷积形式更有利于提取长方体样式的特征;
- 减少 33% 的计算量,类似 Depth-wise Convolution;
该模块作为 3D 卷积的基本模块,嵌入在下采样前,以及上采样后。
3.2. Dimension-Decomposition based Context Modeling
由于 3D 空间的特征表达是 high-rank 的,所以利用矩阵分解的思想,将其用 height,width,depth 三维的 low-rank 向量来权重化表达,由此设计如图 4. 中的 DDCM 模块。该模块将三个方向的特征计算各自的权重,然后与原始特征作权重化整合。输出的特征用于最终的预测,预测输出是 Voxel-based,维度为 \(Class\times H\times W\times L\)。
4. Reference
[1] Zhou, Hui, et al. "Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation." arXiv preprint arXiv:2008.01550 (2020).