Voxel-based 点云分割/检测等任务中,点云的投影表示方法有三种:
- Spherical
- Bird-eye View
- Cylinder
其中 Spherical 球坐标投影代表为 RandLA-Net;Bird-eye View 则是目前主流的方法。有关 Bird-eye View 点云处理的优劣已经说了很多了,这里不再赘述。本文[1] 介绍一种 Cylinder 柱状投影的点云处理方式,类似 Pillar-based Object Detection,也可以认为是 PolarNet 的 3D 版本。 Pillar-based Object Detection 中详细说明了 Cylinder 投影比 Spherical 投影的优势,这里不做赘述,如图 1. 所示,相比 Spherical 投影,Cylinder 投影效果提升很明显。
1. Framework
如图 2. Cylinder3D 由 3D 柱坐标投影和 3D U-Net 特征提取两部分组成。框架比较简单,网络结构主要由 DownSample,UpSample,Asymmetry Residual Block,Dimension-Decomposition based Context Modeling 四种组件构成。
2. Cylinder Partition
如图 3. 所示,将笛卡尔坐标系下的点云 \((x,y,z)\) 转换到柱坐标系下 \((\rho,\theta,z)\)。对于每个扇形 Voxel,作 PointNet 特征提取,最终得到 3D Cylinder 点云特征表示 \(\mathbb{R}\in C\times H\times W\times L\)。
3. Network
3.1. Asymmetry Residual Block
如图 4. 所示,Asymmetry Residual Block 将 \(3\times 3\times 3\) 卷积拆分成 \(1\times 3\times 3\) 和 \(3\times 1\times 3\) 两种,这样作有两个好处:
- 由于待检测的目标都接近于长方体,这种卷积形式更有利于提取长方体样式的特征;
- 减少 33% 的计算量,类似 Depth-wise Convolution;
该模块作为 3D 卷积的基本模块,嵌入在下采样前,以及上采样后。
3.2. Dimension-Decomposition based Context Modeling
由于 3D 空间的特征表达是 high-rank 的,所以利用矩阵分解的思想,将其用 height,width,depth 三维的 low-rank 向量来权重化表达,由此设计如图 4. 中的 DDCM 模块。该模块将三个方向的特征计算各自的权重,然后与原始特征作权重化整合。输出的特征用于最终的预测,预测输出是 Voxel-based,维度为 \(Class\times H\times W\times L\)。
4. Reference
[1] Zhou, Hui, et al. "Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation." arXiv preprint arXiv:2008.01550 (2020).