4D Panoptic LiDAR Segmentation

  4D 激光点云的全景分割任务是在 3D 基础上,引入时间维度,同时在时间和空间下作点云的语义分割以及实例分割,输出的是每个点的语义类别信息,以及时序实例 ID。本文[1] 提出了一种简单 4D 全景分割框架。

1. Framework

  如图 1. 所示,将时序点云作累积,然后用 Encoder-Decoder 网络,输出量有:

  • Semantic Map,每个点的类别;
  • Objectness Map,目标中心点,或者靠近中心的某点;
  • Point Embeddings,每个点的特征;
  • Point Variance Map,每个点的位置方差;

有了这些信息后,就可以聚类出目标实例,方法类似 Instance Segmentation by Jointly Optimizing Spatial Embeddings and Clustering Bandwidth,将 variance map 拓展到 Embedding 任意空间,应该是目前比较先进的策略了。
  假设目标实例的点云符合高斯分布,那么在已知中心点,或者属于该实例的某点的情况下(不用必须是中心点,这样能处理遮挡等情况),就可以判断其它点属于该实例的概率。具体的,已知实例中心点 \(\mathbf{p} _ i\),以及对应的 Embedding 特征 \(e _ i\),可以计算其它点 \(p _ j\) 是否属于该实例的概率: \[\hat{p} _ {ij}=\frac{1}{(2\pi) ^ {D/2}|\Sigma _ i| ^ {\frac{1}{2}}}\mathrm{exp}\left(-\frac{1}{2}(e _ i-e _ j)^T\Sigma _ i^ {-1}(e _ i-e _ j)\right) \tag{1}\] 其中 \(\Sigma _ i\) 是通过点 \(p _ i\) 预测的 \(\sigma _ i\) 所构建的对角矩阵。值得注意的是,Embedding 特征串联了空间和时序量,这样更有利于聚类,同时预测对应的 variance map。
  ID 则是通过时序下作实例的数据关联得到的。

2. Loss

  网络输出都是点级别的。总的 Loss 为: \[L=L _ {class}+L _ {obj}+L _ {ins}+L _ {var} \tag{2}\] 具体的:

  • Semantic Segmentation
    用 Cross-entropy 分类损失函数,并且通过采样的方法来解决类别不平衡问题。
  • Point Centerness
    计算每个点与其实例中心点,或者实例点云重心点的距离,归一化后作为中心点得分损失函数: \[L _ {obj} = \sum _ {i=1} ^ N(\hat{o} _ i-o _ i) ^ 2,\;\;\;\hat{o} _ i,o _ i\in[0,1]\tag{3}\]
  • Instance Probability
    计算每个实例中每个点属于该实例的概率,回归其值到 1: \[L _ {ins}=\sum _ {j=1} ^ K\sum _ {i=1} ^ N(\hat{p} _ {ij}-p _ {ij}) ^ 2,\;\;\;p _ {ij} = 1,\;\mathrm{if}\; p _ i\in I _ j,\;\mathrm{else}\; 0\tag{4}\]
  • Variance Smooth
    类似 Instance Segmentation by Jointly Optimizing Spatial Embeddings and Clustering Bandwidth,作实例内每个点 Variance 的一致性约束: \[L _ {var} = \frac{1}{|I _ j|}\sum _ {i\in I _ j}\Vert \sigma _ i-\sigma _ j\Vert ^ 2\tag{5}\]

3. Measuring Performance

To be continued...

4. Reference

[1] Aygün, Mehmet, et al. "4D Panoptic LiDAR Segmentation." arXiv preprint arXiv:2102.12472 (2021).

----------------- END -----------------
坚持原创技术分享!