专利 一种用于3D场景理解的点云多模态特征融合网络方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210323717.4 (22)申请日 2022.03.30 (71)申请人南京大学地址 210000 江苏省南京市栖霞区仙林大道163号 (72)发明人郭延文　赵志伟　吴政亿　任大勇　 (74)专利代理机构深圳峰诚志合知识产权代理有限公司 4 4525 专利代理师杜翠鸣 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 10/56(2022.01) G06V 10/82(2022.01)G06V 10/764(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种用于3D场景理解的点云多模态特征融合网络方法 (57)摘要本发明提供了一种用于3D场景理解的点云多模态特征融合网络方法，包括以下步骤：步骤 1：收集现有的点云数据集，其中数据集包括 S3DIS数据集和ModelNet40数据集，数据集中的数据包括含颜色信息的点云数据；步骤2：根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像；步骤3：使用PointNet++提取点云的全局特征和部分局部特征；步骤4：使用 VGG16分别提取不同的视图图像特征并聚合成一个全局特征；步骤5：将点云分支和图像分支的特征进行拼接合并；步骤6：将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征；步骤 7：将步骤6得到的融合特征特征进行逐位加操作；步骤8：将图像特征和步骤7得到的特征进行拼接合并；步骤9：重复步骤6、 7、 8两次后得到最后的融合特征；步骤10：对于步骤9的输出的特征使用语义分割网络预测点云语义信息，使用标注信息进行监督训练；步骤11：对于步骤9的输出的特征使用分类预测点云类别信息，使用标注信息进行监督训练；步骤12：点云语义分割和类别的显示，本发明是一个精度更高且更加鲁棒的点云语义分割模型，可用于绝大多数的室内场景理解任务中。权利要求书2页说明书4页附图2页 CN 114708475 A 2022.07.05 CN 114708475 A 1.一种用于 3D场景理解的点云多模态特征融合网络方法，其特征在于，包括以下步骤：步骤1：收集现有的点云数据集，其中数据集包括S3DIS数据集和ModelNet40数据集，数据集中的数据包括含颜色信息的点云数据；步骤2：根据点云数据从前视图、后视图、顶视图、底视图、右侧视图、左侧视图生成其对应的多视图的点云投影图像和点频图像；步骤3：使用Po intNet++提取点云的全局特征和部分局部特征；步骤4：使用VG G16分别提取不同的视图图像特征并聚合成一个全局特征；步骤5：将点云分支和图像分支的特征进行拼接合并；步骤6：将拼接后的特征通过两个1x1的卷积层融合点云特征和图像特征；步骤7：将步骤6得到的融合特征和拼接特征进行逐位加操作；步骤8：将图像特征和步骤7 得到的特征进行拼接合并；步骤9：重复步骤6、 7、 8两次后得到最后的融合特征；步骤10：对于步骤9输出的特征使用语义分割网络预测点云语义信息，使用标注信息进行监督训练；步骤11：对于步骤9输出的特征使用分类预测点云类别信息，使用标注信息进行监督训练；步骤12：显示点云的3D场景理解效果图。 2.根据权利要求1所述的方法，其特征在于，步骤1包括如下步骤：步骤1‑1：下载现有的S3DIS数据集和Model Net40数据集；步骤1‑2：处理获取点云数据。 3.根据权利要求2所述的方法，其特征在于，步骤2包括如下步骤：步骤2‑1：从前视图、后视图、顶视图、底视图、右侧视图、左侧视图分别投影点云数据；步骤2‑2：生成其对应的多视图图像。 4.根据权利要求3所述的方法，其特征在于，步骤3包括以下步骤：步骤3‑1：构造PointNet ++图像特征提取网络并输入原始点云数据提取点云特征，并加载在预训练模型参数；步骤3‑2： PointNet++网络首部主要分为sample&grouping和pointnet组成的set abstraction对点云进行局部的全局特征提取。 5.根据权利要求 4所述方法，其特征在于，步骤4包括以下步骤：步骤4‑1：构造VGG16图像特征提取网络并加载在预训练模型参数，输入不同的视图图像提取特征；步骤4‑2： VGG16网络首部由连续2次的两个3x3的卷积层一个2x2的池化层，在加上连续三次的两个3x3的卷积层、一个1x1的卷积层和一个2x2的池化层组成。 6.根据权利要求5所述方法，其特征在于，步骤5方法如下：将点云分支得到的点云特征和投影视图的RGB图像和点频图像的特征进行拼接合并。 7.根据权利要求6所述方法，其特征在于，步骤6方法包括：将拼接点云特征和图像特征通过两个1x1的卷积层进行融合，再通过Relu激活层。 8.根据权利要求7 所述方法，其特征在于，步骤7 方法包括以下步骤：将融合特征和拼接得到的特征进行逐位加操作。权　利　要　求　书 1/2 页 2 CN 114708475 A 29.根据权利要求8所述方法，其特征在于，步骤8方法包括：再将图像特征和步骤7 得到的特征进行拼接合并。 10.根据权利要求9所述方法，其特征在于，步骤9方法如下：在重复步骤6、步骤7和步骤8两次后，经过1x1的卷积层改变通道数深度融合了二维图像和三维点云的特诊。 11.根据权利要求10所述方法，其特征在于，步骤10方法包含：将步骤9得到的特征使用语义分割网络预测点云的语义信息，使用标注信息进行监督训练。 12.根据权利要求1 1所述方法，其特征在于，步骤1 1方法如下：步骤11‑1：将步骤9得到的特征使用分类网络预测点云的类别信息，使用标注信息进行监督训练；步骤11‑2：分类网络由若各干个全连接层组成。 13.根据权利要求12所述方法，其特征在于，步骤12方法如下：最后将得到的点云语义分割和语义类别进行显示。权　利　要　求　书 2/2 页 3 CN 114708475 A 3

专利 一种用于3D场景理解的点云多模态特征融合网络方法

专利一种用于3D场景理解的点云多模态特征融合网络方法