专利 上下文聚合网络以及基于该网络的图像实时语义分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210486074.5 (22)申请日 2022.05.06 (71)申请人南京邮电大学地址 210003 江苏省南京市鼓楼区新模范马路66号 (72)发明人张梦纯　高广谓　徐国安　吴飞　岳东　 (74)专利代理机构南京苏科专利代理有限责任公司 32102 专利代理师杜春秋 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) (54)发明名称上下文聚合网络以及基于该网络的图像实时语义分割方法 (57)摘要本发明涉及一种用于实时语义分割的高效多尺度上下文聚合网络，包括下采样模块、不对称卷积模块、多分支不对称卷积模块、空间注意模块、通道注意模块和上采样模块，所述不对称卷积模块包括两个或三个不对称卷积单元，所述多分支不对称卷积模块包括三个多分支不对称卷积单元。本发明网络主干分支的编码器与解码器部分基本成对称关系。在解码器最后，对图像进行一次上采样操作，即可获得原始分辨率图像。最后一次上采样模块即为分类卷积，其输出为原始分辨率大小的最终预测结果，将预测结果与对应的语义标签进行对比，目标函数设置为交叉熵损失函数，就可得到训练好的网络模型。使用这个训练好的网络模型，方便进行图像语义分割的结果预测。权利要求书4页说明书14页附图3页 CN 114821061 A 2022.07.29 CN 114821061 A 1.一种上下文聚合网络，其特征在于：包括下采样模块、不对称卷积模块、多分支不对称卷积模块、空间注意模块、通道注意模块和上采样模块，所述不对称卷积模块包括两个或三个不对称卷积单元，所述多分支不对称卷积模块包括三个多分支不对称卷积单元。 2.根据权利要求1所述一种上下文聚合网络，其特征在于：所述不对称卷积模块在聚合网络的编码器部分分为第一编码器不对称卷积模块和第二编码器不对称卷积模块，第一编码器不对称卷积模块包含三个不对称卷积单元，其卷积核为3，第二编码器不对称卷积模块包含两个不对称卷积单元，其卷积核为5；所述不对称卷积模块在聚合网络的解码器部分分为第一解码器不对称卷积模块和第二解码器不对称卷积模块，第一解码器不对称卷积模块由两个不对称卷积单元组成，其卷积核为5，第二解码器不对称卷积模块由两个不对称卷积单元组成，其卷积核为3 。 3.根据权利要求1所述一种上下文聚合网络，其特征在于：所述多分支不对称卷积单元包含四个不对称卷积分支，每个不对称卷积分支采用不对称空洞卷积，其卷积核分别为3， 5， 7， 9，扩张率均为2。 4.根据权利要求1所述一种上下文聚合网络，其特征在于：所述下采样模块包含一个卷积层和一个池化层，所述卷积层的核为3 ×3，所述池化层的步幅为2；所述上采样模块包含一个核为3 ×3，步幅为2的反卷积层。 5.基于权利要求1至4任一项所述上下文聚合网络的图像实时语义分割方法，其特征在于，包括以下步骤：步骤1、构建基于轻量级对称网络的实时语义分割网络模型，包含下采样模块、不对称卷积模块、多分支不对称卷积模块、空间注意模块、通道注意模块、上采样模块；步骤2、初始输入图像输入到下采样模块进行第一次下采样，以提取出初始图像的特征，并且将其图像分辨率变为1/2， F1＝Down(Fin) (1) 其中， Fin表示输入图像， Down表示降采样率为2的降采样模块， F1表示对初始图像进行第一次降采样率为2的下采样后的输出；然后，对经过第一次下采样后的图像，使用编码器的第一个不对称卷积模块进行处理， F13＝C1×3(C3×1(C1×3(C3×1(C1×3(C3×1(F1)))))) (8) 其中， F1表示对初始图像进行第一次降采样率为2的下采样后的输出， C3×1表示卷积核为3×1的卷积操作， C1×3表示卷积核为1 ×3的卷积操作， F13表示编码器第一个不对称卷积模块的输出；步骤3、将编码器第一个不对称卷积模块的输出F13与1/2分辨率图像经过空间注意力模块处理后的输出Y1进行第一次特征融合， Fc1＝Concat(F13,Y1) (9) 其中， Concat表示Concatenate级联操作， Fc1表示第一次特征融合后的输出特征图；步骤4、将第一次特征融合后的输出特征图输送到通道注意模块进行处理， FCAM1＝CAM(Fc1) (10) 其中， CAM表示通道注意力模块， FCAM1表示第一个通道注意模块的输出；再将第一个通道注意模块的输出输送至下采样模块进行第二次下采样，以提取输出特征图像的特征，权　利　要　求　书 1/4 页 2 CN 114821061 A 2F2＝Down(FCAM1) (11) 其中， Down表示降采样率为2的降采样模块， F2表示图像经过第二次下采样之后得到的 1/4分辨率的输出；然后，使用编码器的第二个不对称卷积模块对经过第二次下采样后的图像进行处理， F22＝C1×5(C5×1(C1×5(C5×1(F2)))) (12) 其中， C5×1表示卷积核为5 ×1的卷积操作， C1×5表示卷积核为1 ×5的卷积操作， F22表示编码器第二个不对称卷积模块的输出；步骤5、将编码器第二个不对称卷积模块的输出F22与1/4分辨率图像经过空间注意力模块处理后的输出Y2进行第二次特征融合， Fc2＝Concat(F22,Y2) (13) 其中， Y2表示1/4分辨率图像经过空间注意力模块处理后的输出， Fc2表示第二次特征融合后的输出；步骤6、将第二次特征融合后的输出特征图输送到通道注意模块进行处理， FCAM2＝CAM(Fc2) (14) 其中， FCAM2表示第二个通道注意力模块的输出；再将第二个通道注意模块的输出输送至下采样模块进行第三次下采样，以提取输出特征图像的特征， F3＝Down(FCAM2) (15) 其中， F3表示图像经过第三次下采样之后得到的1/8分辨率的输出；然后，使用多分支不对称卷积模块对经过第三次下采样后的图像进行处理， F31＝PFCU1(F3) (32) F32＝PFCU2(F31) (33) F33＝PFCU3(F32) (34) 其中， PFCU1表示第一个多分支不对称卷积单元， PFCU2表示第二个多分支不对称卷积单元， PFCU3表示第三个多分支不对称卷积单元， F31表示第一个多分支不对称卷积单元的输出， F32表示第二个多分支不对称卷积单元的输出， F33表示第三个多分支不对称卷积单元的输出；步骤7、将多分支不对称卷积模块的输出F33与1/8分辨率图像经过空间注意力模块处理后的输出Y3进行第三次特征融合， Fc3＝Concat(F33,Y3) (35) 其中， Y3表示1/8分辨率图像经过空间注意力模块处理后的输出， Fc3表示第三次特征融合后的输出；步骤8、将第三次特征融合后的输出特征图输送到通道注意模块进行处理， FCAM3＝CAM(Fc3) (36) 其中， FCAM3表示第三个通道注意力模块输出；再将第三个通道注意模块的输出输送至上采样模块进行第一次上采样， F4＝UP(FCAM3) (37) 其中， UP表示上采样率为2的上采样模块， F4表示经过第一个上采样模块后得到的1/4 分辨率的输出；权　利　要　求　书 2/4 页 3 CN 114821061 A 3

专利 上下文聚合网络以及基于该网络的图像实时语义分割方法

专利上下文聚合网络以及基于该网络的图像实时语义分割方法