专利 基于多头注意力机制的多阶段深度网络室内场景识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211017228.2 (22)申请日 2022.08.23 (71)申请人中国地质大学（武汉）地址 430000 湖北省武汉市洪山区鲁磨路 388号 (72)发明人陈略峰　段文浩　吴敏　李敏　 (74)专利代理机构武汉知产时代知识产权代理有限公司 42 238 专利代理师王佩 (51)Int.Cl. G06V 20/00(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/77(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多头注意力机制的多阶段深度网络室内场景识别方法 (57)摘要本发明提供了一种基于多头注意力机制的多阶段深度网络室内场景识别方法，包括以下步骤：获取室内场景的数据集，并将数据集按比例分为训练集和测试集；对训练集中的室内场景图像进行预处理和数据增强处理；将增强后的图像输入到3层不同步长的卷积层中进行下采样；将提取到的特征信息输入到主干网络中，利用深度卷积和多头自注意力机制，采用多阶段的训练方式进行深度特征提取，得到深度特征信息；将深度特征信息输入到池化层、全连接层和分类器中，得到训练完成的分类器；利用训练完成的分类器对测试集进行测试，从而确定室内场景类别。本发明可以获取更好的局部特征信息和深度特征信息，并在减少特征信息的损失的同时实现室内场景的准确识别。权利要求书2页说明书7页附图2页 CN 115424123 A 2022.12.02 CN 115424123 A 1.一种基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，包括以下步骤： S1：获取室内场景的数据集，并将数据集按比例分为训练集和测试集； S2：对训练集中的室内场景图像进行预处理和数据增强处理，得到增强后的图像； S3：将增强后的图像输入到3层不同步长的卷积层网络中进行下采样，减小图像的大小，同时保留更多的特征信息和局部信息； S4：将S3中提取到的特征信息输入到主干网络中，利用深度卷积和多头自注意力机制，采用多阶段的训练方式进行深度特征提取，得到深度特征信息； S5：将深度特征信息依次输入池化层、全连接层和分类器中，得到最终权值和训练完成的分类器； S6：利用训练完成的分类器和最终权值对测试集中的室内场景图像进行测试，从而确定室内场景类别。 2.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S1中，所述获取室内场景的数据集的步骤，包括：利用情感机器人进行常见室内交互环境的场景图像数据收集，并与IndoorCVPR_09相关数据集合并制作室内场景的数据集。 3.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S2中，使用Trivialaugmentation方法对预处理后的室内场景图像进行数据增强处理，具体包括：增加一个数据增强函数的集合A作为输入，集合A的数据增强函数包括旋转、平移、翻转、均衡、像素值翻转和亮度，每个数据增强函数都有其对应的增强范围{0,1,2 …,N}；从A中随机采样一个数据增强函数，并从增强范围{0,1,2 …,N}中均匀采样一个值作为强度m，其中N表示任意正整数，根据强度m对输入图像进行数据增强，并返回增强后的图像。 4.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S 3中，所述将增强后的图像输入到3层不同步长的卷积层网络中进行下采样的步骤，包括：将增强后的图像作为输入图像，输入到 3层不同步长的卷积层网络中；第一个卷积层使用3x3，步长为2的卷积，输出通道为32，对输入图像进行一次下采样的操作，减小输入图像的大小，保留更多的特征信息；将前一个卷积层的输出作为输入，使用两层3x3，步长为1的卷积，获得更好的局部信息。 5.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S4中，所述主干网络分为四个阶段来生成不同尺度的特征图，为了产生分层表示，在每个阶段之前添加一个2x2，步长为2的卷积层，以减小中间特征的大小，并将其投影到更大的维度；每个阶段中，在多头注意力机制前还有一个深度卷积层DW，深度卷积层用于局部特征的提取，同时减少计算量；多头注意力机制用于动态调整权重值，得到更多的局部特征信息以及全局特征信息。 6.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，权　利　要　求　书 1/2 页 2 CN 115424123 A 2其特征在于，步骤S5中，以一个全局平均池化层、一个全连接层和一个带有softmax的1000 路分类层结束，得到最终权值和训练完成的分类器。 7.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S6中，所述利用训练完成的分类器和最终权值对测试集中室内场景图像进行测试的步骤，包括：将测试集中室内场景图像作为待检测图像输入训练完成的分类器中；根据预设的要求调整所述待检测图像的尺寸大小，生成第一检测图像；将所述第一检测图像输送至主干网络中进行深度特征提取和匹配识别，生成分类识别信息以及分类识别信息对应的分类概率值；判断所述分类概率值是否大于预设的分类概率阈值，若是，则将所述检测框和分类识别信息作为识别的分类结果；若否，则继续进行其余分类概率值比较，直至分类概率值大于预设的分类概率阈值，得到识别结果。 8.一种基于多头注意力机制的多阶段深度网络室内场景识别装置，其特征在于，包括以下模块：数据集获取模块，用于获取室内场景的数据集，并将数据集按比例分为训练集和测试集；数据增强模块，用于对训练集中的室内场景图像进行预处理和数据增强处理，得到增强后的图像；下采样模块，用于将增强后的图像输入到3层不同步长的卷积层网络中进行下采样，减小图像的大小，同时保留更多的特征信息和局部信息；深度特征提取模块，用于将下采样模块提取到的特征信息输入到主干网络中，利用深度卷积和多头自注意力机制，采用多阶段的训练方式进行深度特征提取，得到深度特征信息；分类器获取模块，用于将深度特征信息依次输入池化层、全连接层和分类器中，得到最终权值和训练完成的分类器；场景识别模块，用于利用训练完成的分类器和最终权值对测试集中的室内场景图像进行测试，从而确定室内场景类别。 9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑7中任一项所述的多阶段深度网络室内场景识别方法的步骤。 10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1 ‑7中任一项所述的多阶段深度网络室内场景识别方法的步骤。权　利　要　求　书 2/2 页 3 CN 115424123 A 3

专利 基于多头注意力机制的多阶段深度网络室内场景识别方法

专利基于多头注意力机制的多阶段深度网络室内场景识别方法