专利 基于分割的图像目标快速检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210978054.X (22)申请日 2022.08.16 (71)申请人中国人民解放军军事科学院国防科技创新研究院地址 100071 北京市丰台区东大街5 3号 (72)发明人牛戈　郭鹏宇　刘勇　张飞　季明江　冉德超　 (74)专利代理机构北京奥文知识产权代理事务所(普通合伙) 11534 专利代理师张文 (51)Int.Cl. G06V 20/13(2022.01) G06V 10/25(2022.01) G06V 10/26(2022.01) G06V 10/28(2022.01)G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 3/00(2006.01) G06T 7/246(2017.01) (54)发明名称基于分割的图像目标快速检测方法 (57)摘要本发明公开了一种基于分割的图像目标快速检测方法，包括：准备训练数据；构建神经网络模型，使用嵌入可变形卷积的残差网络作为用于特征提取的骨干网络，通过对特征金字塔各层特征进行上采样和相加操作，使得特征金字塔各层融合为原输入图像的1/4尺寸的新特征图，将获取的新特征图通过标签学习生成概率图和阈值图，再由可微分二值化公式将生成的概率图和阈值图生成近似二值化图；设定优化方法；检测目标，将待检测图像输入神经网络模型，加载之前得到的网络权重，通过轮廓追踪算法生成舰船目标边界框。本方法使用自适应阈值替代了固定阈值，能够更精确地过滤目标背景；在需要生成检测框时，无需复杂的后处理过程，能够减少计算量，提高运算速度。权利要求书3页说明书9页附图6页 CN 115471755 A 2022.12.13 CN 115471755 A 1.一种基于分割的图像目标快速检测方法，其特征在于，所述方法包括： S1：准备训练数据，对4点坐标形式标注的舰船目标训练图像进行离线数据增强，将原始数据以及经由离线数据增强后生成的数据一起作为训练样本； S2：构建神经网络模型，使用嵌入可变形卷积的残差网络作为用于特征提取的骨干网络，通过对特征金字塔各层特征进行上采样和相加操作，使得特征金字塔各层融合为原输入图像的1/4尺寸的新特征图，将获取的新特征图通过标签学习生成概率图和阈值图，再由可微分二值化公式将生成的概率图和阈值图生成近似二值化图； S3：设定优化方法，借助训练样本，计算神经网络模型中概率图、阈值图和近似二值化图的损失并进行优化，保存通过神经网络模型得到的网络权重； S4：检测目标，将待检测图像输入神经网络模型，加载之前得到的网络权重，通过轮廓追踪算法生成舰船目标边界框。 2.根据权利要求1所述的一种基于分割的图像目标快速检测方法，其特征在于，在所述 S1中，所述对4 点坐标形式标注的舰船目标训练图像进行离线数据增强，包括：将舰船目标训练图像连带(x1， y1， x2， y2， x3， y3， x4， y4)格式标注的真实标签一同进行离线数据增强，其中，所述离线数据增强包括：旋转图像、随机改变图像亮度、对图像随机添加高斯噪声。 3.根据权利要求2所述的一种基于分割的图像目标快速检测方法，其特征在于，所述离线数据增强中的旋转图像操作包括：对图像使用仿射变换实现随机角度旋转，其中，变换公式如下：在上式中， θ表示旋转角度， (x， y)表示选定的旋转目标在图像中的原始坐标， (x ′， y′) 表示选定的旋转目标对应生成的新坐标。 4.根据权利要求2所述的一种基于分割的图像目标快速检测方法，其特征在于，所述离线数据增强中的随机改变图像亮度、对图像随机添加高斯噪声包括：利用Python中的 Scikit‑Image数字图片处理包和Numpy包，对图像加入随机亮度和随机噪声。 5.根据权利要求1所述的一种基于分割的图像目标快速检测方法，其特征在于，在所述 S2中，所述使得特征金字塔各层融合为原输入图像的1/4尺寸的新特征图，包括：将原始的训练图像的尺寸调整到固定大小，输入至提取特征的骨干网络，使用ResNet ‑ 50，并在Co nv3、 Conv4、 Conv5层中使用可变形卷积v2，其计算方法如下：在上式中， p表示输入， y(p)表示输出矩阵， pk表示卷积核参数集合R中的第k个点， △pk 表示神经网络模型学习到的每个位置的偏移量，△mk表示权重系数， △mk与△pk都通过一个卷积层进行学习，其中，权重系数 △mk可以使神经网络模型区分变形卷积核覆盖的区域是否为感兴趣区域，若对应区域不包含目标，则权重系数为0 。 6.根据权利要求5所述的一种基于分割的图像目标快速检测方法，其特征在于，在所述 S2中，包括：权　利　要　求　书 1/3 页 2 CN 115471755 A 2当训练样本经过嵌入可变形卷积的骨干网络提取特征后，将生成得到的特征图输入特征金字塔中，特征金字塔中的五层特征图分别为C1、 C2、 C3、 C4、 C5，五层特征图的尺寸分别为原始训练图像的1/2、 1/4、 1/8、 1/16、 1/32，然后通过对特征金字塔各层特征进行上采样和相加操作，将特征金字塔各层融合为原输入图像1/4尺寸的新特征图，之后，将得到的新特征图通过标签学习生成概率图与阈值图，概率图和近似二值化图受相同标签的监督，将每个舰船目标矩形标注框通过收缩一定的偏移量形成标签，定义偏移量的计算方法如下：在上式中， D表示偏移量， L表示边界框周长， A 表示边界框面积，参数r 表示收缩比例；对于阈值图训练使用的标签，在由上式计算出偏移量之后，将原真实标签收缩并扩张偏移量的区域作为阈值图的标签，将扩张框和收缩框之间差集中各个像素点到原真实标签边界的归一化距离作为区域内各像素的值，使得区域内每个像素的值不完全相同。 7.根据权利要求6所述的一种基于分割的图像目标快速检测方法，其特征在于，在所述 S2中，还包括：在训练过程中，近似二值化图由概率图和阈值图经可微分二值化处理后生成，可微分二值化过程如下式所示：在上式中， (i， j)表示图像中的位置，表示生成的近似二值化图， P表示概率图， T表示神经网络模型中学习到的自适应阈值图， k表示超参数， k设为5 0。 8.根据权利要求7所述的一种基于分割的图像目标快速检测方法，其特征在于，在所述 S3中，包括：神经网络模型的损失函数L由多个损失组合而成，具体为： L＝Ls+α×Lb+β×Lt 在上式中， Ls表示概率图对应的损失， Lb表示近似二值化图对应的损失， Lt表示阈值图对应的损失，根据实际损失值的数量级，将α 设为1.0， β 设为10 。其中，概率图对应的损失Ls使用二分类交叉熵损失函数，具体为：在上式中， Sl表示正负样本比例1:3的训练集， xi表示预测类别的概率， yi表示对应的真实样本标签；近似二值化图对应的损失Lb使用Dice Loss，具体为：在上式中， X表示预测的分割图像， Y表示真实标签；阈值图对应的损失Lt使用L1 Loss，具体为：权　利　要　求　书 2/3 页 3 CN 115471755 A 3

专利 基于分割的图像目标快速检测方法

专利基于分割的图像目标快速检测方法