专利 一种轻量级移动状态下工业货箱的文本检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210381339.5 (22)申请日 2022.04.12 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人胡海洋　韩俊博　李忠金　厉泽品　翁念标　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师朱亚冠 (51)Int.Cl. G06V 20/62(2022.01) G06V 20/10(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/26(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种轻量级移动状态下工业货箱的文本检测方法 (57)摘要本发明公开一种轻量级移动状态下工业货箱的文本检测方法。本发明获取生产制造流程中移动状态下搬运货箱的货箱标识牌图像；利用基于双线性特征向量融合的工业货箱文本检测模型对上述货箱标识牌图像实现货箱标识牌上文本信息位置的检测；本发明在ResNet主干网络引入改进的Gho st模块，网络计算量更少；本发明采用双线性特征向量融合模块只需要经过简单的线性操作，就可以完成不同尺度特征向量的融合，因此在不影响实时性的同时，增加了网络检测的精确率；本发明在检测头中采用DB的算法，用动态的自适应阈值代替固定阈值，能更好地汇集周围的环境特征来提高检测精度。权利要求书3页说明书7页附图3页 CN 114648755 A 2022.06.21 CN 114648755 A 1.一种轻量级移动状态下工业货箱的文本检测方法，其特征在于包括以下步骤：步骤(1)、获取生产制造流程中移动状态下搬运货箱的货箱标识牌图像；步骤(2)、利用基于双线性特征向量融合的工业货箱文本检测模型对上述货箱标识牌图像实现货箱标识牌上文本信息位置的检测；所述基于双线性特征向量融合的工业货箱文本检测模型包括Ghost ‑ResNet骨干网络、双线性特征向量融合模块、特征金字塔增强和特征融合模块、 DB语义分割检测头；所述Ghost ‑ResNet骨干网络采用现有ResNet网络为基本框架，将现有 ResNet网络的每一个基础残差块替换为一个改进的Ghost模块，然后在全连接层后加一个卷积层，最终得到所有通道相等的特征图；所述改进的Ghost模块采用在现有Ghost模块嵌入特征增强层Squeeze ‑and‑ Excitation，实现对现有Ghost模块中第一个部分卷积之后的特征进行重标定，即通过第一个部分卷积获得特征图α，然后对特征图α 进行Squeeze ‑and‑Excitation特征增强、线性操作、第二个部分卷积得到特征图β，最后将特征图α 和特征图β 进行拼接得到最终结果；所述双线性特征向量融合模块包括依次级联的层化池、特征向量融合模块；所述层化池用于接收所述Ghost ‑ResNet骨干网络输出的若干通道相等的特征图，然后将所有特征图大小统一；其中每个特征图包括m个特征向量；所述特征向量融合模块采用针对当前工厂环境改进的改进LSTM网络，抛弃了现有LSTM 中的长期记忆，只保留短期记忆以提高检测效率，用于将所述层化池输出的所有特征图融合；所述改进LSTM网络具体操作如下： Ft＝Conv([ht‑1,xt]) it＝σ(Wi×[ht‑1,xt]+bi) Ct＝tanh(WC×[ht‑1,xt]+bC) 其中Conv为卷积操作， Ct为tanh函数， σ 为sigmoid函数， ht为改进LSTM网络对某一特征图中第t个特征向量xt的输出， Wi， bi分别为sigmoid函数的权重和偏置， WC， bC分别为sigmoid 函数的权重和偏置， m为特征向量的数量， [ht‑1,xt]表示对ht‑1和xt的拼接；所述特征金字塔增强和特征融合模块包括依次级联的特征金字塔增强层FPEM和特征融合层FFM；所述特征金字塔增强层 FPEM接收Ghost ‑ResNet骨干网络输出的特征图进行级联，产生不同层次的特征F1,F2…Fm，并送入特征融合层F FM；所述特征融合层FFM接收双线性特征向量融合模块的输出，并利用上采样操作将特征向量扩张为通道数为128、大小为原图1/4的特征图F；然后将所述特征金字塔增强层FP EM产生的特征F1,F2…Fm进行逐层次融合，再将其与特征图F进行拼接操作获得通道数为5 ×128，大小为原图1/4的最终特征图；所述DB语义分割检测头用于根据所述特征金字塔增强和特征融合模块输出的特征图进行处理，获取包围框；所述DB语义分割检测头包括卷积层、自适应阈值DB算法层、交运算层、膨胀层；权　利　要　求　书 1/3 页 2 CN 114648755 A 2所述卷积层根据所述特征金字塔增强和特征融合模块输出的特征图，得到概率图；所述自适应阈值DB算法层采用将现有DB算法中固定阈值更换为自适应阈值；推理阶段，所述自适应阈值DB算法层通过设置九宫格掩模对概率图进行如下公式自适应阈值计算，获得阈值图；其中x， y为概率图中的坐标， fx,y是坐标为(x,y)的像素值， c为自适应阈值算法求得的阈值， px+i,y+j为概率图坐标为(x+i,y+j)的像素值， f'x,y是阈值图中坐标为(x,y)的像素；所述交运算层对概率图和阈值图进行交运算，获取包围框；所述膨胀层对包围框进行膨胀，膨胀的倍数为D'＝(A' ×r')/L'， A'为包围框的面积， L'为包围框的周长， r'为膨胀系数。 2.如权利要求1所述的方法，其特征在于所述基于双线性特征向量融合的工业货箱文本检测模型训练阶段，所述DB语义分割检测头由卷积层、自适应阈值DB算法层构成；在所述自适应阈值DB算法层后还需对概率图和阈值图通过二值化操作得出额外的二值图；其中，值为1的地方代表着有文字的区域，其余地方值为0；标准的二值化操作：其中， B为二值图， P为概率图， T为阈值图， (i,j)为坐标；训练阶段损失函数L表示为概率图的损失、二值图的损失与阈值图的损失的加权和： L＝Ls+α×Lb+β×Lt 其中， LS是概率图的损失值， Lb是二值图的损失值， Lt是阈值图的损失； α和β均为超参数。 3.如权利要求2所述的方法，其特征在于LS和Lb使用DiceLoss损失函数进行训练；其计算公式为：其中pred为预测值， gt为ground ‑truth； Lt采用Mask L1 Loss损失函数进行训练，通过掩模来进行Lt损失函数的计算；其计算公式为：其中， Lt损失为平均绝对差值，而后增加了mask掩模，对mask指定的区域进行Lt损失函数的计算， n为膨胀后的图像区域在mask掩模下需要进行计算的数量总和；绝对值为预测包围框与ground ‑truth的距离差值。 4.如权利要求1所述的方法，其特征在于特征增强层Squeeze ‑and‑Excitation包括权　利　要　求　书 2/3 页 3 CN 114648755 A 3

专利 一种轻量级移动状态下工业货箱的文本检测方法

专利一种轻量级移动状态下工业货箱的文本检测方法