(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210381339.5 (22)申请日 2022.04.12 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 胡海洋 韩俊博 李忠金 厉泽品  翁念标  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱亚冠 (51)Int.Cl. G06V 20/62(2022.01) G06V 20/10(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/26(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种轻量级移动状态下工业货箱的文本检 测方法 (57)摘要 本发明公开一种轻量级移动状态下工业货 箱的文本检测方法。 本发明获取生产制造流程中 移动状态下搬运货箱的货箱标识牌图像; 利用基 于双线性特征向量融合的工业货箱文本检测模 型对上述货箱标识牌图像实现货箱标识牌上文 本信息位置的检测; 本发明在ResNet主干网络引 入改进的Gho st模块, 网络计算量更少; 本发明采 用双线性特征向量融合模块只需要经过简单的 线性操作, 就可以完成不同尺度特征向量的融 合, 因此在不影响实时性的同时, 增加了网络检 测的精确率; 本发明在检测头中采用DB的算法, 用动态的自适应阈值代替固定阈值, 能更好地汇 集周围的环境特 征来提高检测精度。 权利要求书3页 说明书7页 附图3页 CN 114648755 A 2022.06.21 CN 114648755 A 1.一种轻量级移动状态下工业货箱的文本检测方法, 其特 征在于包括以下步骤: 步骤(1)、 获取生产制造流 程中移动状态下 搬运货箱的货箱标识牌图像; 步骤(2)、 利用基于双线性特征向量融合的工业货箱文本检测模型对上述货箱标识牌 图像实现货箱标识牌上文本信息位置的检测; 所述基于双线性特征向量 融合的工业货箱文本检测模型包括Ghost ‑ResNet骨干网络、 双线性特 征向量融合模块、 特 征金字塔增强和特 征融合模块、 DB语义分割检测头; 所述Ghost ‑ResNet骨干网络采用现有ResNet网络为基本框架, 将现有 ResNet网络的每 一个基础残差块替换为一个改进的Ghost模块, 然后在 全连接层后加一个卷积层, 最 终得到 所有通道相等的特 征图; 所述改进的Ghost模块采用在现有Ghost模块嵌入特征增强层Squeeze ‑and‑ Excitation, 实现对现有Ghost模块中第一个部分卷积之后的特征进行重标定, 即通过第一 个部分卷积获得特征图α, 然后对特征图α 进行Squeeze ‑and‑Excitation特征增强、 线性操 作、 第二个部分卷积得到特 征图β, 最后将特 征图α 和特 征图β 进行拼接得到最终结果; 所述双线性特 征向量融合模块包括依次级联的层化池、 特 征向量融合模块; 所述层化池用于接收所述Ghost ‑ResNet骨干网络输出的若干通道相等的特征图, 然后 将所有特 征图大小统一; 其中每 个特征图包括m个特 征向量; 所述特征向量融合模块采用针对当前工厂环境改进的改进LSTM网络, 抛弃了现有LSTM 中的长期记忆, 只保留短期记忆以提高检测效率, 用于将所述层化池输出 的所有特征图融 合; 所述改进LSTM网络具体操作如下: Ft=Conv([ht‑1,xt]) it=σ(Wi×[ht‑1,xt]+bi) Ct=tanh(WC×[ht‑1,xt]+bC) 其中Conv为卷积操作, Ct为tanh函数, σ 为sigmoid函数, ht为改进LSTM网络对某一特征 图中第t个特征向量xt的输出, Wi, bi分别为sigmoid函数的权重和偏置, WC, bC分别为sigmoid 函数的权 重和偏置, m为特 征向量的数量, [ht‑1,xt]表示对ht‑1和xt的拼接; 所述特征金字塔增强和特征融合模块包括依次级联的特征金字塔增强层FPEM和特征 融合层FFM; 所述特征金字塔增强层 FPEM接收Ghost ‑ResNet骨干网络输出的特征图进行级联, 产生 不同层次的特 征F1,F2…Fm, 并送入特 征融合层F FM; 所述特征融合层FFM接收双线性特征向量融合模块的输出, 并利用上采样操作将特征 向量扩张为通道数为128、 大小为原图1/4的特征图F; 然后将所述特征金字塔增强层FP EM产 生的特征F1,F2…Fm进行逐层次融合, 再将其与特征图F进 行拼接操作获得通道数为5 ×128, 大小为原图1/4的最终特 征图; 所述DB语义分割检测头用于根据所述特征金字塔增强和特征融合模块输出的特征图 进行处理, 获取包围框; 所述DB语义分割检测头包括卷积层、 自适应阈值DB算法层、 交运 算层、 膨胀层;权 利 要 求 书 1/3 页 2 CN 114648755 A 2所述卷积层根据所述特 征金字塔增强和特 征融合模块输出的特 征图, 得到概 率图; 所述自适应阈值DB算法层采用将现有DB算法中 固定阈值更 换为自适应阈值; 推理阶段, 所述自适应 阈值DB算法层通过设置九宫格掩模对概率图进行如下公式自适 应阈值计算, 获得阈值图; 其中x, y为概率图中的坐标, fx,y是坐标为(x,y)的像素值, c为自适应阈值算法求得的 阈值, px+i,y+j为概率图坐标为(x+i,y+j)的像素值, f'x,y是阈值图中坐标为(x,y)的像素; 所述交运 算层对概 率图和阈值图进行交运 算, 获取包围框; 所述膨胀层对包围框进行膨胀, 膨胀的倍数为D'=(A' ×r')/L', A'为包围框 的面积, L'为包围框的周长, r'为 膨胀系数。 2.如权利要求1所述的方法, 其特征在于所述基于双线性特征向量融合的工业货箱文 本检测模型训练阶段, 所述DB语义分割检测头由卷积层、 自适应阈值DB算法层构成; 在所述自适应阈值DB算法层后还需对概率图和阈值图通过二值化操作得出额外的二 值图; 其中, 值 为1的地方代 表着有文字的区域, 其 余地方值为0; 标准的二 值化操作: 其中, B为 二值图, P为 概率图, T为阈值图, (i,j)为 坐标; 训练阶段损失函数L表示 为概率图的损失、 二 值图的损失与阈值图的损失的加权和: L=Ls+α×Lb+β×Lt 其中, LS是概率图的损失值, Lb是二值图的损失值, Lt是阈值图的损失; α和β均为超参 数。 3.如权利要求2所述的方法, 其特征在于LS和Lb使用DiceLoss损失函数进行训练; 其计 算公式为: 其中pred为预测值, gt为ground ‑truth; Lt采用Mask  L1 Loss损失函数进行训练, 通过掩模来进行Lt损失函数的计算; 其计算公 式为: 其中, Lt损失为平均绝对差值, 而后增加了mask掩模, 对mask指定的区域进行Lt损失函 数的计算, n为膨胀后的图像区域在mask掩模下需要进行计算的数量总和; 绝对值 为预测包围框与ground ‑truth的距离 差值。 4.如权利要求1所述的方法, 其特征在于特征增强层Squeeze ‑and‑Excitation包括权 利 要 求 书 2/3 页 3 CN 114648755 A 3

.PDF文档 专利 一种轻量级移动状态下工业货箱的文本检测方法

安全报告 > 其他 > 文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种轻量级移动状态下工业货箱的文本检测方法 第 1 页 专利 一种轻量级移动状态下工业货箱的文本检测方法 第 2 页 专利 一种轻量级移动状态下工业货箱的文本检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 07:35:44上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。