(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211024989.0
(22)申请日 2022.08.25
(71)申请人 广东工业大 学
地址 510060 广东省广州市越秀区东 风东
路729号大院
(72)发明人 叶武剑 袁凯奕 劳俊明 刘怡俊
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 周伟
(51)Int.Cl.
G06V 20/62(2022.01)
G06V 30/148(2022.01)
G06V 30/19(2022.01)
G06V 30/162(2022.01)
G06V 30/18(2022.01)G06V 10/26(2022.01)
G06V 10/80(2022.01)
G06V 10/28(2022.01)
G06V 10/44(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种街景文字识别方法、 系统、 设备和介质
(57)摘要
本发明公开了一种街景文字识别方法、 系
统、 设备和介质, 当接收到街景图像时, 通过预设
的轻量级实例分割模型对街景图像进行检测识
别, 并分割街景图像, 对分割出来的初始文本区
域进行投影转换, 得到中间文本区域。 通过预设
的场景文本检测模型对中间文本区域进行文本
区域检测, 确定场景文本特征所在的目标文本区
域, 接着通过预设的文本识别模 型识别目标文本
区域内的目标字符, 确定街景图像对应的图像文
字。 通过轻量级实例分割模型将图片中的非文本
区域剔除, 通过对投影转换, 将图片中的扭曲、 畸
变等干扰因素去除, 再结合场景文本检测模型和
文本识别模型进行识别, 不仅识别效率快, 且识
别准确率高。
权利要求书2页 说明书13页 附图3页
CN 115376118 A
2022.11.22
CN 115376118 A
1.一种街景文字识别方法, 其特 征在于, 包括:
当接收到街景图像时, 通过预设的轻量级实例分割模型分割所述街景图像, 得到初始
文本区域;
对所述初始文本区域进行投影转换, 得到中间文本区域;
通过预设的场景文本检测模型检测所述中间文本区域, 确定场景文本特征所在的目标
文本区域;
通过预设的文本识别模型识别所述目标文本区域内的目标字符, 确定所述街景图像对
应的图像文字 。
2.根据权利要求1所述的街景文字识别方法, 其特征在于, 所述预设的轻量级实例分割
模型包括多个轻量级层、 特征金字塔网络层和预测类别处理层; 所述当接收到街景图像时,
通过预设的轻量级实例分割模型分割所述 街景图像, 得到初始文本区域的步骤, 包括:
当接收到街景图像时, 通过各所述轻量级层 分别提取所述街景图像在不同尺度 下的语
义特征;
通过所述特征金字塔网络层对所述语义特 征进行多尺度特 征融合, 得到语义特 征图;
通过所述预测类别处理层对所述语义特征图进行预测, 得到多个预测类别对应的预测
框和所述预测框内的类别像素概 率图;
按照所述预测类别分别采用所述预测框分割 对应的所述类别像素概率图, 并结合所述
街景图像生成初始文本区域。
3.根据权利要求2所述的街景文字识别方法, 其特征在于, 所述预测类别处理层包括原
型特征分割层和实例类别预测层; 所述通过所述预测类别处理层对所述语义特征图进 行预
测, 得到多个预测类别对应的预测框和所述预测框内的类别像素概 率图的步骤, 包括:
通过所述原型 特征分割层分割所述语义特 征图, 得到多个原型 特征图;
通过所述实例类别预测层对所述语义特征图进行预测, 得到所述语义特征图内多个预
测类别分别对应的多个候选 框和多个初始特 征系数;
按照非极大值抑制算法分别去除所述预测类别对应的多个所述候选框内重复的候选
框, 得到所述预测类别对应的预测框和多个目标 特征系数;
将全部所述原型特征图分别与对应的所述目标特征系数相乘, 得到所述预测框内的类
别像素概 率图。
4.根据权利要求2所述的街景文字识别方法, 其特征在于, 所述按照所述预测类别分别
采用所述预测框分割对应的所述类别像素概率图, 并结合所述街景图像生成初始文本区域
的步骤, 包括:
分别按照所述预测框分割对应的所述类别像素概率图, 得到所述预测类别对应的多个
初始类别像素分割概 率图;
按照预设的分割阈值选取所述初始类别像素分割概率图, 得到所述预测类别对应的目
标类别像素分割概 率图;
将全部所述目标类别像素分割概率图与 所述街景图像相乘, 生成所述街景图像对应的
初始文本区域。
5.根据权利要求1所述的街景文字识别方法, 其特征在于, 所述对所述初始文本区域进
行投影转换, 得到中间文本区域的步骤, 包括:权 利 要 求 书 1/2 页
2
CN 115376118 A
2对所述初始文本区域进行二 值化操作, 得到二 值化区域;
计算所述二值化 区域内白色区域对应的最小外接矩形, 得到 中间文本区域的四个顶点
坐标;
计算所述顶点坐标对应的投影变换矩阵, 结合预设的指定坐标得到各顶点坐标对应的
目标顶点 坐标;
依次连接所述目标顶点 坐标, 得到中间文本区域。
6.根据权利要求1所述的街景文字识别方法, 其特征在于, 所述预设的场景文本检测模
型包括特征提取层、 特征金字塔层和训练好的推测层; 所述通过预设的场景文本检测模型
检测所述中间文本区域, 确定场景文本特 征所在的目标文本区域的步骤, 包括:
通过所述特征提取层提取 所述中间文本区域内的多个场景文本特 征;
通过所述特征金字塔层对所述场景文本特 征进行多尺度特 征融合, 得到场景 特征图;
通过所述推测层推测所述场景 特征图对应的预测概 率图和阈值图;
按照所述预测概率图和所述阈值图对应的像素点, 结合预设的近似二值图公式, 计算
得到所述特 征图对应的近似二 值图;
基于所述近似二 值图, 确定目标文本区域。
7.根据权利要求1所述的街景文字识别方法, 其特征在于, 所述预设的文本识别模型包
括卷积网络层、 循环网络层和转录层; 所述通过预设的文本识别模型识别所述目标文本区
域内的目标字符, 确定所述 街景图像对应的图像文字的步骤, 包括:
通过所述卷积网络层提取所述目标文本区域内的多个文本特征图, 并将所述文本特征
图分别转换为文本特 征序列;
通过所述循环网络层分别计算所述文本特 征序列对应的特 征值;
对全部所述特 征值进行指数函数转换和缩放, 得到后验概 率矩阵;
通过转录层采用归一化指数函数计算所述后验概率矩阵内每列数值对应的文字概率
序列;
分别选取 所述文字概 率序列内的最大值, 将所述 最大值对应的字符作为目标字符;
将全部所述目标字符作为所述 街景图像对应的图像文字 。
8.一种街景文字识别系统, 其特 征在于, 包括:
初始文本区域分割模块, 用于当接收到街景图像时, 通过预设的轻量级实例分割模型
分割所述 街景图像, 得到初始文本区域;
中间文本区域得到模块, 用于对所述初始文本区域进行投影转换, 得到中间文本区域;
目标文本得到模块, 用于通过预设的场景文本检测模型检测所述中间文本区域, 确定
场景文本特 征所在的目标文本区域;
图像文本得到模块, 用于通过预设的文本识别模型识别所述目标文本区域内的目标字
符, 确定所述 街景图像对应的图像文字 。
9.一种电子设备, 其特征在于, 包括存储器及处理器, 所述存储器中储存有计算机程
序, 所述计算机程序被所述处理器执行时, 使得所述处理器执行如权利要求 1‑7任一项所述
的街景文字识别方法的步骤。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被执行时实现如权利要求1 ‑7任一项所述的街景文字识别方法。权 利 要 求 书 2/2 页
3
CN 115376118 A
3
专利 一种街景文字识别方法、系统、设备和介质
安全报告 >
其他 >
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:39:47上传分享