专利 一种街景文字识别方法、系统、设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211024989.0 (22)申请日 2022.08.25 (71)申请人广东工业大学地址 510060 广东省广州市越秀区东风东路729号大院 (72)发明人叶武剑　袁凯奕　劳俊明　刘怡俊　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师周伟 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/148(2022.01) G06V 30/19(2022.01) G06V 30/162(2022.01) G06V 30/18(2022.01)G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/28(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称一种街景文字识别方法、系统、设备和介质 (57)摘要本发明公开了一种街景文字识别方法、系统、设备和介质，当接收到街景图像时，通过预设的轻量级实例分割模型对街景图像进行检测识别，并分割街景图像，对分割出来的初始文本区域进行投影转换，得到中间文本区域。通过预设的场景文本检测模型对中间文本区域进行文本区域检测，确定场景文本特征所在的目标文本区域，接着通过预设的文本识别模型识别目标文本区域内的目标字符，确定街景图像对应的图像文字。通过轻量级实例分割模型将图片中的非文本区域剔除，通过对投影转换，将图片中的扭曲、畸变等干扰因素去除，再结合场景文本检测模型和文本识别模型进行识别，不仅识别效率快，且识别准确率高。权利要求书2页说明书13页附图3页 CN 115376118 A 2022.11.22 CN 115376118 A 1.一种街景文字识别方法，其特征在于，包括：当接收到街景图像时，通过预设的轻量级实例分割模型分割所述街景图像，得到初始文本区域；对所述初始文本区域进行投影转换，得到中间文本区域；通过预设的场景文本检测模型检测所述中间文本区域，确定场景文本特征所在的目标文本区域；通过预设的文本识别模型识别所述目标文本区域内的目标字符，确定所述街景图像对应的图像文字。 2.根据权利要求1所述的街景文字识别方法，其特征在于，所述预设的轻量级实例分割模型包括多个轻量级层、特征金字塔网络层和预测类别处理层；所述当接收到街景图像时，通过预设的轻量级实例分割模型分割所述街景图像，得到初始文本区域的步骤，包括：当接收到街景图像时，通过各所述轻量级层分别提取所述街景图像在不同尺度下的语义特征；通过所述特征金字塔网络层对所述语义特征进行多尺度特征融合，得到语义特征图；通过所述预测类别处理层对所述语义特征图进行预测，得到多个预测类别对应的预测框和所述预测框内的类别像素概率图；按照所述预测类别分别采用所述预测框分割对应的所述类别像素概率图，并结合所述街景图像生成初始文本区域。 3.根据权利要求2所述的街景文字识别方法，其特征在于，所述预测类别处理层包括原型特征分割层和实例类别预测层；所述通过所述预测类别处理层对所述语义特征图进行预测，得到多个预测类别对应的预测框和所述预测框内的类别像素概率图的步骤，包括：通过所述原型特征分割层分割所述语义特征图，得到多个原型特征图；通过所述实例类别预测层对所述语义特征图进行预测，得到所述语义特征图内多个预测类别分别对应的多个候选框和多个初始特征系数；按照非极大值抑制算法分别去除所述预测类别对应的多个所述候选框内重复的候选框，得到所述预测类别对应的预测框和多个目标特征系数；将全部所述原型特征图分别与对应的所述目标特征系数相乘，得到所述预测框内的类别像素概率图。 4.根据权利要求2所述的街景文字识别方法，其特征在于，所述按照所述预测类别分别采用所述预测框分割对应的所述类别像素概率图，并结合所述街景图像生成初始文本区域的步骤，包括：分别按照所述预测框分割对应的所述类别像素概率图，得到所述预测类别对应的多个初始类别像素分割概率图；按照预设的分割阈值选取所述初始类别像素分割概率图，得到所述预测类别对应的目标类别像素分割概率图；将全部所述目标类别像素分割概率图与所述街景图像相乘，生成所述街景图像对应的初始文本区域。 5.根据权利要求1所述的街景文字识别方法，其特征在于，所述对所述初始文本区域进行投影转换，得到中间文本区域的步骤，包括：权　利　要　求　书 1/2 页 2 CN 115376118 A 2对所述初始文本区域进行二值化操作，得到二值化区域；计算所述二值化区域内白色区域对应的最小外接矩形，得到中间文本区域的四个顶点坐标；计算所述顶点坐标对应的投影变换矩阵，结合预设的指定坐标得到各顶点坐标对应的目标顶点坐标；依次连接所述目标顶点坐标，得到中间文本区域。 6.根据权利要求1所述的街景文字识别方法，其特征在于，所述预设的场景文本检测模型包括特征提取层、特征金字塔层和训练好的推测层；所述通过预设的场景文本检测模型检测所述中间文本区域，确定场景文本特征所在的目标文本区域的步骤，包括：通过所述特征提取层提取所述中间文本区域内的多个场景文本特征；通过所述特征金字塔层对所述场景文本特征进行多尺度特征融合，得到场景特征图；通过所述推测层推测所述场景特征图对应的预测概率图和阈值图；按照所述预测概率图和所述阈值图对应的像素点，结合预设的近似二值图公式，计算得到所述特征图对应的近似二值图；基于所述近似二值图，确定目标文本区域。 7.根据权利要求1所述的街景文字识别方法，其特征在于，所述预设的文本识别模型包括卷积网络层、循环网络层和转录层；所述通过预设的文本识别模型识别所述目标文本区域内的目标字符，确定所述街景图像对应的图像文字的步骤，包括：通过所述卷积网络层提取所述目标文本区域内的多个文本特征图，并将所述文本特征图分别转换为文本特征序列；通过所述循环网络层分别计算所述文本特征序列对应的特征值；对全部所述特征值进行指数函数转换和缩放，得到后验概率矩阵；通过转录层采用归一化指数函数计算所述后验概率矩阵内每列数值对应的文字概率序列；分别选取所述文字概率序列内的最大值，将所述最大值对应的字符作为目标字符；将全部所述目标字符作为所述街景图像对应的图像文字。 8.一种街景文字识别系统，其特征在于，包括：初始文本区域分割模块，用于当接收到街景图像时，通过预设的轻量级实例分割模型分割所述街景图像，得到初始文本区域；中间文本区域得到模块，用于对所述初始文本区域进行投影转换，得到中间文本区域；目标文本得到模块，用于通过预设的场景文本检测模型检测所述中间文本区域，确定场景文本特征所在的目标文本区域；图像文本得到模块，用于通过预设的文本识别模型识别所述目标文本区域内的目标字符，确定所述街景图像对应的图像文字。 9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求 1‑7任一项所述的街景文字识别方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1 ‑7任一项所述的街景文字识别方法。权　利　要　求　书 2/2 页 3 CN 115376118 A 3

专利 一种街景文字识别方法、系统、设备和介质

专利一种街景文字识别方法、系统、设备和介质