(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221093215 0.0
(22)申请日 2022.08.04
(71)申请人 深圳市星桐科技有限公司
地址 518027 广东省深圳市福田区华强北
街道福强社区红荔路2001号四川大厦
A座1413
(72)发明人 秦勇
(74)专利代理 机构 北京北汇律师事务所 1 1711
专利代理师 毕艳红
(51)Int.Cl.
G06V 30/166(2022.01)
G06V 30/18(2022.01)
G06V 30/19(2022.01)
G06V 10/32(2022.01)
G06V 10/44(2022.01)G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
听写检测方法、 装置和电子设备
(57)摘要
本公开提供一种听写检测方法、 装置和电子
设备, 属于计算机领域。 该听写检测方法, 包括:
获取听写任务对应的第一文本图像; 使用预先训
练的文本识别模 型处理第一文本图像, 得到错误
文字及其位置; 根据识别得到的每个错误文字的
位置对第一文本图像进行剪裁, 得到每个错误文
字对应的第二文本图像; 使用预先训练的文本检
测模型处理每个第二文本图像, 得到每个错误文
字的层次分解信息, 其中, 层次分解信息包括文
字的结构类型和多个层次的构字元素; 根据每个
错误文字的层次分解信息确定其检测结果。 通过
本公开, 可检测听写的错误文字, 确定错误文字
的层次分解信息, 并基于错误文字的层次分解信
息确定其 错误所在。
权利要求书2页 说明书11页 附图6页
CN 115273090 A
2022.11.01
CN 115273090 A
1.一种听写检测方法, 其特 征在于, 包括:
获取听写任务对应的第一文本图像;
使用预先训练的文本识别模型处 理所述第一文本图像, 得到错 误文字及其 位置;
根据识别得到的每个错误文字的位置对所述第 一文本图像进行剪裁, 得到每个错误文
字对应的第二文本图像;
使用预先训练 的文本检测模型处理每个第 二文本图像, 得到每个错误文字的层次分解
信息, 其中, 所述层次分解信息包括文字的结构类型和多个层次的构字元 素;
根据每个错误文字的层次分解信息确定其检测结果。
2.如权利要求1所述的听写检测方法, 其特征在于, 根据每个错误文字的层次分解信 息
确定其检测结果, 包括:
对于每个错误文字, 获取该错误文字在所述 听写任务的文字序列中对应的文字的层次
分解信息;
根据该错误文字的层次分解信 息和其在所述文字序列中对应的文字的层次分解信 息,
按照结构类型、 构字元 素的顺序逐步进行比较, 得到该错 误文字的检测结果。
3.如权利要求2所述的听写检测方法, 其特征在于, 所述多个层次的构字元素包括: 字
根和笔画;
其中, 所述根据 该错误文字的层次分解信 息和其在所述文字序列中对应的文字的层次
分解信息, 按照结构类型、 构字元素 的顺序逐步进行比较, 得到该错误文字的检测结果, 包
括:
比较该错 误文字与其在所述文字序列中对应的文字的结构类型;
在确定该错误文字与其在所述文字序列中对应的文字的结构类型不同的情况下, 确定
检测结果 为结构类型不同;
在确定错误文字与其在所述文字序列中对应的文字的结构类型相同的情况下, 比较该
错误文字与其在所述文字序列中对应的文字的字根; 在确定该错误文字与其在所述文字序
列中对应的文字的字根 不同的情况 下, 确定检测结果 为字根不同;
在确定该错误文字与其在所述文字序列中对应的文字的字根相同的情况下, 比较错误
文字与其在所述文字序列中对应的文字的笔画; 在确定错误文字与其在所述文字序列中对
应的文字的笔画不同的情况 下, 确定检测结果 为笔画不同。
4.如权利要求3所述的听写检测方法, 其特征在于, 在确定错误文字与其在所述文字序
列中对应的文字的笔画不同的情况 下, 还包括:
确定笔画的不同之处, 将笔画的不同之处作为所述检测结果, 其中, 笔画的不同之处包
括缺少的笔画、 多余的笔画、 或不同的笔画。
5.如权利要求1所述的听写检测方法, 其特征在于, 所述多个层次的构字元素包括: 字
根和笔画; 所述文本检测模 型, 包括: 特征提取网络、 结构识别网络、 字根识别网络和笔画识
别网络;
所述使用预先训练的文本检测模型处理每个第 二文本图像, 得到每个错误文字的层次
分解信息, 包括:
对于每个第二文本 图像, 使用所述特征提取网络对该第二文本 图像进行特征提取, 得
到第一图像特 征;权 利 要 求 书 1/2 页
2
CN 115273090 A
2使用所述结构识别网络的卷积层对所述第 一图像特征进行第 一卷积操作, 使用所述结
构识别网络的全连接层基于所述第一卷积操作的结果进行分类, 得到该第二文本图像对应
的错误文字的结构类型;
使用所述字根识别网络的卷积层对所述第 一图像特征进行第 二卷积操作, 使用所述字
根识别网络的全连接层基于所述第二卷积操作的结果进行分类, 得到该第二文本图像对应
的错误文字包括的字根;
使用所述笔画识别网络的卷积层对所述第 一图像特征进行第 三卷积操作, 使用所述笔
画识别网络的全连接层处理所述第三卷积操作的结果, 得到该第二文本图像对应的错误文
字包括的每个笔画的数量, 其中, 所述笔画识别网络的输出个数与笔画个数相匹配, 每个输
出为其对应笔画的数量。
6.如权利要求5所述的听写检测方法, 其特征在于, 所述文本检测模型是按照以下方法
训练得到的:
获取多个包括单个正确文字的第三文本图像及其文字;
对于每个第三文字 图像, 对该第三文本 图像上的文字进行拆分, 作为该第三文本 图像
的标注信息, 其中, 所述标注信息包括该文字的结构类型、 字根和笔画及每 个笔画的数量;
使用所述多个第三文本图像及其标注信息训练所述文本检测模型。
7.一种听写检测装置, 其特 征在于, 包括:
获取模块, 用于获取听写任务对应的第一文本图像;
第一处理模块, 用于使用预先训练的文本识别模型处理所述第一文本 图像, 得到错误
文字及其 位置;
剪裁模块, 用于根据识别得到的每个错误文字的位置对所述第一文本 图像进行剪裁,
得到每个错误文字对应的第二文本图像;
第二处理模块, 用于使用预先训练的文本检测模型处理每个第二文本 图像, 得到每个
错误文字的层次分解信息, 其中, 所述层次分解信息包括文字的结构类型和多个层次的构
字元素;
确定模块, 用于根据每 个错误文字的层次分解信息确定其检测结果。
8.如权利要求7 所述的听写检测装置, 其特 征在于, 所述确定模块, 用于:
对于每个错误文字, 获取该错误文字在所述 听写任务的文字序列中对应的文字的层次
分解信息;
根据该错误文字的层次分解信 息和其在所述文字序列中对应的文字的层次分解信 息,
按照结构类型、 构字元 素的顺序逐步进行比较, 得到该错 误文字的检测结果。
9.一种电子设备, 包括:
处理器; 以及
存储程序的存 储器,
其中, 所述程序包括指令, 所述指令在由所述处理器执行时使所述处理器执行根据权
利要求1‑6中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于
使所述计算机执 行根据权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115273090 A
3
专利 听写检测方法、装置和电子设备
安全报告 >
其他 >
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:40:29上传分享