专利 听写检测方法、装置和电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221093215 0.0 (22)申请日 2022.08.04 (71)申请人深圳市星桐科技有限公司地址 518027 广东省深圳市福田区华强北街道福强社区红荔路2001号四川大厦 A座1413 (72)发明人秦勇　 (74)专利代理机构北京北汇律师事务所 1 1711 专利代理师毕艳红 (51)Int.Cl. G06V 30/166(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/32(2022.01) G06V 10/44(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称听写检测方法、装置和电子设备 (57)摘要本公开提供一种听写检测方法、装置和电子设备，属于计算机领域。该听写检测方法，包括：获取听写任务对应的第一文本图像；使用预先训练的文本识别模型处理第一文本图像，得到错误文字及其位置；根据识别得到的每个错误文字的位置对第一文本图像进行剪裁，得到每个错误文字对应的第二文本图像；使用预先训练的文本检测模型处理每个第二文本图像，得到每个错误文字的层次分解信息，其中，层次分解信息包括文字的结构类型和多个层次的构字元素；根据每个错误文字的层次分解信息确定其检测结果。通过本公开，可检测听写的错误文字，确定错误文字的层次分解信息，并基于错误文字的层次分解信息确定其错误所在。权利要求书2页说明书11页附图6页 CN 115273090 A 2022.11.01 CN 115273090 A 1.一种听写检测方法，其特征在于，包括：获取听写任务对应的第一文本图像；使用预先训练的文本识别模型处理所述第一文本图像，得到错误文字及其位置；根据识别得到的每个错误文字的位置对所述第一文本图像进行剪裁，得到每个错误文字对应的第二文本图像；使用预先训练的文本检测模型处理每个第二文本图像，得到每个错误文字的层次分解信息，其中，所述层次分解信息包括文字的结构类型和多个层次的构字元素；根据每个错误文字的层次分解信息确定其检测结果。 2.如权利要求1所述的听写检测方法，其特征在于，根据每个错误文字的层次分解信息确定其检测结果，包括：对于每个错误文字，获取该错误文字在所述听写任务的文字序列中对应的文字的层次分解信息；根据该错误文字的层次分解信息和其在所述文字序列中对应的文字的层次分解信息，按照结构类型、构字元素的顺序逐步进行比较，得到该错误文字的检测结果。 3.如权利要求2所述的听写检测方法，其特征在于，所述多个层次的构字元素包括：字根和笔画；其中，所述根据该错误文字的层次分解信息和其在所述文字序列中对应的文字的层次分解信息，按照结构类型、构字元素的顺序逐步进行比较，得到该错误文字的检测结果，包括：比较该错误文字与其在所述文字序列中对应的文字的结构类型；在确定该错误文字与其在所述文字序列中对应的文字的结构类型不同的情况下，确定检测结果为结构类型不同；在确定错误文字与其在所述文字序列中对应的文字的结构类型相同的情况下，比较该错误文字与其在所述文字序列中对应的文字的字根；在确定该错误文字与其在所述文字序列中对应的文字的字根不同的情况下，确定检测结果为字根不同；在确定该错误文字与其在所述文字序列中对应的文字的字根相同的情况下，比较错误文字与其在所述文字序列中对应的文字的笔画；在确定错误文字与其在所述文字序列中对应的文字的笔画不同的情况下，确定检测结果为笔画不同。 4.如权利要求3所述的听写检测方法，其特征在于，在确定错误文字与其在所述文字序列中对应的文字的笔画不同的情况下，还包括：确定笔画的不同之处，将笔画的不同之处作为所述检测结果，其中，笔画的不同之处包括缺少的笔画、多余的笔画、或不同的笔画。 5.如权利要求1所述的听写检测方法，其特征在于，所述多个层次的构字元素包括：字根和笔画；所述文本检测模型，包括：特征提取网络、结构识别网络、字根识别网络和笔画识别网络；所述使用预先训练的文本检测模型处理每个第二文本图像，得到每个错误文字的层次分解信息，包括：对于每个第二文本图像，使用所述特征提取网络对该第二文本图像进行特征提取，得到第一图像特征；权　利　要　求　书 1/2 页 2 CN 115273090 A 2使用所述结构识别网络的卷积层对所述第一图像特征进行第一卷积操作，使用所述结构识别网络的全连接层基于所述第一卷积操作的结果进行分类，得到该第二文本图像对应的错误文字的结构类型；使用所述字根识别网络的卷积层对所述第一图像特征进行第二卷积操作，使用所述字根识别网络的全连接层基于所述第二卷积操作的结果进行分类，得到该第二文本图像对应的错误文字包括的字根；使用所述笔画识别网络的卷积层对所述第一图像特征进行第三卷积操作，使用所述笔画识别网络的全连接层处理所述第三卷积操作的结果，得到该第二文本图像对应的错误文字包括的每个笔画的数量，其中，所述笔画识别网络的输出个数与笔画个数相匹配，每个输出为其对应笔画的数量。 6.如权利要求5所述的听写检测方法，其特征在于，所述文本检测模型是按照以下方法训练得到的：获取多个包括单个正确文字的第三文本图像及其文字；对于每个第三文字图像，对该第三文本图像上的文字进行拆分，作为该第三文本图像的标注信息，其中，所述标注信息包括该文字的结构类型、字根和笔画及每个笔画的数量；使用所述多个第三文本图像及其标注信息训练所述文本检测模型。 7.一种听写检测装置，其特征在于，包括：获取模块，用于获取听写任务对应的第一文本图像；第一处理模块，用于使用预先训练的文本识别模型处理所述第一文本图像，得到错误文字及其位置；剪裁模块，用于根据识别得到的每个错误文字的位置对所述第一文本图像进行剪裁，得到每个错误文字对应的第二文本图像；第二处理模块，用于使用预先训练的文本检测模型处理每个第二文本图像，得到每个错误文字的层次分解信息，其中，所述层次分解信息包括文字的结构类型和多个层次的构字元素；确定模块，用于根据每个错误文字的层次分解信息确定其检测结果。 8.如权利要求7 所述的听写检测装置，其特征在于，所述确定模块，用于：对于每个错误文字，获取该错误文字在所述听写任务的文字序列中对应的文字的层次分解信息；根据该错误文字的层次分解信息和其在所述文字序列中对应的文字的层次分解信息，按照结构类型、构字元素的顺序逐步进行比较，得到该错误文字的检测结果。 9.一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1‑6中任一项所述的方法。 10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑6中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115273090 A 3

专利 听写检测方法、装置和电子设备

专利听写检测方法、装置和电子设备