专利 图像处理方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211032520.1 (22)申请日 2022.08.26 (71)申请人深圳市星桐科技有限公司地址 518027 广东省深圳市福田区华强北街道福强社区红荔路2001号四川大厦 A座1413 (72)发明人李兵　 (74)专利代理机构北京开阳星知识产权代理有限公司 1 1710 专利代理师王雪 (51)Int.Cl. G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称图像处理方法、装置、设备及介质 (57)摘要本公开涉及一种图像处理方法、装置、设备及介质，该方法包括：获取包含目标公式的目标图像；将目标图像输入至预先训练好的公式识别模型进行公式识别，得到目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，公式识别模型是基于具有标注信息的公式样本图像训练得到的，标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框；根据每个字符对应的第一字符预测结果和第一关系预测结果，得到目标图像中目标公式的识别结果。本公开能够提高公式识别准确性。权利要求书3页说明书12页附图2页 CN 115376140 A 2022.11.22 CN 115376140 A 1.一种图像处理方法，其特征在于，包括：获取包含目标公式的目标图像；将所述目标图像输入至预先训练好的公式识别模型进行公式识别，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，所述公式识别模型是基于具有标注信息的公式样本图像训练得到的，所述标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框；根据所述每个字符对应的第一字符预测结果和第一关系预测结果，得到所述目标图像中所述目标公式的识别结果。 2.根据权利要求1所述的方法，其特征在于，所述公式识别模型包括：特征映射模块、自注意力模块、语义提取模块和字符预测模块；所述将所述目标图像输入至预先训练好的公式识别模型进行公式识别，得到所述目标公式中每个字符对应的字符预测结果和关系预测结果，包括：将所述目标图像输入至所述特征映射模块，通过所述特征映射模块对所述目标图像进行特征映射，得到所述目标图像对应的第一映射特征；通过所述自注意力模块对所述第一映射特征进行特征提取，得到第二映射特征；通过所述语义提取模块对所述第二映射特征进行语义特征提取，得到第一全局语义向量；通过所述字符预测模块基于所述第二映射特征和所述第一全局语义特征，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，所述第一关系预测结果用于指示字符与相邻前一位置处字符的关系。 3.根据权利要求2所述的方法，其特征在于，所述字符预测模块包括：词嵌入层、注意力层和解码器；所述通过所述字符预测模块基于所述第二映射特征和所述第一全局语义特征，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果，包括：通过所述词嵌入层将所述第二映射特征进行向量化表示，得到所述第二映射特征的语义特征；通过所述注意力层基于所述第二映射特征的语义特征，得到注意力向量；通过所述解码器基于所述注意力向量和所述第一全局语义特征，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果。 4.根据权利要求1所述的方法，其特征在于，所述公式识别模型的训练过程包括：获取第一训练集和第二训练集；其中，所述第一训练集中的公式样本图像上标注有公式样本对应的字符序列、语义特征向量和字符检测框，所述第二训练集中的公式样本图像上标注有公式样本对应的字符序列、语义特征向量；获取待训练的第一模型；所述第一模型包括：特征映射模块、自注意力模块、语义提取模块、字符预测模块、卷积模块和数量预测模块；根据所述第一训练集对所述第一模型进行训练；在所述第一模型训练结束后，将所述卷积模块的参数保持不变，得到第二模型；根据所述第二训练集对所述第二模型进行训练；当所述第二模型训练收敛时，将所述特征映射模块、所述自注意力模块、所述语义提取模块、所述字符预测模块确定为所述公式识别模型。权　利　要　求　书 1/3 页 2 CN 115376140 A 25.根据权利要求4所述的方法，其特征在于，所述根据所述第一训练集对所述第一模型进行训练，包括：将第一公式样本图像输入到所述第一模型；其中，所述第一公式样本图像为所述第一训练集中的公式样本图像；通过所述特征映射模块输出所述第一公式样本图像对应的第三映射特征；通过所述自注意力模块基于所述第三映射特征输出第四映射特征；通过所述语义提取模块基于所述第四映射特征输出第二全局语义向量；通过所述卷积模块基于所述第四映射特征输出所述第一公式样本图像的公式样本中每个字符的字符中心点；通过所述数量预测模块基于所述第四映射特征输出所述第一公式样本图像的公式样本中的字符数量；通过所述字符预测模块基于所述第四映射特征和所述第二全局语义向量，输出所述第一公式样本图像的公式样本中每个字符对应的第二字符预测结果和第二关系预测结果；根据所述第一公式样本图像上标注的公式样本对应的字符序列、语义特征向量和字符检测框，所述第二字符预测结果、第二关系预测结果、所述第二全局语义向量、所述字符中心点和所述字符数量，以及预设损失函数，对所述第一模型进行训练。 6.根据权利要求5所述的方法，其特征在于，所述根据所述第一公式样本图像上标注的公式样本对应的字符序列、语义特征向量和字符检测框，所述第二字符预测结果、第二关系预测结果、所述第二全局语义向量、所述字符中心点和所述字符数量，以及预设损失函数，对所述第一模型进行训练，包括：根据所述第一公式样本图像上标注的语义特征向量、所述第二全局语义向量和L1损失函数，计算所述语义提取模块的第一损失函数值；根据所述第一公式样本图像上标注的公式样本对应的字符检测框、所述字符中心点和分类损失函数 Focal Loss损失函数，计算所述卷积模块的第二损失函数值；根据所述第一公式样本图像上标注的公式样本对应的字符检测框、所述字符数量和多分类交叉熵损失函数，计算所述数量预测模块的第三损失函数值；根据所述第二字符预测结果、第二关系预测结果，得到所述第一公式样本图像中公式样本的预测字符序列；根据所述预测字符序列、所述第一公式样本图像上标注的公式样本对应的字符序列以及多分类交叉熵损失函数，计算所述字符预测模块的第四损失函数值；根据所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值，对所述第一模型进行训练。 7.根据权利要求 4所述的方法，其特征在于，所述方法还包括：获取标注有字符序列和字符检测框的第二公式样本图像；根据标注的字符序列和字符检测框对所述第二公式样本图像中的各字符进行三元组编码，得到三元组结构，所述三元组结构包括：当前字符、所述当前字符对应的前一位置处的相邻字符、所述当前字符和所述相邻字符之间的关系；通过词嵌入方法得到所述三元组结构对应的词嵌入向量；将各字符对应的所述词嵌入向量输入至预先训练好的语义信息提取模型，得到所述第权　利　要　求　书 2/3 页 3 CN 115376140 A 3

专利 图像处理方法、装置、设备及介质

专利图像处理方法、装置、设备及介质