说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111589671.2 (22)申请日 2021.12.23 (71)申请人 航天信息股份有限公司 地址 100195 北京市海淀区杏石口路甲18 号 (72)发明人 龚晨 毛翔宇 金洪亮 蔡书成 邓钢 (74)专利代理 机构 北京工信联合知识产权代理 有限公司 1 1266 专利代理师 贾银秋 (51)Int.Cl. G06V 30/412(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06V 10/22(2022.01)G06V 10/25(2022.01) G06V 10/774(2022.01) (54)发明名称 一种用于对公文中表格内容进行识别的方 法及系统 (57)摘要 本发明公开了一种用于对公文中表格内容 进行识别的方法及系统, 方法包括: 获取公文文 档图像, 进行预处理; 基于深度学习算法对经过 预处理的公文文档图像进行文本框位置检测和 文本框内容识别, 获取每个文本框的文本框位置 信息, 以及对应的文本框内容信息; 对公文文档 图像中的表格整体单元格进行检测, 检测出所有 横线和所有竖线; 基于检测出的所有横线和所有 竖线获取小单元格位置信息; 基于文本框位置信 息和小单元格位置信息, 判断文本框是否与小单 元格相对应; 当两者相对应时, 基于文本框位置 信息对文本框进行排序, 获取排序后的文本框内 容信息; 基于排序后的文本框内容信息确定表格 整体单元格的内容 排布, 输出 结构化文本信息 。 权利要求书2页 说明书7页 附图3页 CN 114445839 A 2022.05.06 CN 114445839 A 1.一种用于对公文中表格内容进行识别的方法, 所述方法包括: 获取公文 文档图像, 并对所述公文 文档图像进行 预处理; 基于深度学习算法对经过预处理的所述公文文档图像进行文本框位置检测和文本框 内容识别, 获取所述公文文档图像中的多个文本框中每个文本框的文本框位置信息, 以及 和每个文本框位置信息对应的文本 框内容信息; 对所述公文文档图像中的表格整体单元格进行检测, 检测出所述表格整体单元格的所 有横线和所有竖线; 基于检测出的所有横线和所有竖线获取所述表格整体单元格中所有小单元格的小单 元格位置信息; 基于所述文本框位置信 息和所述小单元格位置信 息, 判断所述文本框是否与 所述小单 元格相对应; 当判断出所述文本框与所述小单元格相对应时, 基于所述文本框位置信 息对所述文本 框进行排序, 获取排序后的文本 框内容信息; 基于排序后的文本框 内容信息确定所述表格整体单元格的内容排布, 输出经过排布后 的公文文档图像的结构化文本信息 。 2.根据权利要求1所述的方法, 还 包括: 获取公文 文档, 将所述公文 文档转化为图像格式, 所述图像 格式包括: jpg、 png。 3.根据权利要求1所述的方法, 所述对所述公文文档图像中的表格整体单元格进行检 测, 检测出 所述表格整体单 元格的所有横线和所有竖线包括: 将所述公文 文档图像进行归一 化处理, 使得所述公文 文档图像调整为预定尺寸; 将调整后的所述公文 文档图像转 化为灰度模式, 并进行腐蚀处 理; 通过中值滤波过 滤掉经过腐蚀处 理的所述公文 文档图像的噪声干扰; 分别确定所述公文文档图像的X方向和Y方向的梯度, 并进行阈值化处理, 通过霍夫直 线检测初步筛 选出所有横线和所有竖线; 分别对筛 选出的所有横线和所有竖线 进行排序和合并处 理。 4.根据权利要求1所述的方法, 所述判断所述文本框是否与所述小单元格相对应, 包 括: 当所述文本框位置信 息和所述小单元格位置信 息满足预设的条件时, 判断出所述判断 所述文本 框与所述小单 元格相对应。 5.根据权利要求1所述的方法, 当判断出所述文本框与 所述小单元格不对应时, 分别计 算所述文本 框与所述小单 元格的面积; 计算所述文本框与所述小单元格的交集面积与所述文本框与所述小单元格的并集面 积的比值; 当计算出的比值满足预设范围时, 确定所述文本 框与所述小单 元格相对应。 6.根据权利要求1所述的方法, 当多个文本框对应同一小单元格时, 对多个文本框 内容 进行合并。 7.一种用于对公文中表格内容进行识别的系统, 所述系统包括: 初始单元, 用于获取公文 文档图像, 并对所述公文 文档图像进行 预处理; 识别单元, 用于基于深度学习算法对经过预处理 的所述公文文档图像进行文本框位置权 利 要 求 书 1/2 页 2 CN 114445839 A 2检测和文本框内容识别, 获取所述公文文档图像中的多个文本框中每个文本框的文本框位 置信息, 以及和每 个文本框位置信息对应的文本 框内容信息; 检测单元, 用于对所述公文文档图像中的表格整体单元格进行检测, 检测出所述表格 整体单元格的所有横线和所有 竖线; 基于检测出的所有横线和所有竖线获取所述表格整体 单元格中所有 小单元格的小单 元格位置信息; 归属单元, 用于基于所述文本框位置信息和所述小单元格位置信息, 判断所述文本框 是否与所述小单元格相对应; 当判断出所述文本框与所述小单元格相对应时, 基于所述文 本框位置信息对所述文本 框进行排序, 获取排序后的文本 框内容信息; 结果单元, 用于基于排序后的文本框内容信息确定所述表格整体单元格的内容排布, 输出经过排布后的公文 文档图像的结构化文本信息 。 8.根据权利要求7 所述的系统, 所述初始单 元还用于: 获取公文 文档, 将所述公文 文档转化为图像格式, 所述图像 格式包括: jpg、 png。 9.根据权利要求7所述的系统, 所述检测单元, 用于对所述公文文档图像中的表格整体 单元格进行检测, 检测出 所述表格整体单 元格的所有横线和所有竖线, 包括: 将所述公文 文档图像进行归一 化处理, 使得所述公文 文档图像调整为预定尺寸; 将调整后的所述公文 文档图像转 化为灰度模式, 并进行腐蚀处 理; 通过中值滤波过 滤掉经过腐蚀处 理的所述公文 文档图像的噪声干扰; 分别确定所述公文文档图像的X方向和Y方向的梯度, 并进行阈值化处理, 通过霍夫直 线检测初步筛 选出所有横线和所有竖线; 分别对筛 选出的所有横线和所有竖线 进行排序和合并处 理。 10.根据权利要求7所述的系统, 所述归属单元, 用于判断所述文本框是否与所述小单 元格相对应, 包括: 当所述文本框位置信 息和所述小单元格位置信 息满足预设的条件时, 判断出所述判断 所述文本 框与所述小单 元格相对应。 11.根据权利要求7所述的系统, 所述归属单元, 用于当判断出所述文本框与所述小单 元格不对应时, 分别计算所述文本 框与所述小单 元格的面积; 计算所述文本框与所述小单元格的交集面积与所述文本框与所述小单元格的并集面 积的比值; 当计算出的比值满足预设范围时, 确定所述文本 框与所述小单 元格相对应。 12.根据权利要求7所述的系统, 所述归属单元, 还用于当多个文本框对应同一小单元 格时, 对多个文本 框内容进行合并。权 利 要 求 书 2/2 页 3 CN 114445839 A 3
专利 一种用于对公文中表格内容进行识别的方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 23:15:36
上传分享
举报
下载
原文档
(564.0 KB)
分享
友情链接
T-SZSWA 007—2022 困境儿童关爱社会工作服务指南.pdf
嘶吼 网络安全服务市场洞察报告 2023.pdf
GB-T 28827.6-2019 信息技术服务 运行维护 第6部分:应用系统服务要求.pdf
NIST.SP.800-53r5 Security and Privacy Controls for Information Systems and Organizations.pdf
ISO IEC 38500 2024 Information technology — Governance of IT for the organizatio.pdf
GB-T 26358-2022 旅游度假区等级划分.pdf
DB3418-T 022-2022 检验检测机构远程检测服务规范 宣城市.pdf
GB T 42446-2023 信息安全技术 网络安全从业人员能力基本要求.pdf
T-CPMA 025—2021 预防接种车基本功能标准.pdf
GM-T 0023-2014 IPSec VPN网关产品规范.pdf
DB31-T 367-2022 黄浦江游览船及码头运营设施与服务质量要求 上海市.pdf
DB23-T 3338—2022 电子政务云监管平台运维管理规范 黑龙江省.pdf
T-SDL 3.4—2021 10 kV智能电缆系统技术规范 第4部分 10 kV交联聚乙烯绝缘智能电力电缆附件.pdf
GB-T 40753.4-2024 供应链安全管理体系 ISO 28000实施指南 第4部分:以符合GB-T 38702为管理目标实施ISO 28000的附加特定指南.pdf
GB-T 20979-2019 信息安全技术 虹膜识别系统技术要求.pdf
互联网信息服务管理办法(修订草案征求意见稿).pdf
GB-T 10886-2019 三螺杆泵.pdf
freebuf 2019企业安全威胁统一应对指南.pdf
GB-T 30596-2014 温拌沥青混凝土.pdf
DL-T 2036-2019 高压交流架空输电线路可听噪声计算方法.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(564.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。