(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211545583.7 (22)申请日 2022.12.05 (71)申请人 济南丽阳神州智能科技有限公司 地址 250000 山东省济南市高新区舜华西 路699号 (72)发明人 张开通 卓长立 高玉芝 高朝  (74)专利代理 机构 济南千慧专利事务所(普通 合伙企业) 37232 专利代理师 傅静 (51)Int.Cl. G06F 40/151(2020.01) G06F 40/186(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种日志格式转换方法及设备 (57)摘要 本申请实施例公开了一种日志格式转换方 法及设备。 属于电数字数据处理技术领域。 获取 待转换的日志数据与目标数据格式, 并确定出与 目标数据格式相对应的数据填充模板; 基于开始 标识与结束标识确定出日志数据中的多个待转 换数据; 基于预置分词树, 依次对待转换数据中 的多个字符进行字义检测, 根据检测后的字义对 多个待转换数据进行分类, 得到多个数据集群; 基于多个数据集群的类型, 在数据填充模板中确 定出相应的填充位置, 并基于实际填充数据的大 小, 得到多个数据集群分别对应的参考地址, 以 将多个数据集群与参考地址进行映射; 基于映射 关系, 对存在错误的数据进行重新填充, 以完成 数据格式转换。 通过上述方法, 对系统出现的问 题及时进行检测。 权利要求书3页 说明书9页 附图2页 CN 115544975 A 2022.12.30 CN 115544975 A 1.一种日志格式转换 方法, 其特 征在于, 所述方法包括: 获取待转换的日志数据与目标数据格式, 并在数据库中确定出与所述目标数据格 式相 对应的数据填充模板; 确定所述日志数据中的开始标识与 结束标识, 基于所述开始标识与 所述结束标识确定 出所述日志数据中的多个待转换 数据; 基于预置分词树, 依次对待转换数据中的多个字符进行字义检测, 根据检测后的字义 对所述多个待转换数据进行分类, 得到多个数据集群; 其中, 同一个数据集群中的数据, 按 照在所述待转换 数据中的先后顺序进行排列; 基于所述多个数据集群的类型, 在所述数据填充模板中确定出相应的填充位置, 以将 所述多个数据集群中的待转换数据填充至所述相应的填充位置, 并基于实际填充 数据的大 小, 得到所述多个数据集群分别对应的参考地址, 以将所述多个数据集群与所述参考地址 进行映射; 在所述填充数据存在错误的情况下, 基于所述多个数据集群与 所述参考地址之间的映 射关系, 对 存在错误的数据进行重新 填充, 以完成数据格式转换。 2.根据权利要求1所述的一种日志格式转换方法, 其特征在于, 所述基于预置分词树, 依次对待转换 数据中的多个字符进行字义检测之前, 所述方法还 包括: 获取所述待转换数据中的文本数据, 对所述文本数据进行文本拆分, 以得到中文文本 与数字文本; 确定所述中文文本对应的字义类型, 以及基于所述数字文本之前和/或之后的中文文 本确定所述数字文本对应的字义类型, 以根据不同的字义类型, 对所述待转换数据进行分 类, 以建立所述多个数据集群。 3.根据权利要求2所述的一种日志格式转换方法, 其特征在于, 所述确定所述中文文本 对应的字义类型, 具体包括: 将所述中文 文本中的待识别字符与所述预置分词树进行比对; 在所述预置分词树中确定出当前待识别字符, 并确定出所述待识别字符所对应的预置 词语集; 获取所述待识别 字符在所述中文文本 中相邻的若干个字符, 将所述相邻的若干个字符 与所述待识别字符组成待识别词语; 在所述待识别词语存在于所述预置词语集的情况下, 将所述待识别词语作为一个分 词; 基于所述预置分词树中的预置 字义类型, 确定出 所述待转换 数据的字义类型。 4.根据权利要求3所述的一种日志格式转换方法, 其特征在于, 所述基于所述预置分词 树中的预置 字义类型, 确定出 所述待转换 数据的字义类型, 具体包括: 确定出所述待转换 数据所对应的多个分词; 基于所述多个分词分别对应的字义对所述多个分词进行分组; 根据所述预置 字义类型对应的预置 权重, 对每一个组对应的多个分词进行权 重计算; 将所述每一个组分别对应的计算后的权重结果进行比对, 以根据比对结果确定出所述 待转换数据的字义类型。 5.根据权利要求3所述的一种日志格式转换方法, 其特征在于, 所述基于所述数字文本权 利 要 求 书 1/3 页 2 CN 115544975 A 2之前和/或之后的中文 文本确定所述数字文本对应的字义类型, 具体包括: 在所述字义类型对应为数字文本的情况下, 确定位于所述数字文本之前和/或之后的 中文文本; 将所述数字文本之前和/或之后的中文 文本与所述预置分词树进行比对; 基于所述预置分词树, 确定出所述数字文本之前和/或之后的中文文本所对应的分词 集; 以及基于所述预置分词树中的预置 字义类型, 确定出 所述分词集中各分词的语义; 将数量最多的语义作为所述数字文本的字义类型。 6.根据权利要求1所述的一种日志格式转换方法, 其特征在于, 所述在所述数据填充模 板中确定出相应的填充位置, 以将所述多个数据集群中的待转换数据填充至所述相应的填 充位置, 并基于实际填充 数据的大小, 得到所述多个数据集群分别对应的参考地址, 以将所 述多个数据集群与所述 参考地址进行映射, 具体包括: 根据预设标识模板库, 对所述多个数据集群进行不同的标识标注; 在所述数据填充模板中, 确定出与所述多个数据集群的标识一致的多个填充位置, 作 为参考填充位置; 对所述数据集群中的待转换数据进行数据划分, 得到各数据集群分别对应的多个划分 后数据, 并根据所述划分后的数据在所述数据集群中的位置先后顺序, 对所述各数据集群 分别对应的多个划分后的数据进行标号; 其中, 相邻的开始标识与结束标识之间的数据作 为一条所述划分后的数据; 将所述划分后的数据按照标号顺序依次转换至所述参考填充位置; 其中, 所述参考填 充位置包括多个空白行, 且每一个空白行对应填充一条 所述划分后的数据; 基于所述参考填充位置对应的实际填充数据的大小, 获取所述参考填充位置对应的起 始存储地址与结束存储地址, 基于每个所述参考填充位置 分别对应的起始存储地址与结束 存储地址, 建立每 个所述参考填充位置分别对应的参 考地址; 将每个所述数据集群与所述参考地址进行映射, 以确定出每个所述数据集群对应的填 充位置。 7.根据权利要求1所述的一种日志格式转换方法, 其特征在于, 所述将所述多个数据集 群中的待转换 数据填充至所述相应的填充位置之后, 所述方法还 包括: 获取每个填充位置分别对应的第 一字符数量, 以及获取与所述每个填充位置分别对应 的数据集群中的第二字符数量; 获取所述每个填充位置分别对应的转换后的文本数据的填充序号, 以及获取所述转换 后的文本数据在所述数据集群中的位置序号; 将所述第一字符数量与所述第 二字符数量进行比对, 以及将所述填充序号与 所述位置 序号进行比对; 在所述第一字符数量与所述第 二字符数量相同, 且所述填充序号与 所述位置序号一致 的情况下, 确定所述数据格式转换正确。 8.根据权利要求7所述的一种日志格式转换方法, 其特征在于, 所述在所述填充数据存 在错误的情况下, 基于所述多个数据集群与所述参考地址之间的映射关系, 对存在错误的 数据进行重新 填充, 具体包括: 在所述第一字符数量与所述第二字符数量不一致, 和/或所述填充序号与所述位置序权 利 要 求 书 2/3 页 3 CN 115544975 A 3

.PDF文档 专利 一种日志格式转换方法及设备

安全报告 > 其他 > 文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种日志格式转换方法及设备 第 1 页 专利 一种日志格式转换方法及设备 第 2 页 专利 一种日志格式转换方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-03-03 20:13:35上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。