(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211545583.7
(22)申请日 2022.12.05
(71)申请人 济南丽阳神州智能科技有限公司
地址 250000 山东省济南市高新区舜华西
路699号
(72)发明人 张开通 卓长立 高玉芝 高朝
(74)专利代理 机构 济南千慧专利事务所(普通
合伙企业) 37232
专利代理师 傅静
(51)Int.Cl.
G06F 40/151(2020.01)
G06F 40/186(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种日志格式转换方法及设备
(57)摘要
本申请实施例公开了一种日志格式转换方
法及设备。 属于电数字数据处理技术领域。 获取
待转换的日志数据与目标数据格式, 并确定出与
目标数据格式相对应的数据填充模板; 基于开始
标识与结束标识确定出日志数据中的多个待转
换数据; 基于预置分词树, 依次对待转换数据中
的多个字符进行字义检测, 根据检测后的字义对
多个待转换数据进行分类, 得到多个数据集群;
基于多个数据集群的类型, 在数据填充模板中确
定出相应的填充位置, 并基于实际填充数据的大
小, 得到多个数据集群分别对应的参考地址, 以
将多个数据集群与参考地址进行映射; 基于映射
关系, 对存在错误的数据进行重新填充, 以完成
数据格式转换。 通过上述方法, 对系统出现的问
题及时进行检测。
权利要求书3页 说明书9页 附图2页
CN 115544975 A
2022.12.30
CN 115544975 A
1.一种日志格式转换 方法, 其特 征在于, 所述方法包括:
获取待转换的日志数据与目标数据格式, 并在数据库中确定出与所述目标数据格 式相
对应的数据填充模板;
确定所述日志数据中的开始标识与 结束标识, 基于所述开始标识与 所述结束标识确定
出所述日志数据中的多个待转换 数据;
基于预置分词树, 依次对待转换数据中的多个字符进行字义检测, 根据检测后的字义
对所述多个待转换数据进行分类, 得到多个数据集群; 其中, 同一个数据集群中的数据, 按
照在所述待转换 数据中的先后顺序进行排列;
基于所述多个数据集群的类型, 在所述数据填充模板中确定出相应的填充位置, 以将
所述多个数据集群中的待转换数据填充至所述相应的填充位置, 并基于实际填充 数据的大
小, 得到所述多个数据集群分别对应的参考地址, 以将所述多个数据集群与所述参考地址
进行映射;
在所述填充数据存在错误的情况下, 基于所述多个数据集群与 所述参考地址之间的映
射关系, 对 存在错误的数据进行重新 填充, 以完成数据格式转换。
2.根据权利要求1所述的一种日志格式转换方法, 其特征在于, 所述基于预置分词树,
依次对待转换 数据中的多个字符进行字义检测之前, 所述方法还 包括:
获取所述待转换数据中的文本数据, 对所述文本数据进行文本拆分, 以得到中文文本
与数字文本;
确定所述中文文本对应的字义类型, 以及基于所述数字文本之前和/或之后的中文文
本确定所述数字文本对应的字义类型, 以根据不同的字义类型, 对所述待转换数据进行分
类, 以建立所述多个数据集群。
3.根据权利要求2所述的一种日志格式转换方法, 其特征在于, 所述确定所述中文文本
对应的字义类型, 具体包括:
将所述中文 文本中的待识别字符与所述预置分词树进行比对;
在所述预置分词树中确定出当前待识别字符, 并确定出所述待识别字符所对应的预置
词语集;
获取所述待识别 字符在所述中文文本 中相邻的若干个字符, 将所述相邻的若干个字符
与所述待识别字符组成待识别词语;
在所述待识别词语存在于所述预置词语集的情况下, 将所述待识别词语作为一个分
词;
基于所述预置分词树中的预置 字义类型, 确定出 所述待转换 数据的字义类型。
4.根据权利要求3所述的一种日志格式转换方法, 其特征在于, 所述基于所述预置分词
树中的预置 字义类型, 确定出 所述待转换 数据的字义类型, 具体包括:
确定出所述待转换 数据所对应的多个分词;
基于所述多个分词分别对应的字义对所述多个分词进行分组;
根据所述预置 字义类型对应的预置 权重, 对每一个组对应的多个分词进行权 重计算;
将所述每一个组分别对应的计算后的权重结果进行比对, 以根据比对结果确定出所述
待转换数据的字义类型。
5.根据权利要求3所述的一种日志格式转换方法, 其特征在于, 所述基于所述数字文本权 利 要 求 书 1/3 页
2
CN 115544975 A
2之前和/或之后的中文 文本确定所述数字文本对应的字义类型, 具体包括:
在所述字义类型对应为数字文本的情况下, 确定位于所述数字文本之前和/或之后的
中文文本;
将所述数字文本之前和/或之后的中文 文本与所述预置分词树进行比对;
基于所述预置分词树, 确定出所述数字文本之前和/或之后的中文文本所对应的分词
集; 以及基于所述预置分词树中的预置 字义类型, 确定出 所述分词集中各分词的语义;
将数量最多的语义作为所述数字文本的字义类型。
6.根据权利要求1所述的一种日志格式转换方法, 其特征在于, 所述在所述数据填充模
板中确定出相应的填充位置, 以将所述多个数据集群中的待转换数据填充至所述相应的填
充位置, 并基于实际填充 数据的大小, 得到所述多个数据集群分别对应的参考地址, 以将所
述多个数据集群与所述 参考地址进行映射, 具体包括:
根据预设标识模板库, 对所述多个数据集群进行不同的标识标注;
在所述数据填充模板中, 确定出与所述多个数据集群的标识一致的多个填充位置, 作
为参考填充位置;
对所述数据集群中的待转换数据进行数据划分, 得到各数据集群分别对应的多个划分
后数据, 并根据所述划分后的数据在所述数据集群中的位置先后顺序, 对所述各数据集群
分别对应的多个划分后的数据进行标号; 其中, 相邻的开始标识与结束标识之间的数据作
为一条所述划分后的数据;
将所述划分后的数据按照标号顺序依次转换至所述参考填充位置; 其中, 所述参考填
充位置包括多个空白行, 且每一个空白行对应填充一条 所述划分后的数据;
基于所述参考填充位置对应的实际填充数据的大小, 获取所述参考填充位置对应的起
始存储地址与结束存储地址, 基于每个所述参考填充位置 分别对应的起始存储地址与结束
存储地址, 建立每 个所述参考填充位置分别对应的参 考地址;
将每个所述数据集群与所述参考地址进行映射, 以确定出每个所述数据集群对应的填
充位置。
7.根据权利要求1所述的一种日志格式转换方法, 其特征在于, 所述将所述多个数据集
群中的待转换 数据填充至所述相应的填充位置之后, 所述方法还 包括:
获取每个填充位置分别对应的第 一字符数量, 以及获取与所述每个填充位置分别对应
的数据集群中的第二字符数量;
获取所述每个填充位置分别对应的转换后的文本数据的填充序号, 以及获取所述转换
后的文本数据在所述数据集群中的位置序号;
将所述第一字符数量与所述第 二字符数量进行比对, 以及将所述填充序号与 所述位置
序号进行比对;
在所述第一字符数量与所述第 二字符数量相同, 且所述填充序号与 所述位置序号一致
的情况下, 确定所述数据格式转换正确。
8.根据权利要求7所述的一种日志格式转换方法, 其特征在于, 所述在所述填充数据存
在错误的情况下, 基于所述多个数据集群与所述参考地址之间的映射关系, 对存在错误的
数据进行重新 填充, 具体包括:
在所述第一字符数量与所述第二字符数量不一致, 和/或所述填充序号与所述位置序权 利 要 求 书 2/3 页
3
CN 115544975 A
3
专利 一种日志格式转换方法及设备
安全报告 >
其他 >
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:35上传分享