说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111573213.X (22)申请日 2021.12.21 (71)申请人 湖北天融信网络安全技 术有限公司 地址 430040 湖北省武汉市临 空港经济技 术开发区五环大道6 66号(21) 申请人 北京天融信网络安全技 术有限公司   北京天融信科技有限公司   北京天融信软件 有限公司 (72)发明人 谢鹏程  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 杨奇松 (51)Int.Cl. G06F 40/126(2020.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称 一种编码数据的类型识别方法、 装置、 电子 设备及存 储介质 (57)摘要 本申请实施例提供一种编码数据的类型识 别方法、 装置、 电子设备及存储介质, 其中编码数 据的类型识别方法包括: 获取所述编码数据的字 节数据; 获取所述字节数据的统计特征; 根据所 述字节数据的统计特征获取所述字节数据对应 的编码类型。 在本申请实施例中, 根据字节数据 的统计特征对 数据的编码类型进行识别, 不同编 码方法对原始数据的匹配方式以及转换方式不 同, 从而引起导致字节数据的统计特征不同, 统 计特征对于字节数据是一个比较稳定的特征, 通 过字节数据的统计特征来获取字节数据对应的 编码类型, 相比现有技术的基于匹配规则进行识 别的方法更加准确, 能够提高编码类型识别的准 确性。 权利要求书2页 说明书8页 附图5页 CN 114239487 A 2022.03.25 CN 114239487 A 1.一种编码数据的类型识别方法, 其特 征在于, 包括: 获取所述编码数据的字节数据; 获取所述字节数据的统计特 征; 根据所述字节数据的统计特 征获取所述字节数据对应的编码类型。 2.根据权利要求1所述的编码数据的类型识别方法, 其特征在于, 所述根据所述字节数 据的统计特 征获取所述字节数据对应的编码类型的步骤, 包括: 获取预先训练的机器学习模型; 将所述字节数据的统计特征输入预先训练 的机器学习模型, 得到所述字节数据对应的 编码类型。 3.根据权利要求2所述的编码数据的类型识别方法, 其特征在于, 所述获取预先训练 的 机器学习模型的步骤, 包括: 获取所述编码数据对应的训练样本, 获取所述训练样本的统计特 征对应的第一特 征向量; 根据所述第一特 征向量构造第一特 征矩阵; 将所述第一特征矩阵输入机器学习模型进行训练, 得到所述预先训练的机器学习模 型。 4.根据权利要求1所述的编码数据的类型识别方法, 其特征在于, 所述获取所述字节数 据的统计特 征的步骤, 包括: 获取所述字节数据的统计特 征对应的第二特 征向量; 根据所述第二特 征向量构造第二特 征矩阵。 5.根据权利要求1 ‑4任一项所述的编码数据的类型识别方法, 其特征在于, 所述统计特 征包括: 所述字节数据的最小值、 所述字节数据的最大值、 所述字节数据的平均值、 所述字 节数据中的互异字节值的个数、 所述字节数据的中位数、 所述字节数据的上四分位数、 所述 字节数据的下四分位数、 所述字节数据的连续单字节值熵、 所述字节数据的连续双字节值 熵、 所述字节数据的连续 三字节值熵中的一个或多个。 6.根据权利要求3所述的编码数据的类型识别方法, 其特征在于, 在所述根据 所述第一 特征向量构造第一特 征矩阵的步骤之前, 还 包括: 对所述第一特 征向量进行归一 化处理。 7.根据权利要求5所述的编码数据的类型识别方法, 其特征在于, 通过以下公式获取所 述连续单字节值熵、 所述连续双字节值熵、 所述连续 三字节值熵: 其中, 若S为所述字节数据的连续单字节值熵时, n为所述字节数据中的所述连续单字 节值对应的单位的数量, 或者, mi为所述字节数据中 的第i个所述连续单字节值对应的单位 的数量; 或者,权 利 要 求 书 1/2 页 2 CN 114239487 A 2若S为所述字节数据的连续双字节值熵时, n为所述字节数据中的所述连续双字节值对 应的单位的数量, 或者, mi为所述字节数据中的第i个所述连续双字节值对应的单位的数 量; 或者, 若S为所述字节数据的连续三字节值熵时, n为所述字节数据中的所述连续三字节值对 应的单位的数量; mi为所述字节数据中的第i个所述连续 三字节值对应的单位的数量。 8.一种编码数据的类型识别装置, 其特 征在于, 包括: 获取模块, 用于获取 所述编码数据的字节数据; 统计模块, 用于获取 所述字节数据的统计特 征; 识别模块, 用于根据所述字节数据的统计特 征获取所述字节数据对应的编码类型。 9.一种电子设备, 其特征在于, 包括: 存储器、 处理器以及存储在所述存储器中并可在 所述处理器上运行 的计算机程序, 所述处理器执行所述计算机程序时实现如权利要求1 ‑7 任一项所述的编码数据的类型识别方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有指令, 当所述指令在计算机上运行时, 使得所述计算机执行如权利要求1 ‑7任一项所述的编码数 据的类型识别方法。权 利 要 求 书 2/2 页 3 CN 114239487 A 3

.PDF文档 专利 一种编码数据的类型识别方法、装置、电子设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种编码数据的类型识别方法、装置、电子设备及存储介质 第 1 页 专利 一种编码数据的类型识别方法、装置、电子设备及存储介质 第 2 页 专利 一种编码数据的类型识别方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:15:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。