全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111577072.9 (22)申请日 2021.12.2 2 (71)申请人 哈尔滨工业大 学 (威海) 地址 264209 山 东省威海市文化西路2号 (72)发明人 张兆心 孙国营 程亚楠 许海燕  常利婷 李冷文婷   (74)专利代理 机构 北京怡丰知识产权代理有限 公司 11293 代理人 于振强 刘兴禄 (51)Int.Cl. G06F 16/35(2019.01) G06N 20/00(2019.01) (54)发明名称 基于证书链构建和域名 文本特征的赌博域 名识别方法 (57)摘要 本发明涉及一种基于证书链构建和域名 文 本特征的赌博域名识别方法, 其解决了在不对网 页文本进行解析的情况下现有赌博域名识别准 确率低的技术问题, 其具体步骤包括: 步骤一: 构 建证书链特征向量; 步骤二: 构建证书链验证特 征向量; 步骤三: 基于域名黑名单和N ‑gram构建 特征向量; 步骤四: 构建基于域名本身的特征解 析向量; 步骤五: 合成步骤一到步骤四特征向量 并打标签; 步骤六: 构建深度学习和机器学习模 型识别。 本发明可广泛应用于赌博域名的识别。 权利要求书2页 说明书6页 附图2页 CN 114357161 A 2022.04.15 CN 114357161 A 1.一种基于证书链构建和域名文本特征的赌博域名识别方法, 其特征是, 具体步骤包 括: 步骤一: 构建证书链特 征向量; 步骤二: 构建证书链验证特 征向量; 步骤三: 基于域名黑名单和N ‑gram构建特 征向量; 步骤四: 构建基于域名本身的特 征解析向量; 步骤五: 合成步骤一到步骤四特 征向量并打标签; 步骤六: 构建深度学习和机器学习模型识别。 2.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法, 其特征 在于, 所述步骤一具体方法: 在证书 数据库CCADB中进行搜索, 找到根证书或者中间证书, 完 成证书链构造; 获取中间证书的解析 结果并分析证书链的长度, 得到 长度为5的特 征向量。 3.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法, 其特征 在于, 所述步骤二具体方法: 提取OpenSSL的结束证书的验证标志, 构建了长度为42的特征 向量。 4.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法, 其特征 在于, 所述 步骤三具体步骤为: 1、 手动标注了1000个赌博域名, 然后利用爬虫爬取赌博域名的外链, 并通过构建基于 Bert的文本分类模型, 得到 了10万个赌 博域名和2万个带有数字证书的赌 博域名; 2、 通过10万赌博域名来构建域名黑名单, 通过N ‑gram方法分别获得10万赌博域名长度 为3的子字 符串黑名单、 长度为4的子字符串黑名单、 长度为5的子字 符串黑名单以及长度为 6的子字符串黑名单, 选取A lex排名前2万的域名作为良性域名, 通过N ‑gram方法分别获取2 万带有数字证书的赌博域名以及2万良性域名长度为3、 4、 5、 6的子字 符串, 分别查看每一个 域名长度为3、 4、 5、 6的子字 符串在对应长度的子字符串黑名单中出现的次数, 构成长度为4 的特征向量。 5.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法, 其特征 在于, 所述步骤四具体方法: 解析域名的TLD、 域名有几层域、 域名长度、 域名中的数字个数 以及域名中的数字占比。 6.根据权利要求5所述基于证书链构建和域名文本特征的赌博域名识别方法, 其特征 在于, 所述域名的TLD使用0 ‑10来表示.com、 .org、 .net、 .info、 .biz、 .edu、 .gov、 .cat、 .museum、 .travel、 .cn这11个常见的T LD; 如果域名的T LD不在上述11个T LD中, 则域名的T LD 值设置为1 1。 7.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法, 其特征 在于, 所述步骤五具体方法是为: 将证书链特征向量、 证书链验证特征向量、 基于域名黑名 单的特征向量以及域名本身的特征解析向量合 成为长度为56的特征向量, 根据数字证书为 赌博域名和良性 域名为每一个特 征向量打标签0或1。 8.根据权利要求7所述基于证书链构建和域名文本特征的赌博域名识别方法, 其特征 在于, 所述步骤六具体方法是为: 构 建LSTM、 RNN、 Decision  Tree、 Random  Forest、 KNN以及 SVM学习算法对赌博域名以及良性域名长度为56的特征向量进行训练和测试, 构建赌博域 名挖掘模型。权 利 要 求 书 1/2 页 2 CN 114357161 A 29.根据权利要求8所述基于证书链构建和域名文本特征的赌博域名识别方法, 其特征 在于, 所述LSTM以及RNN学习算法, 构造双层的训练模型, 每一层的记忆体个数都设置为 400, 均使用0.2的Droupout。权 利 要 求 书 2/2 页 3 CN 114357161 A 3

.PDF文档 专利 基于证书链构建和域名文本特征的赌博域名识别方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于证书链构建和域名文本特征的赌博域名识别方法 第 1 页 专利 基于证书链构建和域名文本特征的赌博域名识别方法 第 2 页 专利 基于证书链构建和域名文本特征的赌博域名识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:17:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。