全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111548695.3 (22)申请日 2021.12.17 (71)申请人 南京维数软件股份有限公司 地址 210000 江苏省南京市栖霞区尧化 街 道甘家边东108号02幢401室 (72)发明人 胡芃 程华云 高青松 张犇  (74)专利代理 机构 南京瑞弘专利商标事务所 (普通合伙) 32249 代理人 陈建和 (51)Int.Cl. G06Q 30/00(2012.01) G06Q 40/04(2012.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 证券疑似犯罪团伙智能挖掘方法 (57)摘要 本发明公开了一种证券疑似团伙智能挖掘 方法, 涉及线索挖掘技术领域。 该方法, 包括以下 步骤: S1.数据采集并标记; S2.数据清洗、 拼接; S3.拼接后数据清洗; S4.数据特征因子选取, 主 要包括证券数据行为特征、 资金数据行为特征、 轨迹数据行为特征、 通联数据行为特征; S5.有 监 督机器学习技术划分训练集和测试集; S6.选择 最优算法进行模型训练及模型验证; S7.增加模 型中特征数目再训练, 不断验证迭代, 确定最优 分类模型; S8.提炼历史案件涉及文本文件中相 关核心要素, 分析可疑人员; S9.将S7和S8的识别 结果进行智能比对分析, 输出可疑团伙分析结 果。 权利要求书3页 说明书7页 附图3页 CN 114282932 A 2022.04.05 CN 114282932 A 1.证券疑似犯罪团伙智能挖掘方法, 其特 征是, 包括以下步骤: S1.数据采集并标记; 证券犯罪涉及数据种类多, 范围广, 全面获取各类数据, 制定统一 标准; 根据身份证获取个人的通话信息数据、 微信或者QQ信息、 资金交易信息、 证券交易信 息、 以及个人的活动轨迹信息; 对同一案件, 给每个人打正负标签, 获取团伙数据T0, 非团伙 数据T1, 并且保持两个数据集的比列为 1:1左右, 便于提高算法预测的正确率; 最后, 将T0和 T1融合在一个数据集T中, 生成一个xls文件, 便 于以后程序调用; S2.数据清洗, 拼接; 对不同数据类型进行去重清洗; 对于通话信息数据、 微信或者QQ信 息、 资金交易信息、 证券交易信息、 以及个人的活动轨迹信息进行去重, 防止在后面数据合 并时出现错误; 对于各个数据去重后获取的结果数据, 通过pandas进行数据的取并集融合; 身份证号码, 手机号码, 银 行卡号作为5张数据表融合的关键值; S3.拼接后数据二次清洗; 选取文件中的特定列名, 并进行数据预处理, 对缺少身份证 号码、 手机号码以及银行卡号的数据等不符合规则的数据进行二次清洗去重; 对于很奇特 的身份证号码以及手机号码的数据进行删除, 例如身份证号是0, 则删除该数据; 对每列的 数据进行 空值处理: 对于金额, 先将其转换成数值float格式, 再将其负值转换成正数, 若 是 负值, 将其装换成正数, 若数据空值, 使用均值 替代; 对于通话类型名称、 活动到达地点以及业务类型, 本身就使用字符串表示, 则使用一个 特定的字符串代替空值, 便 于以后的数据计算; S4.数据特征因子选取; 对于S3步骤后获取的数据, 但是其中有一部分对于判断是否是 犯罪团伙的作用不大, 所以, 在此数据基础上要结合传统人工预判 特征因子的规则进一步 选取特征; 证券疑似犯罪数据行为特征选取包括: 1)业务类型、 证券账户类别、 买卖标志、 存管模 式、 委托接入方式; 离散型数据, 填充空值; 2)mac地址; 对每个用户使用的mac地址进行次数 统计, 作为一个特征集; 3)发生金额; 分别计算个人发生金额的均值、 最大值、 最小值作为数 据特征; 4)印花税+经手 费+过户费+证管费+其他费用1+其他费用2+其他费用3+手续费; 对 于以上的很多 特征进行数据求和, 并且计算均值、 最小值和最大值作为数据特征列; 5)成交 数量; 对成交数据化成不同等级, 小于1000为一等级, 大于1000小于2000作为二等级, 以此 类推; 资金数据行为特征选取: 1)交易方式、 重复状态、 是否存在公共账户的交易、 是否补全 改正记录、 处理状态、 批次名称ID; 离散型数据, 进行空值填充; 2)交易金额: 如证券的交易 金额进行 特征处理; 3)交易是否成功、 借贷标志; 离 散数据, 空值用特殊字符串标记; 轨迹数据行为特征选取: 1)标识、 活动的起点、 活动的终点、 使用类别、 有效性; 都是离 散数据, 直接进行 数据空值 填充即可; 通联数据行为特征选取: 1)通话时长; 以5分钟为一等级, 超过5分钟小于10分钟为第二 等级, 以此类推, 将其转换成离散型的数据; 2)用户电话基站、 通话类型名称和删除状态; 其 数据本身就是离散型数据, 将其空值填充后 即可; 3)对于微信QQ数据的特征选取: ①.数据 类型; 1表示微信, 2表示QQ, 将未知的转换成3; ②.删除状态; 离散数据, 将空值进行填充即 可; 最后对以上选取的所有特征进行onehot转换成多种特征列, 作为有监督机器学习中输 入值; S5.有监督机器学习技术划分训练集和测试集; 对样本集中的数据, 打乱数据后, 按照权 利 要 求 书 1/3 页 2 CN 114282932 A 2训练集和 测试集3:1的状态选取 数据, 进行算法训练; S6.选择最优算法进行模型训练及模型验证; 机器学习中数据进行分类的算法很多, 各 有优缺点, 对每个算法进行训练, 选择最优算法模型训练; 对于逻辑回归(分类算法): 分类器的输入是(x1, x2, …, xn), x1, x2, …, xn分别表示 为每一个特 征的向量; 逻辑回归函数: 其中 其中: 其中θ0, θ1, ..., θn分别表示特征列的权重, 需要根据loss似然函数求解x0, x1, ..., xn分 别表示特征列中特征列的数值, 例如特征列时总金额数: 1220万, 该数值就表示x1, 总计通 话时长x2: 30, 活动的地 点x3: 南京...... 阈值选取0 ‑1中间0.5, 当预测函数 结果大于 0.5, 则预测为 正, 反之预测为负; 采用逻辑回归二分类, 求解损失值, 使得损失值达到最小, 一直不断更新θ, 并最终获得 预测函数; 似然函数: 似然函数: 对数函数: 对数函数: 其中: 其中P(y=1|x; θ )=hθ(x), P(y=0|x; θ )=1 ‑hθ(x) P(yi|xi; θ): 表示在参数θ给定情况下, 指定xi获得中间数值yi′, 对应于中间数值取 sigmoid函数, 将数值转换成从0 ‑1的数值, 并且判断分类的类别。 xi表示一个人的特征向 量, 例如特征向量分别为(资金交易金额, 通话时长, 活动地点), 用向量表示为(1200万, 20,′南京′), yi′是根据逻辑回归函数计算获得的结果 对于朴素贝叶斯(分类算法): 朴素贝叶斯 的输入是(x1, x2, …, xn), x1, x2, …, xn分别 表示为每一个特征的向量; 对于本案列是二分类, 选取的类别分别为c1, c2; 朴素贝叶斯是 生成式模型, 在此假设每列特征都是相互独 立的, 同时要先获得先验概率P(Y=ck)以及P(X1 =x1|Y=ck)P(X1=x1, X2=x2, ..., Xn=xn|Y=ck)=P(X1=x1|Y=ck)P(X2=x2|Y=ck)...P (Xn=xn|Y=ck) 贝叶斯模型的预测: 2.根据权利要求1所述的证券疑似犯罪团伙智能挖掘方法, 其特 征是, S1中, 对同一案件, 给每个人打正负标签, 获取团伙数据T0, 非团伙数据T1, 并且保持两 个数据集的比列为1∶1左右, 便于提高算法预测的正确率; 最后, 将T0和T1融合在一个数据 集T中, 生成一个xls文件, 便 于以后程序调用。 3.根据权利要求1所述的证券疑似犯罪团伙智能挖掘方法, 其特征是, S6中, 选择最优 算法进行模型训练及 模型验证; 机器学习中数据进 行分类的算法很多, 各有优缺点, 同时神 经网络和CNN卷积神经网络都可以进 行训练预测, 使用神经网络会造成过拟合, 同时训练 时 间较长, 所以选取的算法使用机器学习中的逻辑回归, 拟合速度快;权 利 要 求 书 2/3 页 3 CN 114282932 A 3

.PDF文档 专利 证券疑似犯罪团伙智能挖掘方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 证券疑似犯罪团伙智能挖掘方法 第 1 页 专利 证券疑似犯罪团伙智能挖掘方法 第 2 页 专利 证券疑似犯罪团伙智能挖掘方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:18:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。