(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111585500.2
(22)申请日 2021.12.23
(71)申请人 中国人民解 放军总医院第一医学中
心
地址 100853 北京市海淀区复兴 路28号
(72)发明人 王倩 董哲毅 苏仕斌 陈香美
(51)Int.Cl.
G16H 50/30(2018.01)
G16H 50/20(2018.01)
G16H 50/50(2018.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于机器学习的预测膜 性肾病的方法、
系统和装置
(57)摘要
本发明提供了一种基于机器学习的预测膜
性肾病的方法、 系统和装置, 包括数据采集、 数据
预处理、 特征筛选、 预测模型构建、 预测模型测试
和评价, 通过获取待检索病人的数据信息, 将待
检索病人的数据信息输入预测模 型, 所述预测模
型根据所述待检索病人的数据信息对膜性 肾病
做出预测, 总之能够用机器学习的方法开发和验
证膜性肾病的预测模型, 能够实现高效能、 高准
确率的预测, 对于膜性肾病的早期治疗和预防,
具有重要的研究意 义和使用价 值。
权利要求书3页 说明书16页 附图5页
CN 114373544 A
2022.04.19
CN 114373544 A
1.一种基于 机器学习的预测膜性肾病的方法, 其特 征在于, 包括:
步骤一, 数据采集, 采集进行过肾穿刺活检的患者数据信息, 检测结构包括MN和non ‑
MN, 根据入选条件和排除标准纳入符合入选条件和排除标准的患者数据信息, 通过SQL方法
提取X个特征指标, X为 正整数;
步骤二, 数据预处理, 所述数据预处理包括缺失值处理, 所述缺失值处理为: 经过初步
筛选, 删除缺失率>20%的患者数据信息, 采用随机森 林法填补缺 失值, 获得MN和non ‑MN的
患者数据信息, 得到 Y个特征指标, Y为 正整数; Y ≤X;
步骤三, 特征筛选, 包括用互信息法筛选法筛选出Z个特征指标, Z为正整数Z≤Y; 还包
括, 用特征消除法对 所述Z个特征指标指标进行降维处理, 得到M个特征指标, 为正整 数, M≤
Z;
步骤四, 预测模型构建, 采用70%患者进行训练建模、 采用30%患者用于验证集验证,
训练集的样本标签包括MN和non ‑MN的患者, 采用支持向量机、 catboost、 XGboost、
AdaBoost、 人工神经网络、 Naive Bayes或传统逻辑回归方法获得 预测模型;
步骤五, 预测模型测试和评价, 对基于机器学习的预测膜性肾病的预测模型进行测试
和评价;
获取待检索病人的数据信息, 将所述待检索病人的数据信息输入预测模型, 所述预测
模型根据所述待检索病人的数据信息对膜性肾病做出 预测。
2.根据权利要求1所述的基于机器学习的预测膜性肾病的方法, 其特征在于, 步骤一中
数据采集, 采集受试人群的实验室检测和待检索病 人的实验室检测指标, 检测结构包括MN
和non‑MN。
3.根据权利要求1所述的基于机器学习的预测膜性肾病的方法, 其特征在于, 步骤一中
数据采集, 所述入选条件和排除标准包括: 排除年龄低于18岁的患者数据和/或排除妊娠期
妇女数据和/或排除哺乳期妇女和/或排除恶性肿瘤患者数据和/或排除内科急症和/或排
除感染性疾病和/或排除SMN。
4.根据权利要求1所述的基于机器学习的预测膜性肾病的方法, 其特征在于, 步骤二
中, 所述数据预 处理还包括异常值处理, 当所述数据为异常值时, 删除对应的所述患者数据
信息。
5.根据权利要求4所述的基于机器学习的预测膜性肾病的方法, 其特征在于, 异常值处
理包括:
判断BMI的数值是否为负数,
如果是, 则所述数据为异常值;
如果否, 则保留所述数据。
6.根据权利要求4所述的基于机器学习的预测膜性肾病的方法, 其特征在于, 异常值处
理采用3sigma原则。
7.根据权利要求1所述的基于 机器学习的预测膜性肾病的方法, 其特 征在于,
步骤一, 数据采集, 采集进行过肾穿刺活检的患者数据信息, 检测结构包括MN和non ‑
MN, 根据入选条件和排除标准纳入符合入选条件和排除标准的患者数据信息, 通过SQL方法
提取X个特征指标, X为 正整数; 经 过所述数据采集过程后的患者数量 为A, A为正整数;
步骤二, 数据预处理, 对A个患者的数据信息进行数据预处理, 所述数据预处理包括缺权 利 要 求 书 1/3 页
2
CN 114373544 A
2失值处理, 所述缺失值处理为: 经过初步筛选, 删除缺失率>20%的患者数据信息, 采用随
机森林法填补缺失值, 获得MN和non ‑MN的患者数据信息, 得到Y个特征指标, Y为正整数; Y≤
X;
步骤三中, 特征筛选, 包括用互信息法筛选法筛选出Z个特征指标, Z为正整数, Z≤Y, 用
特征消除法对所述Z个特征指标指标进行降维处理, 得到M个特征指标ALB、 β 2 ‑MG、 α‑G、 尿红
细胞、 LAM、 BUN、 TP, M=7; 增加TC、 24小时尿蛋白定量、 GRF三个特征指标, 用于简化预测模型
构建, Z≥7;
步骤四, 简化预测模型构 建, 采用70%患者进行训练建模、 采用30%患者用于验证集验
证, 训练集的样本标签包括MN和non ‑MN的患者, 采用支持向量机、 catboost、 XGboost、
AdaBoost、 人工神经网络、 Naive Bayes或传统逻辑回归方法获得简化预测模型。
8.根据权利要求1所述的基于 机器学习的预测膜性肾病的方法, 其特 征在于,
步骤一, 数据采集, 采集进行过肾穿刺活检的患者数据信息, 检测结构包括MN和non ‑
MN, 根据入选条件和排除标准纳入符合入选条件和排除标准的患者数据信息, 通过SQL方法
提取X个特征指标, X为正整数; 纳入含有PLA2R检测的患者数据信息, 经过所述数据采集过
程后的患者数量 为A’, A’为正整数;
步骤二, 数据 预处理, 对A ’个患者的数据信息进行数据预处理, 所述数据 预处理包括缺
失值处理, 所述缺失值处理为: 经过初步筛选, 删除缺失率>20%的患者数据信息, 采用随
机森林法填补缺失值, 获得MN和n on‑MN的患者数据信息, 得到 Y’个特征指标, Y ’为正整数;
步骤三, 特征筛选, 包括用互信息法筛选法筛选出Z ’个特征指标, Z ’为正整数, Z ’≤Y’,
用特征消除法对所述Z ’个特征指标指标进行降维处理, 得到M ’个特征指标PLA2R、 ALB、 β 2 ‑
MG, M’=3; 增加TC、 24小时尿蛋白定量、 GRF三个特 征指标, 用于优化预测模型构建, Z ’≥3;
步骤四, 优化预测模型构 建, 采用70%患者进行训练建模、 采用30%患者用于验证集验
证, 训练集的样本标签包括MN和non ‑MN的患者, 采用支持向量机、 catboost、 XGboost、
AdaBoost、 人工神经网络、 Naive Bayes或传统逻辑回归方法获得优化预测模型。
9.根据权利要求1所述的基于机器学习的预测膜性肾病的方法, 其特征在于, 所述步骤
五中采用AUC作为评价指标, 对基于 机器学习的预测膜性肾病的预测模型进行测试和评价。
10.一种基于 机器学习的预测膜性肾病的系统, 其特 征在于, 所述系统包括:
数据采集模块1, 用于采集进行 过肾穿刺活检的患者数据信息;
数据预处理模块2, 用于对患者数据信息进行清洗、 删失、 填补, 所述数据预处理模块2
包括缺失值处理模块201, 所述缺失值处理模块201用于经过初步筛选, 删除缺失率>20%
的患者数据信息, 采用随机森林法填补缺失值, 获得MN和n on‑MN的患者数据信息;
特征筛选模块3, 用于对特征指标进行筛选排序, 用互信息法筛选法筛选出Z个特征指
标, Z为正整 数Z≤Y; 还包括, 用特征消除法对 所述Z个特征指标指标进行降维处理, 得到M个
特征指标, 为 正整数, M ≤Z;
预测模型构建模块4, 采用70%患者进行训练建模、 采用30%患者用于验证集验证, 训
练集的样本标签包括MN和non ‑MN的患者, 采用支持向量机、 c atboost、 XGboost、 AdaBoost、
人工神经网络、 Naive Bayes或传统逻辑回归方法获得 预测模型;
自动预测模块5, 数据采集模块1、 数据预处理模块2、 特征筛选模块3、 预测模型构建模
块4、 自动预测模块5依次电信号连接, 获取待检索病人数据信息, 将所述 获取待检索病人数权 利 要 求 书 2/3 页
3
CN 114373544 A
3
专利 一种基于机器学习的预测膜性肾病的方法、系统和装置
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:14:29上传分享