(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111584121.1
(22)申请日 2021.12.21
(65)同一申请的已公布的文献号
申请公布号 CN 114038501 A
(43)申请公布日 2022.02.11
(73)专利权人 广州金匙医学检验 有限公司
地址 510535 广东省广州市黄埔区开源大
道11号科技企业加速器C5栋202室、 C5
栋203室
(72)发明人 高建鹏 韩朋 饶冠华 蒋智
(74)专利代理 机构 北京知汇林知识产权代理事
务所(普通 合伙) 11794
专利代理师 董涛
(51)Int.Cl.
G16B 20/30(2019.01)
G06N 20/00(2019.01)
(56)对比文件
CN 111613324 A,2020.09.01CN 110349630 A,2019.10.18
CN 111951895 A,2020.1 1.17
CN 113380396 A,2021.09.10
CN 110111841 A,2019.08.09
CA 3054487 A1,2018.09.07
WO 20210 58523 A1,2021.04.01
CN 111500781 A,2020.08.07
CN 111334868 A,2020.0 6.26
张昕雨等.基于宏基因 组学分析构建诊断大
肠癌的肠道菌 群标签. 《上海交通大 学学报(医学
版)》 .2018,(第09期),
程福东等.宏基因 组样本数据的分析比较与
分类. 《生物技 术通报》 .2016,(第0 5期),
钮月英等.肺泡灌洗液宏基因二代测序技 术
对下呼吸道感 染病原体 检测的优势. 《中国实用
内科杂志》 .2020,(第09期),
丁啸等.一种基 于关联性特 征的宏基因 组测
序片段分装方法. 《科 学通报》 .2013,(第27期),
审查员 白立鹏
(54)发明名称
一种基于机器学习的背景菌判定方法
(57)摘要
本申请涉及生物信息学技术领域, 具体公开
一种采用机器学习的背景菌判定方法, 所述方法
可应用于临床血液样本等的背景菌预测, 在不影
响报告灵敏度的同时, 有效提升报告的特异性,
输出更接近临床诊断的结果。
权利要求书2页 说明书9页 附图11页
CN 114038501 B
2022.05.27
CN 114038501 B
1.一种基于 机器学习的测序数据背景菌判定方法, 其特 征在于, 包括如下步骤:
1) 获得样本特征数据步骤, 所述样本特征数据包括核酸提取浓度、 扩增效率、 宿主比例
和物种检出的标准 化序列数;
2) 模型训练步骤, 基于特 征数据采用随机森林模型进行模型训练;
3) 背景菌预测步骤。
2.权利要求1所述的基于 机器学习的测序数据背景菌判定方法, 其特 征在于,
所述1) 获得样本特 征数据的步骤为:
a、 湿实验阶段特征数据提取: 所述特征数据包括核酸提取环节核酸提取浓度及 建库环
节的扩增效率数据;
b、 生信分析阶段特征数据提取: 所述特征数据包括计算得到样本中宿主比例和样本 中
各微生物检出的标准 化序列数。
3.权利要求2所述的基于机器学习的测序数据背景菌判定方法, 其特征在于, 所述样本
特征数据需满足: 提取浓度>0.3ng/ul,扩增效率>0.2,宿主比例>0.95 。
4.权利要求1所述的基于 机器学习的测序数据背景菌判定方法, 其特 征在于,
所述2) 模型训练的步骤为:
a、 数据汇总及 预处理: 将训练集特征数据汇总为观测 ‑特征二维Table格式, 并对Reads
数进行对数转 化;
b、 对待预测病原列表中的每个物种, 选取不同检出频率的物种特征同其他特征一起进
行随机森林回归模型训练, 每次训练基于5折交叉验证选择R^2 最大值作为最佳变量数目进
而完成模型构建;
所述其他特征为核酸 提取浓度、 扩增效率和宿主比例。
5.权利要求4所述的基于机器学习的测序数据背景菌判定方法, 其特征在于, 所述检出
频率为5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%和
90%; 所述训练的次数为18次。
6.权利要求1所述的基于 机器学习的测序数据背景菌判定方法, 其特 征在于,
所述3) 背景菌预测的步骤为:
a、 基于步骤2) 采用不同频率物种特征重复构建的随机森林回归模型对样本检出背景
菌序列数进行 预测, 计算预测结果的平均值mean及标准差std;
b、 计算得到该物种的背景菌预测序列数阈值Cutoff=mean+2*st d, 如样本检出的实际
序列数超过阈值, 则判定为阳性, 否则判定为阴性。
7.权利要求1 ‑6任一所述的基于机器学习的测序 数据背景菌判定方法,其特征在于, 所
述测序数据来自一代、 二代或三代测序数据。
8.权利要求7所述的基于机器学习的测序数据背景菌判定方法, 其特征在于, 所述测序
数据来自NGS二代测序数据;
所述样本来自血 液、 脑脊液或灌洗液样本;
所述样本类型为宏基因 组测序样本 。
9.核酸提取浓度、 扩增效率、 宿主比例和物种检出的标准化序列数在测序数据背景菌
判定中的用途, 其特征在于, 所述用途 具体包括: 获取样本特征数据: 核酸提取浓度、 扩增效
率、 宿主比例和物种检出的标准化序列数; 针对特征数据采用随机森林模型进 行模型训练;权 利 要 求 书 1/2 页
2
CN 114038501 B
2基于训练结果进行背景菌预测。
10.一种基于 机器学习的测序数据背景菌判定模型, 其特 征在于, 包括如下模块:
1) 获得样本特征数据模块, 所述样本特征数据包括核酸提取浓度、 扩增效率、 宿主比例
和物种检出的标准 化序列数;
2) 模型训练模块, 基于步骤1) 特 征数据, 采用随机森林回归 模型进行模型训练;
3) 背景菌预测模块。
11.一种电子设备, 其特征在于, 包括: 处理器和存储器; 所述处理器和存储器相连, 其
中, 所述存储器用于存储计算机程序, 所述处理器用于调用所述计算机程序, 以执行如权利
要求1‑8任一项所述的方法。
12.一种计算机存储介质, 其特征在于, 所述计算机存储介质存储有计算机程序, 所述
计算机程序包括程序指 令, 所述程序指 令当被处理器执行时, 执行如权利要求 1‑8任一项所
述的方法。权 利 要 求 书 2/2 页
3
CN 114038501 B
3
专利 一种基于机器学习的背景菌判定方法
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:14:27上传分享