说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111517151.0 (22)申请日 2021.12.13 (71)申请人 电子科技大 学长三角研究院 (衢州) 地址 324000 浙江省衢州市柯 城区芹江东 路288号1幢18楼 (72)发明人 邹权 李静 丁漪杰 (74)专利代理 机构 哈尔滨市松花江专利商标事 务所 23109 代理人 张换男 (51)Int.Cl. G16B 15/20(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于集成学习的嗜热蛋白的识别方法、 存储 介质及设备 (57)摘要 基于集成学习的嗜热蛋白的识别方法、 存储 介质及设备, 属于蛋白质识别技术和计算机技术 交叉领域。 为了解决目前的嗜热蛋白的识别方法 的识别精度还有待于提高的问题。 本发明首先获 取待处理的嗜热蛋白数据, 并提取嗜热蛋白数据 集的数据特征, 利用嗜热蛋白的分类模型进行识 别; 在嗜热蛋白的分类模 型的构建过程中, 采用M 种特征提取方法提取嗜热蛋白数据集的数据特 征, 采用MRMD算法分别对每个特征文件中的特征 进行特征选择, 得到特征与实例类别具有相关性 的特征子集; 引入个机器学习算法与选择后的特 征子集进行结合以生成基分类器; 然后对基分类 器进行筛选并进行集成, 通过投票法生成最终的 分类结果, 进而确定分类模型。 主要用于嗜热蛋 白的识别。 权利要求书2页 说明书7页 附图1页 CN 113971985 A 2022.01.25 CN 113971985 A 1.基于集成学习的嗜热蛋白的识别方法, 其特 征在于, 包括以下步骤: 首先获取待处理的嗜热蛋白数据, 采用M种特征提取方法提取嗜热蛋白数据集的数据 特征, 生成M个特 征文件; 然后利用嗜热蛋白的分类模型进行识别; 所述的嗜热蛋白的分类模型的构建过程包括以下步骤: S1、 获取嗜热蛋白数据集; S2、 采用M种特 征提取方法提取嗜热蛋白数据集的数据特 征, 生成M个特 征文件; S3、 采用MRMD算法分别对每个特征文件中的特征进行特征选择, 得到特征与实例类别 具有相关性的特 征子集; S4、 引入N个机器学习算法与 步骤S3生成的选择后的特征子集进行结合以生成M*N个基 分类器; S5、 对步骤4中生成的基分类器进行筛选, 选取分类准确率在准确率阈值以上的基分类 器, 然后对基分类器进 行集成通过投票法生成最 终的分类结果, 进而确定 分类模型, 即得到 了嗜热蛋白的分类模型。 2.根据权利要求1所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 所述的准确 率阈值为80%。 3.根据权利要求2所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, S5 中集成基 分类器是采用投票的方式进行, 筛选出分类结果在准确 率阈值以上 的基分类器; 如果某一 个特征文件全部小于准确率阈值, 则放弃该特征文件生成的全部基分类器; 即: 选取分类准 确率在准确率阈值以上的基分类 器数量为N', N'≤N。 4.根据权利要求3所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 对基分类器 进行集成通过投票法生成最终的分类结果, 进而确定分类模型过程中, 选取分类准确 率在 准确率阈值以上的基分类器数量为N', 每一个基分类器对一个单独的样本都有一个分类结 果, 如果预测为正样本, 则记为1; 如果预测为负样本, 则记为0, 对上述的N'个标签求和, 如 果结果大于等于 则该样本的最终标签为1, 否则为0; 表示向下 取整。 5.根据权利要求4所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, S2所述的多 种特征提取方法包括CKSAAGP、 AAC、 CKSAAP、 CTPC、 GAAC、 GTPC、 GDPC、 CTDC、 DDE、 DPC、 CTDT、 KSCTRIAD和TPC 。 6.根据权利要求5所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 所述的机器 学习算法包括Bays Net、 Random Forest、 Decision tree J4.8、 Baggin g meta learning、 Logistic function、 Multiclass classifier、 Classification via Regression和支持向 量机。 7.根据权利要求1至6之一所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 采 用MRMD算法分别对每个特征文件中的特征进 行特征选择的过程中, MRMD算法用皮尔逊系数 表征特征与实例数据间的相关性。 8.根据权利要求7所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 所述MRMD算 法的具体处 理过程包括以下步骤: 对特征集进行特征选择的依据为max(MRi+MDi), 其中MRi表示第i个circRNA实例类别与 特征之间的皮尔逊系数, MDi表示第i个circRNA实例特征之间的欧式距离, 其 中maxMRi值的 计算公式如下:权 利 要 求 书 1/2 页 2 CN 113971985 A 2maxMDi值的计算公式如下: 其中PCC( ·)表示皮尔逊系数, Fi表示第i个circRNA实例的特征向量, Ci表示第i个 circRNA实例的类别向量, M表示circRNA实例的特征维数, SFiCi表示Fi中所有元素和Ci中所 有元素的协方差, SFi表示Fi中所有元素的标准差, SCi表示Ci中所有元素的标准差, fk表示Fi 中的第k个元素, ck表示Ci中的第k个元素, N为Fi和Ci中的元素数量, 为Fi中所有元素的平 均值, 为Ci中所有元素的平均值, EDi表示第i个circRNA实例特征之间的Euclidean距离, COSi表示第i个circRNA实例特征 之间的Cosine距离, T Ci表示第i个circRNA实例特征 之间的 Tanimoto系数。 9.一种存储介质, 其特征在于, 所述存储介质中存储有至少一条指令, 所述至少一条指 令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识 别方法。 10.基于集成学习的嗜热蛋白的识别设备, 其特征在于, 所述设备包括处理器和存储 器, 所述存储器中存储有至少一条指令, 所述至少一条指令由处理器加载并执行以实现如 权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。权 利 要 求 书 2/2 页 3 CN 113971985 A 3
专利 基于集成学习的嗜热蛋白的识别方法、存储介质及设备
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 23:17:16
上传分享
举报
下载
原文档
(680.0 KB)
分享
友情链接
GB-T 18916.10-2021 取水定额 第10部分:化学制药产品.pdf
GB-T 22080-XXXX ISO IEC 27001 2022 信息安全技术 信息安全管理体系 要求.pdf
GB-T 25173-2010 水域纳污能力计算规程.pdf
GB-T 29766-2021 信息安全技术 网站数据恢复产品技术要求与测试评价方法.pdf
GB-T 18348-2022 商品条码 条码符号印制质量的检验.pdf
GB 9706.226-2021 医用电气设备 第2-26部分:脑电图机的基本安全和基本性能专用要求.pdf
QC-T 51-2019 扫路车.pdf
GM-T 0020-2023 证书应用综合服务接口规范.pdf
GB-T 28521-2012 通信局站用智能新风节能系统.pdf
YD-T 3907.3-2021 基于BB84协议的量子密钥分发(QKD)用关键器件和模块 第3部分:量子随机数发生器(QRNG).pdf
GB-T 1151-2023 内燃机 主轴瓦及连杆轴瓦 技术条件.pdf
美创 数据安全解决方案简介.pdf
GB 16669-2010 二氧化碳灭火系统及部件通用技术条件.pdf
GB-T 41864-2022 信息技术 计算机视觉 术语.pdf
GB-T 26603-2011 N,N-二甲基苯胺.pdf
AI安全白皮书 华为.pdf
证券研究报告 - 2023.1.20 - 从CHAT_GPT到生成式AI(Generative+AI):人工智能新范式,重新定义生产力.pdf
T-CEC 699—2022 换电式纯电动重型卡车电池箱连接器.pdf
DB34-T 3176-2018 公路水运工程预应力孔道数控压浆施工技术规程 安徽省.pdf
专利 隐私计算、隐私数据和联邦学习的互联互通方法及装置.PDF
1
/
3
11
评价文档
赞助2.5元 点击下载(680.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。