说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111517151.0 (22)申请日 2021.12.13 (71)申请人 电子科技大 学长三角研究院 (衢州) 地址 324000 浙江省衢州市柯 城区芹江东 路288号1幢18楼 (72)发明人 邹权 李静 丁漪杰  (74)专利代理 机构 哈尔滨市松花江专利商标事 务所 23109 代理人 张换男 (51)Int.Cl. G16B 15/20(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于集成学习的嗜热蛋白的识别方法、 存储 介质及设备 (57)摘要 基于集成学习的嗜热蛋白的识别方法、 存储 介质及设备, 属于蛋白质识别技术和计算机技术 交叉领域。 为了解决目前的嗜热蛋白的识别方法 的识别精度还有待于提高的问题。 本发明首先获 取待处理的嗜热蛋白数据, 并提取嗜热蛋白数据 集的数据特征, 利用嗜热蛋白的分类模型进行识 别; 在嗜热蛋白的分类模 型的构建过程中, 采用M 种特征提取方法提取嗜热蛋白数据集的数据特 征, 采用MRMD算法分别对每个特征文件中的特征 进行特征选择, 得到特征与实例类别具有相关性 的特征子集; 引入个机器学习算法与选择后的特 征子集进行结合以生成基分类器; 然后对基分类 器进行筛选并进行集成, 通过投票法生成最终的 分类结果, 进而确定分类模型。 主要用于嗜热蛋 白的识别。 权利要求书2页 说明书7页 附图1页 CN 113971985 A 2022.01.25 CN 113971985 A 1.基于集成学习的嗜热蛋白的识别方法, 其特 征在于, 包括以下步骤: 首先获取待处理的嗜热蛋白数据, 采用M种特征提取方法提取嗜热蛋白数据集的数据 特征, 生成M个特 征文件; 然后利用嗜热蛋白的分类模型进行识别; 所述的嗜热蛋白的分类模型的构建过程包括以下步骤: S1、 获取嗜热蛋白数据集; S2、 采用M种特 征提取方法提取嗜热蛋白数据集的数据特 征, 生成M个特 征文件; S3、 采用MRMD算法分别对每个特征文件中的特征进行特征选择, 得到特征与实例类别 具有相关性的特 征子集; S4、 引入N个机器学习算法与 步骤S3生成的选择后的特征子集进行结合以生成M*N个基 分类器; S5、 对步骤4中生成的基分类器进行筛选, 选取分类准确率在准确率阈值以上的基分类 器, 然后对基分类器进 行集成通过投票法生成最 终的分类结果, 进而确定 分类模型, 即得到 了嗜热蛋白的分类模型。 2.根据权利要求1所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 所述的准确 率阈值为80%。 3.根据权利要求2所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, S5 中集成基 分类器是采用投票的方式进行, 筛选出分类结果在准确 率阈值以上 的基分类器; 如果某一 个特征文件全部小于准确率阈值, 则放弃该特征文件生成的全部基分类器; 即: 选取分类准 确率在准确率阈值以上的基分类 器数量为N', N'≤N。 4.根据权利要求3所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 对基分类器 进行集成通过投票法生成最终的分类结果, 进而确定分类模型过程中, 选取分类准确 率在 准确率阈值以上的基分类器数量为N', 每一个基分类器对一个单独的样本都有一个分类结 果, 如果预测为正样本, 则记为1; 如果预测为负样本, 则记为0, 对上述的N'个标签求和, 如 果结果大于等于 则该样本的最终标签为1, 否则为0; 表示向下 取整。 5.根据权利要求4所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, S2所述的多 种特征提取方法包括CKSAAGP、 AAC、 CKSAAP、 CTPC、 GAAC、 GTPC、 GDPC、 CTDC、 DDE、 DPC、 CTDT、 KSCTRIAD和TPC 。 6.根据权利要求5所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 所述的机器 学习算法包括Bays  Net、 Random  Forest、 Decision  tree J4.8、 Baggin g meta learning、 Logistic  function、 Multiclass  classifier、 Classification  via Regression和支持向 量机。 7.根据权利要求1至6之一所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 采 用MRMD算法分别对每个特征文件中的特征进 行特征选择的过程中, MRMD算法用皮尔逊系数 表征特征与实例数据间的相关性。 8.根据权利要求7所述基于集成学习的嗜热蛋白的识别方法, 其特征在于, 所述MRMD算 法的具体处 理过程包括以下步骤: 对特征集进行特征选择的依据为max(MRi+MDi), 其中MRi表示第i个circRNA实例类别与 特征之间的皮尔逊系数, MDi表示第i个circRNA实例特征之间的欧式距离, 其 中maxMRi值的 计算公式如下:权 利 要 求 书 1/2 页 2 CN 113971985 A 2maxMDi值的计算公式如下: 其中PCC( ·)表示皮尔逊系数, Fi表示第i个circRNA实例的特征向量, Ci表示第i个 circRNA实例的类别向量, M表示circRNA实例的特征维数, SFiCi表示Fi中所有元素和Ci中所 有元素的协方差, SFi表示Fi中所有元素的标准差, SCi表示Ci中所有元素的标准差, fk表示Fi 中的第k个元素, ck表示Ci中的第k个元素, N为Fi和Ci中的元素数量, 为Fi中所有元素的平 均值, 为Ci中所有元素的平均值, EDi表示第i个circRNA实例特征之间的Euclidean距离, COSi表示第i个circRNA实例特征 之间的Cosine距离, T Ci表示第i个circRNA实例特征 之间的 Tanimoto系数。 9.一种存储介质, 其特征在于, 所述存储介质中存储有至少一条指令, 所述至少一条指 令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识 别方法。 10.基于集成学习的嗜热蛋白的识别设备, 其特征在于, 所述设备包括处理器和存储 器, 所述存储器中存储有至少一条指令, 所述至少一条指令由处理器加载并执行以实现如 权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。权 利 要 求 书 2/2 页 3 CN 113971985 A 3

.PDF文档 专利 基于集成学习的嗜热蛋白的识别方法、存储介质及设备

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 第 1 页 专利 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 第 2 页 专利 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:17:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。