专利 基于集成学习的嗜热蛋白的识别方法、存储介质及设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111517151.0 (22)申请日 2021.12.13 (71)申请人电子科技大学长三角研究院（衢州）地址 324000 浙江省衢州市柯城区芹江东路288号1幢18楼 (72)发明人邹权　李静　丁漪杰　 (74)专利代理机构哈尔滨市松花江专利商标事务所 23109 代理人张换男 (51)Int.Cl. G16B 15/20(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称基于集成学习的嗜热蛋白的识别方法、存储介质及设备 (57)摘要基于集成学习的嗜热蛋白的识别方法、存储介质及设备，属于蛋白质识别技术和计算机技术交叉领域。为了解决目前的嗜热蛋白的识别方法的识别精度还有待于提高的问题。本发明首先获取待处理的嗜热蛋白数据，并提取嗜热蛋白数据集的数据特征，利用嗜热蛋白的分类模型进行识别；在嗜热蛋白的分类模型的构建过程中，采用M 种特征提取方法提取嗜热蛋白数据集的数据特征，采用MRMD算法分别对每个特征文件中的特征进行特征选择，得到特征与实例类别具有相关性的特征子集；引入个机器学习算法与选择后的特征子集进行结合以生成基分类器；然后对基分类器进行筛选并进行集成，通过投票法生成最终的分类结果，进而确定分类模型。主要用于嗜热蛋白的识别。权利要求书2页说明书7页附图1页 CN 113971985 A 2022.01.25 CN 113971985 A 1.基于集成学习的嗜热蛋白的识别方法，其特征在于，包括以下步骤：首先获取待处理的嗜热蛋白数据，采用M种特征提取方法提取嗜热蛋白数据集的数据特征，生成M个特征文件；然后利用嗜热蛋白的分类模型进行识别；所述的嗜热蛋白的分类模型的构建过程包括以下步骤： S1、获取嗜热蛋白数据集； S2、采用M种特征提取方法提取嗜热蛋白数据集的数据特征，生成M个特征文件； S3、采用MRMD算法分别对每个特征文件中的特征进行特征选择，得到特征与实例类别具有相关性的特征子集； S4、引入N个机器学习算法与步骤S3生成的选择后的特征子集进行结合以生成M*N个基分类器； S5、对步骤4中生成的基分类器进行筛选，选取分类准确率在准确率阈值以上的基分类器，然后对基分类器进行集成通过投票法生成最终的分类结果，进而确定分类模型，即得到了嗜热蛋白的分类模型。 2.根据权利要求1所述基于集成学习的嗜热蛋白的识别方法，其特征在于，所述的准确率阈值为80％。 3.根据权利要求2所述基于集成学习的嗜热蛋白的识别方法，其特征在于， S5 中集成基分类器是采用投票的方式进行，筛选出分类结果在准确率阈值以上的基分类器；如果某一个特征文件全部小于准确率阈值，则放弃该特征文件生成的全部基分类器；即：选取分类准确率在准确率阈值以上的基分类器数量为N'， N'≤N。 4.根据权利要求3所述基于集成学习的嗜热蛋白的识别方法，其特征在于，对基分类器进行集成通过投票法生成最终的分类结果，进而确定分类模型过程中，选取分类准确率在准确率阈值以上的基分类器数量为N'，每一个基分类器对一个单独的样本都有一个分类结果，如果预测为正样本，则记为1；如果预测为负样本，则记为0，对上述的N'个标签求和，如果结果大于等于则该样本的最终标签为1，否则为0；表示向下取整。 5.根据权利要求4所述基于集成学习的嗜热蛋白的识别方法，其特征在于， S2所述的多种特征提取方法包括CKSAAGP、 AAC、 CKSAAP、 CTPC、 GAAC、 GTPC、 GDPC、 CTDC、 DDE、 DPC、 CTDT、 KSCTRIAD和TPC 。 6.根据权利要求5所述基于集成学习的嗜热蛋白的识别方法，其特征在于，所述的机器学习算法包括Bays Net、 Random Forest、 Decision tree J4.8、 Baggin g meta learning、 Logistic function、 Multiclass classifier、 Classification via Regression和支持向量机。 7.根据权利要求1至6之一所述基于集成学习的嗜热蛋白的识别方法，其特征在于，采用MRMD算法分别对每个特征文件中的特征进行特征选择的过程中， MRMD算法用皮尔逊系数表征特征与实例数据间的相关性。 8.根据权利要求7所述基于集成学习的嗜热蛋白的识别方法，其特征在于，所述MRMD算法的具体处理过程包括以下步骤：对特征集进行特征选择的依据为max(MRi+MDi)，其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数， MDi表示第i个circRNA实例特征之间的欧式距离，其中maxMRi值的计算公式如下：权　利　要　求　书 1/2 页 2 CN 113971985 A 2maxMDi值的计算公式如下：其中PCC( ·)表示皮尔逊系数， Fi表示第i个circRNA实例的特征向量， Ci表示第i个 circRNA实例的类别向量， M表示circRNA实例的特征维数， SFiCi表示Fi中所有元素和Ci中所有元素的协方差， SFi表示Fi中所有元素的标准差， SCi表示Ci中所有元素的标准差， fk表示Fi 中的第k个元素， ck表示Ci中的第k个元素， N为Fi和Ci中的元素数量，为Fi中所有元素的平均值，为Ci中所有元素的平均值， EDi表示第i个circRNA实例特征之间的Euclidean距离， COSi表示第i个circRNA实例特征之间的Cosine距离， T Ci表示第i个circRNA实例特征之间的 Tanimoto系数。 9.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。 10.基于集成学习的嗜热蛋白的识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。权　利　要　求　书 2/2 页 3 CN 113971985 A 3

专利 基于集成学习的嗜热蛋白的识别方法、存储介质及设备

专利基于集成学习的嗜热蛋白的识别方法、存储介质及设备