专利 基于高通量测序的基因聚类数据预处理方法、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211093425.2 (22)申请日 2022.09.08 (71)申请人杭州联川生物技术股份有限公司地址 310018 浙江省杭州市杭州经济技术开发区6号大街26 0号16幢四层 (72)发明人方超　郎秋蕾　陈志锋　 (74)专利代理机构杭州信与义专利代理有限公司 33450 专利代理师万景旺 (51)Int.Cl. G16B 40/30(2019.01) G16B 30/00(2019.01) G06F 17/16(2006.01) (54)发明名称基于高通量测序的基因聚类数据预处理方法、设备及介质 (57)摘要本发明公开了一种基于高通量测序的基因聚类数据预处理方法，涉及基因聚类技术领域。包括以下步骤： S1，输入原始基因表达量矩阵； S2，并行计算两两基因之间的距离，并采用链表结构存储计算出的距离； S3，构建用于存储两两基因的距离的一维数组，并锚定每一距离在所述一维数组中的存储位置； S4，将计算出的距离按照锚定的位置依次输入到所述一维数组中。本发明在提高运行速度的基础上保证数据存放顺序与单线程运行结果的一致性，以便后续用于下游的聚类算法。权利要求书1页说明书6页附图1页 CN 115188421 A 2022.10.14 CN 115188421 A 1.一种基于高通量测序的基因聚类数据预处理方法，其特征在于，包括以下步骤： S1，输入原始基因表达量矩阵； S2，并行计算两两基因之间的距离，并采用链表结构存储计算出的距离； S3，构建用于存储两两基因的距离的一维数组，并锚定每一距离在所述一维数组中的存储位置； S4，将计算出的距离按照锚定的位置依次输入到所述一维数组中。 2.根据权利要求1所述的一种基于高通量测序的基因聚类数据预处理方法，其特征在于，所述原始基因表达量矩阵如下：其中，代表基因表达量矩阵，代表基因表达量，下标代表基因，下标代表样本。 3.根据权利要求2所述的一种基于高通量测序的基因聚类数据预处理方法，其特征在于，所述距离为曼哈顿距离或欧式距离。 4.根据权利要求3所述的一种基于高通量测序的基因聚类数据预处理方法，其特征在于，当所述距离为曼哈顿距离时，计算方法如下：其中，代表基因和基因之间的曼哈顿距离，代表第个样本的基因的基因表达量；代表第个样本的基因的基因表达量。 5.根据权利要求2或4所述的一种基于高通量测序的基因聚类数据预处理方法，其特征在于，锚定每一距离在所述一维数组中的存储位置的方法如下：其中，代表所述一维数组；代表基因和基因之间的曼哈顿距离；代表曼哈顿距离在一维数组中的位置；代表基因的总量。 6.根据权利要求1所述的一种基于高通量测序的基因聚类数据预处理方法，其特征在于，所述S4后还包括S5，将所述一维数组中作为下游的层次聚类算法的输入数据。 7.一种终端设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5 任意一项所述的基于高通量测序的基因聚类数据预处理方法。 8.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至 5任意一项所述的基于高通量测序的基因聚类数据预处理方法。权　利　要　求　书 1/1 页 2 CN 115188421 A 2基于高通量测序的基因聚类数据预处理方法、设备及介质技术领域 [0001]本发明涉及基因聚类技术领域，尤其涉及一种基于高通量测序的基因聚类数据预处理方法、设备及介质。背景技术 [0002]高通量测序（Next ‑generation sequencing， NGS）又称为高通量测序（High ‑ throughput sequencing），是基于PCR和基因芯片发展而来的边合成边测序技术。高通量测序技术的特点主要有：测序读长短，通量高，准确度高。高通量测序相比一代测序大幅降低了成本，同时保持了较高准确性，并且大幅降低了测序时间，目前高通量测序已经在全组学得到广泛应用。比如：有参转录组测序，重测序， DNA甲基化测序， m6A甲基化测序，单细胞测序等。 [0003]R语言是由Ross Ihaka和Robert Gentleman在1993年开发的一种编程语言， R拥有广泛的统计和图形方法目录。它包括机器学习算法、线性回归、时间序列、统计推理等。大多数R库都是用R编写的， R 语言是为数学研究工作者设计的一种数学编程语言，主要用于统计分析、绘图、数据挖掘。 R语言目前被大量应用在生物信息领域，特别是在高通量测序技术得到广泛使用的情况下，产生了海量的生物测序数据，生物信息学家们使用R语言进行数据分析和数据统计。 [0004]hclust函数是R语言内置的一个函数，主要是用来进行距离算法和聚类分析，该函数主要集成了以下几个距离算法：曼哈顿距离(manhattan distance)，欧氏距离 (euclidean distance)，马氏距离(mahal anobis distance)，闵科夫斯基距离(minkowski distance)，切比雪夫距离(chebyshev distance)和蓝氏距离(canberra distance)等。其中曼哈顿距离和欧氏距离是使用最为频繁的两种距离算法。然而曼哈顿距离和欧氏距离在处理常规大小数据的时候运行速度尚可，但是在运行如高通量测序产生的大数据时，特别是样本和基因数非常多的时候，可能会产生内存溢出和运行速度非常慢（只能单线程运行）的情况，对数据分析的速度和准确性造成了非常大的影响。发明内容 [0005]为了解决背景技术中提到的至少一个技术问题，本发明的目的在于提供一种基于高通量测序的基因聚类数据预处理方法、设备及介质，在提高运行速度的基础上保证数据存放顺序与单线程运行结果的一致性，以便后续用于下游的聚类算法。 [0006]为实现上述目的，本发明提供如下技术方案：一种基于高通量测序的基因聚类数据预处理方法，包括以下步骤： S1，输入原始基因表达量矩阵； S2，并行计算两两基因之间的距离，并采用链表结构存储计算出的距离； S3，构建用于存储两两基因的距离的一维数组，并锚定每一距离在所述一维数组中的存储位置；说　明　书 1/6 页 3 CN 115188421 A 3

专利 基于高通量测序的基因聚类数据预处理方法、设备及介质

专利基于高通量测序的基因聚类数据预处理方法、设备及介质