(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211093425.2
(22)申请日 2022.09.08
(71)申请人 杭州联川生物技 术股份有限公司
地址 310018 浙江省杭州市杭州经济技 术
开发区6号大街26 0号16幢四层
(72)发明人 方超 郎秋蕾 陈志锋
(74)专利代理 机构 杭州信与义专利代理有限公
司 33450
专利代理师 万景旺
(51)Int.Cl.
G16B 40/30(2019.01)
G16B 30/00(2019.01)
G06F 17/16(2006.01)
(54)发明名称
基于高通量测序的基因聚类数据预处理方
法、 设备及 介质
(57)摘要
本发明公开了一种基于高通量测序的基因
聚类数据预处理方法, 涉及基因聚类技术领域。
包括以下步骤: S1, 输入原始基因表达量矩阵;
S2, 并行计算两两基因之间的距离, 并采用链表
结构存储计算出的距离; S3, 构建用于存储两两
基因的距离的一维数组, 并锚定每一距离在所述
一维数组中的存储位置; S4, 将计算出的距离按
照锚定的位置依次输入到所述一维数组中。 本发
明在提高运行速度的基础上保证数据存放顺序
与单线程运行结果的一致性, 以便后续用于下游
的聚类算法。
权利要求书1页 说明书6页 附图1页
CN 115188421 A
2022.10.14
CN 115188421 A
1.一种基于高通 量测序的基因聚类数据预处 理方法, 其特 征在于, 包括以下步骤:
S1, 输入原 始基因表达量矩阵;
S2, 并行计算两 两基因之间的距离, 并采用链 表结构存 储计算出的距离;
S3, 构建用于存储两两基因的距离的一维数组, 并锚定每一距离在所述一维数组中的
存储位置;
S4, 将计算出的距离按照锚定的位置依次输入到所述 一维数组中。
2.根据权利要求1所述的一种基于高通量测序的基因聚类数据预处理方法, 其特征在
于, 所述原 始基因表达量矩阵如下:
其中,
代表基因表达量矩阵,
代表基因表达量, 下 标
代表基因, 下 标
代表样本。
3.根据权利要求2所述的一种基于高通量测序的基因聚类数据预处理方法, 其特征在
于, 所述距离为曼哈顿距离或欧式距离 。
4.根据权利要求3所述的一种基于高通量测序的基因聚类数据预处理方法, 其特征在
于, 当所述距离为曼哈顿距离时, 计算方法如下:
其中,
代表基因
和基因
之间的曼哈顿距离,
代表第
个样本的基因
的
基因表达量;
代表第
个样本的基因
的基因表达量。
5.根据权利要求2或4所述的一种基于高通量测序的基因聚类数据 预处理方法, 其特征
在于, 锚定每一距离在所述 一维数组中的存 储位置的方法如下:
其中,
代表所述一维数组;
代表基因
和基因
之间的曼哈顿距
离;
代表曼哈顿距离
在一维数组
中的位置;
代表基因的总量。
6.根据权利要求1所述的一种基于高通量测序的基因聚类数据预处理方法, 其特征在
于, 所述S4后还 包括S5, 将所述 一维数组中作为下游的层次聚类算法的输入数据。
7.一种终端设备, 包括存储器、 处理器以及存储在所述存储器上并可在所述处理器上
运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至5
任意一项所述的基于高通 量测序的基因聚类数据预处 理方法。
8.一种计算机存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执行时
实现如权利要求1至 5任意一项所述的基于高通 量测序的基因聚类数据预处 理方法。权 利 要 求 书 1/1 页
2
CN 115188421 A
2基于高通量测序的基因聚类数据预处理 方法、 设备及介质
技术领域
[0001]本发明涉及基 因聚类技术领域, 尤其涉及 一种基于高通量测序的基因聚类数据预
处理方法、 设备及 介质。
背景技术
[0002]高通量测序 (Next ‑generation sequencing, NGS) 又称为高通量测序 (High ‑
throughput sequencing) , 是基于PCR和基因芯片发展而来的边合成边测序技术。 高通量测
序技术的特点主要有: 测序读长短, 通量高, 准确度高。 高通量测序相比一代测序大幅降低
了成本, 同时保持了较高准确性, 并且 大幅降低了测序时间, 目前高通量测序已经在 全组学
得到广泛应用。 比如: 有参转录组测序, 重测序, DNA甲基化测序, m6A甲基化测序, 单细胞测
序等。
[0003]R语言是由Ross Ihaka和Robert Gentleman在1993年开 发的一种编程语言, R拥有
广泛的统计和图形方法目录。 它包括机器学习算法、 线性回归、 时间序列、 统计推理等。 大多
数R库都是用R编写的, R 语言是为数学研究工作者设计的一种数学编程语言, 主要用于统
计分析、 绘图、 数据挖掘。 R语 言目前被大量应用在生物信息领域, 特别是在高通量测序技术
得到广泛使用的情况下, 产生了海量的生物测序数据, 生物信息学家们使用R语言进 行数据
分析和数据统计。
[0004]hclust函数是R语言 内置的一个函数, 主要是用来进行距离算法和聚类分析, 该函
数主要集成了以下几个距离算法: 曼哈顿距离(manhattan distance), 欧氏距离
(euclidean distance), 马氏距离(mahal anobis distance), 闵科夫斯基距离(minkowski
distance), 切比雪夫距离(chebyshev distance)和蓝氏距离(canberra distance)等。 其
中曼哈顿距离和欧氏距离是使用最为频繁的两种距离算法。 然而 曼哈顿距离和欧氏距离在
处理常规大小数据的时候运行速度尚可, 但是在运行如高通量测序产生的大数据时, 特别
是样本和基因数非常多的时候, 可能会产生内存溢出和运行速度非常慢 (只能单线程运行)
的情况, 对数据分析的速度和准确性造成了非常大的影响。
发明内容
[0005]为了解决背景技术中提到的至少一个技术问题, 本发明的目的在于提供一种基于
高通量测序的基因聚类数据预处理方法、 设备及介质, 在提高运行速度的基础上保证数据
存放顺序与单线程 运行结果的一 致性, 以便后续用于下游的聚类算法。
[0006]为实现上述目的, 本发明提供如下技 术方案:
一种基于高通 量测序的基因聚类数据预处 理方法, 包括以下步骤:
S1, 输入原 始基因表达量矩阵;
S2, 并行计算两 两基因之间的距离, 并采用链 表结构存 储计算出的距离;
S3, 构建用于存储两两基因的距离 的一维数组, 并锚定每一距离在所述一维数组
中的存储位置;说 明 书 1/6 页
3
CN 115188421 A
3
专利 基于高通量测序的基因聚类数据预处理方法、设备及介质
安全报告 >
其他 >
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:13:35上传分享