(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211093425.2 (22)申请日 2022.09.08 (71)申请人 杭州联川生物技 术股份有限公司 地址 310018 浙江省杭州市杭州经济技 术 开发区6号大街26 0号16幢四层 (72)发明人 方超 郎秋蕾 陈志锋  (74)专利代理 机构 杭州信与义专利代理有限公 司 33450 专利代理师 万景旺 (51)Int.Cl. G16B 40/30(2019.01) G16B 30/00(2019.01) G06F 17/16(2006.01) (54)发明名称 基于高通量测序的基因聚类数据预处理方 法、 设备及 介质 (57)摘要 本发明公开了一种基于高通量测序的基因 聚类数据预处理方法, 涉及基因聚类技术领域。 包括以下步骤: S1, 输入原始基因表达量矩阵; S2, 并行计算两两基因之间的距离, 并采用链表 结构存储计算出的距离; S3, 构建用于存储两两 基因的距离的一维数组, 并锚定每一距离在所述 一维数组中的存储位置; S4, 将计算出的距离按 照锚定的位置依次输入到所述一维数组中。 本发 明在提高运行速度的基础上保证数据存放顺序 与单线程运行结果的一致性, 以便后续用于下游 的聚类算法。 权利要求书1页 说明书6页 附图1页 CN 115188421 A 2022.10.14 CN 115188421 A 1.一种基于高通 量测序的基因聚类数据预处 理方法, 其特 征在于, 包括以下步骤: S1, 输入原 始基因表达量矩阵; S2, 并行计算两 两基因之间的距离, 并采用链 表结构存 储计算出的距离; S3, 构建用于存储两两基因的距离的一维数组, 并锚定每一距离在所述一维数组中的 存储位置; S4, 将计算出的距离按照锚定的位置依次输入到所述 一维数组中。 2.根据权利要求1所述的一种基于高通量测序的基因聚类数据预处理方法, 其特征在 于, 所述原 始基因表达量矩阵如下: 其中, 代表基因表达量矩阵, 代表基因表达量, 下 标 代表基因, 下 标 代表样本。 3.根据权利要求2所述的一种基于高通量测序的基因聚类数据预处理方法, 其特征在 于, 所述距离为曼哈顿距离或欧式距离 。 4.根据权利要求3所述的一种基于高通量测序的基因聚类数据预处理方法, 其特征在 于, 当所述距离为曼哈顿距离时, 计算方法如下: 其中, 代表基因 和基因 之间的曼哈顿距离, 代表第 个样本的基因 的 基因表达量; 代表第 个样本的基因 的基因表达量。 5.根据权利要求2或4所述的一种基于高通量测序的基因聚类数据 预处理方法, 其特征 在于, 锚定每一距离在所述 一维数组中的存 储位置的方法如下: 其中, 代表所述一维数组; 代表基因 和基因 之间的曼哈顿距 离; 代表曼哈顿距离 在一维数组 中的位置; 代表基因的总量。 6.根据权利要求1所述的一种基于高通量测序的基因聚类数据预处理方法, 其特征在 于, 所述S4后还 包括S5, 将所述 一维数组中作为下游的层次聚类算法的输入数据。 7.一种终端设备, 包括存储器、 处理器以及存储在所述存储器上并可在所述处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至5 任意一项所述的基于高通 量测序的基因聚类数据预处 理方法。 8.一种计算机存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执行时 实现如权利要求1至 5任意一项所述的基于高通 量测序的基因聚类数据预处 理方法。权 利 要 求 书 1/1 页 2 CN 115188421 A 2基于高通量测序的基因聚类数据预处理 方法、 设备及介质 技术领域 [0001]本发明涉及基 因聚类技术领域, 尤其涉及 一种基于高通量测序的基因聚类数据预 处理方法、 设备及 介质。 背景技术 [0002]高通量测序 (Next ‑generation  sequencing, NGS) 又称为高通量测序 (High ‑ throughput  sequencing) , 是基于PCR和基因芯片发展而来的边合成边测序技术。 高通量测 序技术的特点主要有: 测序读长短, 通量高, 准确度高。 高通量测序相比一代测序大幅降低 了成本, 同时保持了较高准确性, 并且 大幅降低了测序时间, 目前高通量测序已经在 全组学 得到广泛应用。 比如: 有参转录组测序, 重测序, DNA甲基化测序, m6A甲基化测序, 单细胞测 序等。 [0003]R语言是由Ross  Ihaka和Robert  Gentleman在1993年开 发的一种编程语言, R拥有 广泛的统计和图形方法目录。 它包括机器学习算法、 线性回归、 时间序列、 统计推理等。 大多 数R库都是用R编写的, R  语言是为数学研究工作者设计的一种数学编程语言, 主要用于统 计分析、 绘图、 数据挖掘。 R语 言目前被大量应用在生物信息领域, 特别是在高通量测序技术 得到广泛使用的情况下, 产生了海量的生物测序数据, 生物信息学家们使用R语言进 行数据 分析和数据统计。 [0004]hclust函数是R语言 内置的一个函数, 主要是用来进行距离算法和聚类分析, 该函 数主要集成了以下几个距离算法: 曼哈顿距离(manhattan  distance), 欧氏距离 (euclidean  distance), 马氏距离(mahal anobis distance), 闵科夫斯基距离(minkowski   distance), 切比雪夫距离(chebyshev  distance)和蓝氏距离(canberra  distance)等。 其 中曼哈顿距离和欧氏距离是使用最为频繁的两种距离算法。 然而 曼哈顿距离和欧氏距离在 处理常规大小数据的时候运行速度尚可, 但是在运行如高通量测序产生的大数据时, 特别 是样本和基因数非常多的时候, 可能会产生内存溢出和运行速度非常慢 (只能单线程运行) 的情况, 对数据分析的速度和准确性造成了非常大的影响。 发明内容 [0005]为了解决背景技术中提到的至少一个技术问题, 本发明的目的在于提供一种基于 高通量测序的基因聚类数据预处理方法、 设备及介质, 在提高运行速度的基础上保证数据 存放顺序与单线程 运行结果的一 致性, 以便后续用于下游的聚类算法。 [0006]为实现上述目的, 本发明提供如下技 术方案: 一种基于高通 量测序的基因聚类数据预处 理方法, 包括以下步骤: S1, 输入原 始基因表达量矩阵; S2, 并行计算两 两基因之间的距离, 并采用链 表结构存 储计算出的距离; S3, 构建用于存储两两基因的距离 的一维数组, 并锚定每一距离在所述一维数组 中的存储位置;说 明 书 1/6 页 3 CN 115188421 A 3

.PDF文档 专利 基于高通量测序的基因聚类数据预处理方法、设备及介质

安全报告 > 其他 > 文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于高通量测序的基因聚类数据预处理方法、设备及介质 第 1 页 专利 基于高通量测序的基因聚类数据预处理方法、设备及介质 第 2 页 专利 基于高通量测序的基因聚类数据预处理方法、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-03-03 20:13:35上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。