ICS11.100.10
CCSC30
中华人民共和国国家标准
GB/T45214—2025
人全基因组高通量测序数据质量评价方法
Dataqualityevaluationmethodofhumanwholegenomesequencing
2025-01-24发布 2026-02-01实施
国家市场监督管理总局
国家标准化管理委员会发布目 次
前言 Ⅲ …………………………………………………………………………………………………………
1 范围 1 ………………………………………………………………………………………………………
2 规范性引用文件 1 …………………………………………………………………………………………
3 术语和定义 1 ………………………………………………………………………………………………
4 缩略语 3 ……………………………………………………………………………………………………
5 质量要求 4 …………………………………………………………………………………………………
6 评价方法 6 …………………………………………………………………………………………………
附录A(资料性) 人基因组标准品信息 8 …………………………………………………………………
参考文献 9 ………………………………………………………………………………………………………
ⅠGB/T45214—2025
前 言
本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由国家药品监督管理局提出。
本文件由全国医用临床检验实验室和体外诊断系统标准化技术委员会(SAC/TC136)归口。
本文件起草单位:中国食品药品检定研究院、深圳华大智造科技股份有限公司、上海思路迪生物医
学科技有限公司、因美纳(中国)科学器材有限公司、中国科学院北京基因组研究所(国家生物信息中
心)、赛纳生物科技(北京)有限公司、深圳市海普洛斯生物科技有限公司、北京泛生子基因科技有限公
司、深圳铭毅智造科技有限公司、深圳华大基因股份有限公司、北京市医疗器械检验研究院(北京市医用
生物防护装备检验研究中心)、上海国际人类表型组研究院。
本文件主要起草人:李丽莉、赵霞、何庆仲、刘方芳、慈维敏、陈子天、陈实富、胡云富、伍建、彭继光、
陈芳、王瑞霞、石乐明、丁国徽、黄杰。
ⅢGB/T45214—2025
人全基因组高通量测序数据质量评价方法
1 范围
本文件界定了人全基因组高通量测序数据质量的术语和定义,规定了质量要求,描述了相应的评价
方法。
本文件适用于使用高通量基因测序技术对人类基因组DNA样本进行全基因组测序的数据质量
评价。
本文件不适用于双脱氧链终止法测序[Sanger(桑格)测序]技术和单分子测序技术,以及人体样本
的从头测序、单体型测序、人体肿瘤组织样本测序,也不适用于人类样本中含有的动物、植物、病毒、细
菌、寄生虫等测序。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
3.1
人全基因组高通量测序 humanwholegenomesequencing
对人类不同个体或群体进行全基因组测序。
注:包括人的23对染色体核酸序列、线粒体核酸序列。
3.2
文库 library
加上接头(已知序列的DNA片段)的待测序片段分子群。
注:通常按照是否依赖PCR扩增过程而构建,分成PCR文库(经过一定循环数的PCR扩增过程而构建的测序上机
文库)和PCR-free文库(不依赖PCR扩增过程而直接构建的测序上机文库)。
3.3
标签拆分率 barcodesplitrateorindexsplitrate
在多样本混合测序时,正确识别并分配标签的测序片段数占总测序片段数的百分比。
3.4
碱基识别质量百分比 percentageofbasecallquality
碱基识别质量在规定阈值以上的测序碱基个数占测序碱基总数的百分比。
注:通常以Q20、Q30等表示。
3.5
GC含量 GCcontent
测序片段碱基中鸟嘌呤(Guanine,G)和胞嘧啶(Cytosine,C)的加和数量占所有嘌呤碱基[腺嘌呤
(Adenine,A)和鸟嘌呤]和嘧啶碱基[胸腺嘧啶(Thymine,T)和胞嘧啶]总数量的百分比。
1GB/T45214—2025
3.6
数据过滤 datafiltering
对原始测序片段进行去除低质量、N碱基、接头污染及其他任何不符合下游分析要求的测序片段
的处理过程。
3.7
测序原始碱基数 sequencingrawbase
测序后未经数据过滤的碱基总数。
注:简称原始数据量。
3.8
人参考基因组序列 humanreferencegenomesequence
公开发布供参比的人全基因组序列。
示例:如hs37d5、hg38、hg19等。
3.9
基因组比对率 mappingreadsrate
比对到人参考基因组序列的测序片段占总体有效测序片段的百分比。
3.10
有效测序深度 effectivesequencingdepth
经过数据过滤、序列比对、去重后获得的一个全基因组测序样本的平均测序深度。计算方法用
式(1)表示为:
ESD=(TBNMGNR-TBNDSR)/TBNGNR………………………(1)
式中:
ESD ———有效测序深度,以×表示;
TBNMGNR———比对到基因组非N区域的总碱基数量,以bp表示;
TBNDSR———重复序列片段的总碱基数量,以bp表示;
TBNGNR———基因组非N区的总碱基数量,以bp表示。
3.11
碱基错配比率 basemismatchrate
与参考基因组序列不一致的碱基总数除以比对上参考基因组序列的碱基总数的百分比。
3.12
重复测序片段比率 duplicationrate
比对到参考序列的位置、方向及碱基序列均一致的测序片段总数除以比对上参考序列的测序片段
总数的百分比。
3.13
20×测序覆盖率 coveragerateofsequencingatleast20×
测序片段与参考基因组比对后,参考基因组上至少被测序片段覆盖20次的非N碱基数目占非N
碱基总数的百分比。
3.14
插入缺失变异 insertionanddeletion;InDel
基因组DNA中核苷酸插入/缺失片段长度小于或等于50bp的基因突变。
3.15
结构性变异 structuralvariation;SV
长度大于50bp的大片段发生序列变化和位置关系变化。
注:包括缺失、插入、重复、倒位、易位。
2GB/T45214—2025
GB-T 45214-2025 人全基因组高通量测序数据质量评价方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2025-07-18 03:53:53上传分享