张成岗(CZ)的博客世界分享 http://blog.sciencenet.cn/u/zcgweb 脑损伤与脑保护;神经认知;生物信息;蛋白质组;辐射损伤与防护

博文

[转载]人类参考基因组GRCh37 VS GRCh38

已有 9679 次阅读 2021-4-2 11:55 |系统分类:科研笔记|文章来源:转载

https://zhuanlan.zhihu.com/p/112592962 

人类参考基因组GRCh37 VS GRCh38

点墨先生

点墨先生

公众号:点墨先生

关注他

17 人赞同了该文章

人类基因组包括22条常染色体(1-22),2条性染色体(X,Y)和线粒体DNA(mtDNA)。高通量测序的reads比对至参考基因组是后续数据分析的基础。因此,参考基因组的质量是至关重要的。目前,广泛使用的版本是GRCH37和GRCH38。2009年,the Genome Reference Consortium (GRC)发布了第19版人类基因组GRCH37,也常被称为hg19。GRCH37被广泛应用于数据分析。2013年,GRC发布了GRCH38。但由于注释工具、数据库的不健全及升级基因组工作繁杂,时至今日,GRCH37仍被相当程度地使用。

根据GRC的官方文件,GRCH38是最精确的人类基因组。GRCH38基于金标准Sanger测序组装,读长约为1000bp,精确度是高通量测序的10倍。与GRCH37相比,GRCH38替换了8000个等位基因位点,校正了数个组装错误的基因组区域,补全了gap,添加了着丝粒序列,在178个区域组装了261条alternate loci,丰富了基因组的多样性

已发表的论文认为GRCH38是GRCH37的重大升级,可提供更精确的生物信息学和基因组学分析。我们设计了实验量化基于GRCH38和GRCH37的数据分析差异。

结果




不算线粒体DNA,GRCH37 和GRCH38分别有3095677412和3088269832个核苷酸。最常用的线粒体基因组是1999年剑桥发布的rCRS,因此两者线粒体基因组是一样的。在基因组fasta文件中,’N’表示gap或者未注释区域,GRCH37共有234350281个‘N’,而GRCH38中有150630719个,减少了83719562个,占比35.7%。从表1中看出,每条染色体上的‘N’数量都有减少。有文献研究表明GC含量影响Illumina测序深度及测序均一性,这与后续的CNV检测密切相关。GC位点的总数从GRCH37的1170371008增加到GRCH38的1200551672,共计增加了30180664个核苷酸。

外显子可以编码氨基酸,是人类基因组最重要的组成部分。从Ensembl (GRCh37 v37.75, GRCh38 v38.82)下载最新的Gene Feature Format (GTF)文件统计外显子区域。外显子区域由GRCH37的75231228个核苷酸增加到GRCH38的95505476个,约有26.9%的增幅。从全基因组水平看,外显子占比由2.43%增至3.09%。外显子区域扩大的主要原因有3个:i.在GRCH38中,外显子的总数从327058个增加到457748个;ii.每个基因的外显子数从13个增加到19个;iii.每个外显子核苷酸的中位数从140增加到146。

我们分别用GRCH38和GRCH37分析了30个WES样本,然后从染色体统计、比对、SNV、indel、CNV和SV等多个维度比较了分析结果差异。

比对是高通量测序数据分析中非常重要的一步。总有部分reads无法比对至参考基因组,有论文指出改进基因组可以提高比对率。从图2看出,30个WES样本的比对率都得到了提高,提高均值为0.0017%。外显子区域的比对率明显提高,约为3.22%,主要原因是外显子区域扩大,相应地内含子的比对率降低了2.70%。

使用GRCH37时,检测到4656461个SNV,GRCH38时只有4617859个。这表明,改进后的GRCH38产生更少的假阳性SNVs。非同义变异是我们关注的重点,虽SNV总数变少,但GRCH38比GRCH37多了22622个非同义变异,主要原因是外显子区域增加。使用LiftOver 转化参考基因基因组坐标后显示,两种基因组中93%SNV和88%indel是一致的,且质量值和覆盖度并无差异。

GRCH37检测到3702个CNV,GRCH38检测到3732个。其中,88.4%CNV是一致的。两种基因组都检测到了更多的重复片段。使用GRCH37,我们检测到了371558个结构变异,GRCH38检测到了271825个结构变异。83%的结构变异同时在两个基因组中检测到。结构变异检测难度大,且有较高的假阳性率。分析结果显示,GRCH38中结构变异数少得多(少26.8%)。虽然我们没有金标准来计算真阳性率和真阴性率,但变异数量减少预示着假阳性率降低。

结论

重组人类基因组是一项费时又费力的任务,截止2018,人类基因组已经发布了20个版本。GRCH38中一个重要的技术进步是葡萄胎的应用。葡萄胎没有从卵子获得染色体,精子的染色体发生了复制,因此没有等位基因变异,可用于获得基因组上高度同源区域的reads。GRCH38并不是完美的人类基因组,其主要缺陷在着丝粒的区域。该区域包括数百万个碱基,序列高度重复。GRCH37着丝粒区域以gap形式存在,GRCH38建立模型推测的,虽不准确,但还是向前迈进了一大步。

人类基因组仅代表在基因组位点上的1个等位基因位点。参考等位基因是根据一个小群体的基因组确定的,可能并不是主要等位基因(人群频率>50%)。在某些情况下,检测的目标人种没有参考等位基因存在。目前的检测软件,如GATK,Platypus都允许一个位置存在多种等位基因。

基于GRCH37和GRCH38的WES样本数据分析显示,我们明确了GRCH38可以得到更准确的分析结果。GRCH38具有更好的比对效果,对后续CNV及结构变异的检测都具有正面影响。综上所述,GRCH38是人类基因组从GRCH37迈出的一大步,基因组准确度的提升对于高通量测序数据分析具有明显的积极意义

发布于 2020-03-12




https://blog.sciencenet.cn/blog-40692-1279919.html

上一篇:[转载]MPRrimerW2与MFEprimer:qPCR引物设计与评价
下一篇:[转载]人参考基因组不同版本区别 CRCH37 vs b37 vs hg19 vs hsd537 vs GRCH38
收藏 IP: 124.207.31.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-20 09:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部