luria的个人博客分享 http://blog.sciencenet.cn/u/luria

博文

Hi-C分型绝招之HapCUT

已有 458 次阅读 2019-4-27 13:02 |个人分类:Hi-C|系统分类:科研笔记| Hi-C, Phase, haplotype, HapCUT, Phase, hapcut2

为什么要分型?在临床上,单体型(Haplotype)对器官移植时Donor-host匹配很关键;通过单体型上的分析也可以发现两个缺失变异是否来自同一个Allele,从而判定这些变异是否有害;此外,单体型还能反映出群体结构和进化历程。最近大量研究也发现,基因表达存在等位不平衡性(Allelic imbalances),这可能预示着等位基因在遗传或表观上存在差异(PS. 个人觉得这是最重要的原因,如果分型成功,未来可以做的就太多了!)。

基于以上重要性,目前有些机构,例如国际单体型图谱计划,千人计划正通过研究不相关群体的连锁不平衡,努力系统地构建单体型。然而利用这种方法目前可准确分型的单体型平均长度限制在300kb左右。另一种方法是通过Parent-child Trios这种组合对子代进行分型,但是这种方法开销很大,同时,生物学父母本的获取对于某些样本来说也比较困难。

也有一些研究者通过实验进行分型,包括长片段测序,Mate-pair测序,Fosmid测序以及基于稀释的测序。这种方法可以构建几kb到几mb的单体型块,但是却不能构建基因组水平的单体型块。当然也有全基因组跨度的分型,包括荧光激活细胞分选(Fluorescence-activated cell sorting),测序后染色体分离(Chromosome-segregation followed by sequencing),以及基于染色体显微切割测序(Chromosome microdissection–based sequencing)方法,但是这些技术一方面仅能分型出部分杂合变异,另一方面存在技术壁垒,需特殊平台和机构才能做到。

也可以采用计算的方法构建单体型,测序文库大小是一个很重要的因素。例如Mate-pair测序(Insert size5kb)相比于常规测序(Insert size500bp)可以获到更长的单体型。然而,基于目前的Shotgun测序手段,既使采用超高的深度,也很难构建长于1MHaplotype blocks

基于以上讨论,作者提出用Hi-C数据构建单体型的方法,称作HaploSeq

作者开发一个叫做HapCUT的软件,原理是采用Hi-C contact将检测到的变异联系起来。然而这种联系可能会受到测序错误或者h-trans interactions (同源染色体间的互作)的干扰。为了处理这种干扰,作者提出了HapCUT核心算法——最大切割算法(max-cut algorithm),按照输入的测序数据构建haplotype信息。

作者用了小鼠和人的Hi-C数据来做测试,并且从完整度(completeness),分辨率(resolution)和准确性(accuracy)三个方面对分型结果进行了评估。

1. 完整度

作者提出一个叫做MVP的概念(Most heterozygous variant phasedPS.它是形容词性短语。在分型过程中,一条染色体通常不可能一下完全分开,常会有多个独立的haplotype blockshaplotype blocks的数量取决于杂合变异的联结情况。在这些haplotype blocks中已分型的杂合变异最多的那个haplotype blocks称为MVP)。完整度通常指MVP block的跨度与染色体长度的比例。

当然,可能有人会争论说,当遇到某些极端情况,杂合变异位点在基因组上非常集中,haplotype blocks两端的跨度可能并不大,这时候用MVP来评估完整度,并不合适。作者也考虑到了这个问题,在文章测试时指出每条染色体的MVP block 在跨度上大于可分型的变异位点跨度 * 99.9%,这也表明Hi-C数据可以构建完整且染色体水平的haplotypes (话外音:这个结果似乎有点太好了,哈哈!其它物种中结果如何还有待测试)

2. 分辨率

MVP block分型的变异位点数除以MVP跨度范围内的所有变异位点数。如下图:

图中红色线(Chromosome)上的黑色竖线表示已分型的杂合变异位点。A-J这些位点分型后构建成了MVP block。在MVP block外还存在一些位点如图中X,Y位点,计算分辨率时这些位点不计算在内。

3. 准确性

因为小鼠和人都有分型的标准答案,文章中将准确性定义为MVP block内正确分型的杂合变异位点比例。作者测试发现采用HapCUT软件分型,两个物种准确性均大于99.5%

 

三个概念一张图总结如下:

 

看来仅用Hi-C数据,分型效果已经很好了,那么随之而来的问题是:

问题一. Hi-C与其它测序策略结合是否可以提高分型指标?

文章中比较了不同测序策略与MVP block完整度的评估图,如下:

结果显示,Hi-C reads + WGS reads没有增加分型的haplotypes的完整度,但是作者发现Hi-C reads + WGS reads的分辨率要比单纯用Hi-C reads的分辨率更高。如下图:

==================== 这幅图的解读 =================

横坐标:将所有Block按杂合位点数排行,这里是取排行中前100Block

纵坐标:因为Block之间在跨度上可能存在交集,如下图Block1Block2,直接用Block的跨度来反应分型情况意义并不大,所以作者对这个跨度作了一个调整,即校正跨度(Adjusted span,简称AS)。作者将其定义为Block的跨度乘以Block内分型的杂合位点比例(可理解为Block跨度×分辨率),如下图。需注意的是图中纵坐标采用的是累积校正跨度的百分比。

==================================================

 

图中可以反映出:

1. 整体而言,使用Proximity ligation (Hi-C连接)的测序策略最佳 (仅需第一条Block就能反映总体情况),使用Fosmid文库的测序策略次之(需要用前30Blocks才能反映总体情况),而采用Meta-pair的测序策略效果最差(即使用了前100条也不能反映总体情况)

2. 虽然仅用WGS的分型结果效果远差于其它测序策略的结果,但是无论是Proximity ligation,还是Fosmid,还是Meta-pair,同时再使用WGS,结果都会有所提升。

3. 所有结果中Proximity ligation + WGS的测序策略是最佳组合

 

问题二. 哪些因素可以影响分型效果?

Ø  物种的杂合情况,即变异位点的密度。

因为小鼠的变异位点密度大约是每150bp一个,是人类变异位点密度的7-10倍。作者作了一个测试——随机下取样,将小鼠的变异位点密度取得跟人类的一致。结果意外发现分型准确性没有降低多少(用全部变异位点,各染色体准确性在99.4%-99.7%范围内,而下取样后各染色体准确性在99.6%-99.2%范围内),但是分型分辨率变化却非常大,从原来的95%降到了32%

作者就此作了一个总结:低的变异位点密度不会影响完整度和准确性,但是会显著地影响分型分辨率。

然而,像人类这种变异位点密度比较低的情况,该怎么提高分辨率呢?作者测试发现可以结合HaploSeq(其结果作为"seed haplotype")和局部条件分型(Local conditional phasing,采用Beagle软件对千人计划里的人类群体数据进行分析)。两者结合使用分辨率从约22%提长到约81%,同时各染色体平均准确性达到98%左右。

 

Ø  Hi-C数据测序深度和Hi-C reads长度

然而,实际项目中很难有局部分型的数据(通常不会为了对某个体进行分型,而测其群体基因组),我们该怎样提高"seed haplotype"分型分辨率呢?作者认为可以通过增加测序深度,同时增加read长度的办法达到。

通过一番测试,事实也得到证明。如下图,作者用人的第1号染色体 (GM12878 chromosome 1) 统计了25-250bp不同reads长度,不同测序深度下,haplotype的完整度 (下图中b)haplotype的分辨率 (下图中c)

可能有人看到图b这张图时会起疑问——结果来看,测序深度在15X-30X时,haplotype的完整度不是随Read长度越长结果越差么,例如20X Read 长度为250bp时,haplotype的完整度最低,Read长度为150bp时次之,这和作者的结论相悖?

个人觉得,图b这张结果不完整,还需要接着做40X45X50X时的统计,当然这需要money。跟据趋势来看,使用更长的readshaplotype的分辨率会有所提升,但是为了保证完整度,也需要测更高的深度。

 

有关上面两张图展示出的结果,作者解释道测序覆盖低时,Hi-C连接的边界可靠性会降低,同时准确性会下降。(PS. 例如,两个变异位点如果只有1Hi-C reads连接,它们可能在测序错误或者比对错误等情况下导致单体型分型错误,但是当这两个变异位点有10Hi-C reads连接时结果就非常可靠了)

 

参考文献:

Siddarth Selvaraj, Jesse R Dixon, Vikas Bansal & Bing Ren. Whole-genome haplotype reconstruction using proximity-ligation and shotgun sequencing. Nature Biotechnology. 2013. doi:10.1038/nbt.2728




http://blog.sciencenet.cn/blog-2970729-1175790.html

上一篇:MUMmer4的安装与使用
下一篇:Hi-C数据比对软件HiCPro的安装与使用

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-6-25 09:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部