||
北京时间2021年2月5日凌晨,美国北卡大学教堂山分校的李蕴课题组和克利夫兰医学中心的胡明课题组在《美国人类遗传学杂志》上发表论文“HiC-ACT: improved detection of chromatin interactions from Hi-C data via aggregated Cauchy test”,开发了基于聚合Cauchy 检验方法的全基因组的染色质相互作用(3D peak)识别方法HiC-ACT。
近期研究表明,基因组的三维空间结构与基因转录调控密切相关。例如,通过在三维空间中的基因组折叠,增强子可以与很多远距离(远达1~2Mb)的基因的启动子形成相互作用,从而调控这些基因的表达。由于增强子广泛分布于哺乳动物的基因组,在全基因组范围内研究增强子和启动子的相互作用是非常困难的。
近年来,全基因组染色质构象捕获技术(例如Hi-C技术)被广泛用于此类研究。现有的分析Hi-C数据的方法,例如Fit-Hi-C / FitHiC2和HiCCUPS,都假定3D peak在统计上是独立的。这种独立性假设在低分辨率(比如40 kb)的情况下可以接受,但在高分辨率(例如5或10 kb)的情况下不再合理。因为在高分辨率下,相邻染色质可能属于同一个功能单位,因而形成不可忽略的的空间相依性。
为了解决这个难题,北卡大学教堂山分校的李蕴实验室和克利夫兰医学中心的胡明实验室开发了基于隐马尔可夫随机域的分析算法HMRF-Bayes和FastHiC。HMRF-Bayes和FastHiC在计算过程中考虑了空间相依性,提高了分析的统计功效。但这两种算法计算量都比较大,因而并不适应于全基因组分析。因此,我们最近开发出一种既考虑染色质空间相依性、计算效率高,并且可应用于全基因组的3D peak识别的方法。
在本研究中,课题组开发了HiC-ACT方法。该方法将聚合Cauchy 检验方法(ACT,aggregated Cauchy test)使用在传统的、不考虑算法的空间相依性的方法的结果之上,达到了快速准确地利用空间相依性来提高分析的统计功效的目的。HiC-ACT应用灵活,对数据预处理要求低:仅基于概括性统计量(比如p值或者Z-score),而不需要分析原始的Hi-C数据。
HiC-ACT的p值平滑化可以恢复稀疏数据中丢失的信息,从而达到提高识别3D peak的统计功效。我们对HiC-ACT进行了多方位的性能测试。研究人员首先测试了在10 kb分辨率下的人类淋巴细胞系(GM12878)的Hi-C数据。与FitHiC2方法相比,HiC-ACT在不同测序深度下取得的结果都达到了显著提高的召回率,并且能保持类似的精确度。其中,在总测序量~50万的Hi-C数据中,HiC-ACT的召回率为FitHiC2的6倍(0.36 vs 0.06),而两者的精确度相当(0.97 vs 1.00)。
研究人员还将人类淋巴细胞系Hi-C数据中HiC-ACT和FitHiC2所识别的3D peak与NIH Roadmap Epigenomics Consortium中找到的增强子进行了富集分析比较。比较结果表明,在不同的测序深度下,HiC-ACT的结果比FitHiC2的结果展现出更显著的增强子富集。而且相比于FitHiC2,HiC-ACT受测序深度的影响小,因而对于信噪比较低的低测序深度的Hi-C数据尤其有优势。这是因为HiC-ACT可以从邻近的3D peak中借用信息,从而更有效地从低测序深度的Hi-C数据中识别3D peak。
最后,本研究还比较了小鼠胚胎干细胞数据中HiC-ACT和FitHiC2所识别的3D peak和FANTOM5和dbSUPER数据库中的增强子。结果显示,HiC-ACT识别出的最显著的相互作用与增强子-启动子重叠的几率是同等数量的FitHiC2所识别出的最显著的相互作用的1.4-2倍。
研究结果显示了HiC-ACT在提升3D peak识别的敏感度上的优势。通过借用来自邻近3D peak的信息,HiC-ACT增强了在低信噪比Hi-C数据中检测相互作用的统计功效,从而能更准确地找出显著的3D peak。在计算方面,HiC-ACT效率高且扩展性强。HiC-ACT用单个Intel 3.4GHz的CPU仅需6分钟和2GB的缓存即可处理一般的单个样本的全基因组数据,并且可以灵活拆分(甚至到单个3D peak)并行计算。
相关论文信息:
https://doi.org/10.1016/j.ajhg.2021.01.009
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-14 19:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社