aBIOTECH分享 http://blog.sciencenet.cn/u/aBIOTECH

博文

aBIOTECH | 孔思远团队开发基于“邻近连接”DNA嵌合互作基序的三维基因组数据质控框架Motif-Hi-C

已有 165 次阅读 2026-4-9 11:33 |个人分类:论文|系统分类:论文交流

aBIOTECH | 孔思远团队开发基于“邻近连接”DNA嵌合互作基序的三维基因组数据质控框架Motif-Hi-C

83d531b6-9d7a-44be-8736-89818488ebb6.png

Hi-C技术作为解析基因组调控元件和功能基因组三维互作调控的核心手段,近年来随着技术的发展,已广泛应用于动物发育调控、动物经济性状转录调控机制解析等前沿领域。随着三维基因组学向规模化、精细化方向快速发展,科研人员面临两大核心技术瓶颈:一是传统Hi-C数据分析工具存在显著的时间与精度权衡难题,大规模数据集质控处理往往需要消耗海量计算资源,且耗时冗长;二是不同软件在噪声过滤、有效互作识别等方面的偏好差异,为不同软件的使用带来了选择困难。当前解决方案需依赖多套独立工具组合使用,操作复杂且兼容性差,亟需开发一套集快速处理与精准质控于一体的质控分析方法。

近日,中国农业科学院北京畜牧兽医研究所猪遗传育种科技创新团队孔思远研究员aBIOTECH 发表了题为Motif-Hi-C: A motif-based framework for rapid quality control of Hi-C data研究论文。该研究创新性地利用Hi-C实验中“邻近连接”关键步骤会产生新的嵌合DNA序列的特征。该嵌合读段具有固有连接基序(motif)特征,结合基序识别与分类,开发了一套可同时实现Hi-C数据快速处理与高质量质控的Hi-C数据处理系统,有效解决了传统方法在处理速度和准确性之间难以兼顾的难题。

45994444-5186-42ce-a5ba-628f5c64f6c8.png

作者首先对四种主流Hi-C分析工具(HiC-Pro、HiCUP、Juicer和HiCExplorer)在多种数据集上的性能进行了系统评估,揭示了它们在运行时间、比对率、噪声过滤偏好以及有效互作识别等方面的差异(图1A-D)。结果显示,这些工具在处理速度和准确性上各有侧重。例如,HiC-Pro以其全面的质控流程和严格的过滤算法著称,但运行时间较长;而Juicer在有效互作识别方面表现出色,但有效过滤数据噪音能力有限。

8a2d1e60-c58e-4d94-8c9a-adacad83f469.png

图1. Motif-Hi-C实现Hi-C数据的高效质控

为解决上述问题,作者设计了Motif-Hi-C分析框架(图1E)。该框架的核心在于,首先从原始测序数据中检测出由邻近连接反应产生的特征性连接基序,随后根据基序的有无对读段进行分类,并建立并行处理流程。通过这种方式,Motif-Hi-C能够快速搁置不包含基序的高噪声读段,从而将计算资源集中在包含有效互作信息的读段上,实现数据的快速质控。为验证Motif-Hi-C的性能,作者将其与四种主流软件进行了全面比较。结果显示,在处理Hi-C数据集时,Motif-Hi-C能够在保证有效互作比例的同时,显著缩短运行时间(图1C-D)。

作者进一步分析发现,包含基序的读段(matched.fastq)其数据质量远高于不含基序的读段(unmatched.fastq)。matched.fastq文件中的噪声比例显著更低(图1F),且有效互作比例更高(图1G)。三维基因组结构可视化直观地显示,基于matched.fastq数据构建的染色质互作热图,其信号更强、结构更清晰,包含更多的拓扑关联结构域和染色质环(图1H-K)。因此本研究建议三维基因组系列构象绘制后续分析时,采用matched.fastq数据构建的大量有效染色质互作数据(valid data)与unmatched.fastq中经过HiC-Pro过滤后生成的少量有效染色质互作(尽管这部分不含motif嵌合DNA)的集合。

    综上所述,Motif-Hi-C框架通过巧妙地利用Hi-C实验生成的固有的连接基序特征,为基因组-多组学育种时代产生的海量Hi-C数据快速质控提供了一种新的解决方案。该方法不仅显著提升了数据处理效率,还保证了分析结果的准确性,尤其适用于大规模、多样本的农业研究中Hi-C数据集分析。Motif-Hi-C有望成为动植物基因组-多组学育种研究领域一项重要的基础工具,有效支持下游的染色质互作网络构建和生物学发现。

    中国农业科学院深圳农业基因组研究所科研助理孔大帅和太原理工大学联合培养已毕业硕士研究生王宇辉为本文的共同第一作者,中国农业科学院北京畜牧兽医研究所孔思远研究员为通讯作者。该研究得到了国家重点研发计划项目和畜禽生物育种全国重点实验室开放课题、青年英才等项目的资助。

    引用本文:

    Kong D, Wang Y, Tang Y, Tian Y, Yang S, Wang Y, et al. Motif-Hi-C: A motif-based framework for rapid quality control of Hi-C data. aBIOTECH 2026:100040.

    https://doi.org/10.1016/j.abiote.2026.100040



    https://blog.sciencenet.cn/blog-3458049-1529612.html

    上一篇:aBIOTECH | 上海农科院/宏表型实验室联合开发基于智能手机的三维表型测量技术
    下一篇:aBIOTECH | 许冬清团队揭示大豆中GmSTF1/2促进碳同化及木质素的生物合成
    收藏 IP: 175.169.186.*| 热度|

    0

    该博文允许注册用户评论 请点击登录 评论 (0 个评论)

    数据加载中...

    Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

    GMT+8, 2026-4-11 06:02

    Powered by ScienceNet.cn

    Copyright © 2007- 中国科学报社

    返回顶部