|
许多之前开发的变异鉴定方法主要用于鉴定高质量的变异位点,设计上试图降低假阳性,但也会提高假阴性,对于 trio-sequencing 数据不敏感。为解决这个问题,Brigham 妇女医学院和哈佛医学院等单位的学者设计了一个利用贝斯网络方法从家系和群体测序数据中鉴定变异的软件 novoCaller。论文于 2018 年 8 月 30 日发表于 Bioinformatics 杂志(https://doi.org/10.1093/bioinformatics/bty749)。
Trio-sequencing 是指“三人组测序”,即对“爸爸、妈妈、孩子”的三人组进行测序,可用于寻找造成罕见孟德尔遗传病的致病基因。novoCaller 利用群体频率、家系数据和严格的统计方法来提高鉴定新发生变异的精确性,并减少假阴性。novoCaller 利用父母亲的样品作为参考,主要关注新发生的变异(de novo variants)。软件测试结果发现,对于 GoNL(荷兰人基因组)数据集,可以正确鉴定到 605 个已验证的新发生变异中的 98%,且仅产生 20% 的假阳性,相比而言,GATK PBT 会产生 46% 的假阳性。而对于拥有 2023 个变异位点的自闭症数据集,novoCaller 可以正确鉴定到其中 96% 的变异。另外,对于 48 组临床 “三人组” 数据,也表现优异,大大缩小后续实验验证的范围。
novoCaller 是利用 C++ 和 Python 编写的,源代码地址为:https://github.com/bgm-cwg/novoCaller
novoCaller 软件的输入数据可以是 VCF 文件或 BAM 文件。对于 VCF 文件,用法如下:
对于 BAM 文件,用法如下:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 20:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社