李雷廷的个人博客分享 http://blog.sciencenet.cn/u/llt001

博文

PopLDdecay: 基于 VCF 文件的快速、高效计算连锁不平衡的工具

已有 22152 次阅读 2019-3-20 09:37 |系统分类:论文交流

01

2018 年 10 月 15 日,Bioinformatics 杂志上在线发表了 PopLDdecay 软件,用于分析连锁不平衡的衰减(Linkage disequilibrium (LD) decay)。PopLDdecay 可以直接读取 VCF 文件,相比于计算 LD 常用的 PLINK 软件,这一特点简化了格式转换的繁琐。


02

连锁不平衡的衰减(Linkage disequilibrium (LD) decay,LD decay)模式是群体遗传学研究中的一个重要内容。连锁不平衡(LD)是指不同位点等位基因的非随机关联。在经典的群体遗传学范畴内,LD 的衰减是受重组率和重组代数(the number of generations of recombination) 影响的。因此,研究 LD 的衰减可以揭示群体重组的历史。例如,LD 的衰减情况可以用来推断同宗配合(homothallic)的真菌物种群体中是否出现了异型杂交(outcrossing)(Attanayke et al, 2014)。比较慢的 LD 衰减模式一般认为与群体大小降低有关(Zhao et al, 2013)。另外,LD 还决定着关联定位和分子标记辅助育种的精确度,研究 LD 衰减模式可以帮助评估需要的 SNP 数量。之前的一项研究发现大豆的 LD 衰减相对较慢,说明在大豆中进行分子标记辅助育种相对不会太难(Lam et al, 2010)。与等位基因的频率相结合,LD 衰减也可以用于检测正向选择(Sebeti et al, 2002)。


03

目前比较常用的计算 LD 的软件为 PLINK ,其不支持直接读取 VCF 格式的文件,使用 PLINK 计算 LD 之前需要先将 VCF 格式的文件转换为 PED 格式或 bed + bim + fam 的格式。这样的格式转换会造成额外的存储负担。PopLDdecay 的一个主要优点在于可以读取 VCF 格式的文件,直接生成 LD 统计数据并画出 LD 的衰减图。 软件设计的流程图如下所示。


04

相比于 PLINK 和 Haploview,PopLDdecay 的优点如下:

  1. 支持直接读取 VCF 文件;

  2. 输出文件非常节省空间;

  3. 计算时间相对较短;

  4. 支持 subgroup 的分析。

具体测试的统计数据如下表所示。


05

PopLDdecay 的源代码地址为:https://github.com/BGI-shenzhen/PopLDdecay

安装 PopLDdecay 的方法如下。

方法一,直接克隆源代码安装:

方法二,先下载安装包:

如果安装失败,可以尝试重新安装 zlib 库。


06

PopLDdecay 的运行主要分为两步:

第一步,计算 LD decay,如果输入文件是 VCF 格式,直接运行即可;如果输入格式为 PLINK 的格式,先转换一下格式;另外可以用 -SubPop 参数设置 subgroup。


第二步,绘制 LD decay 图,可以使用 PopLDdecay 提供的程序绘制,如下所示。


PopLDdecay 支持的参数如下:

07

软件作者之前绘制过的已经发表的 LD decay 的图如下:

(Xu et al, 2011)


(Lam et al, 2010)






https://blog.sciencenet.cn/blog-656335-1168505.html

上一篇:利用 Chrome 浏览器提取 PDF 文档
下一篇:FLAS: 快速、高通量的 PacBio long read 自矫正算法
收藏 IP: 58.32.219.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 19:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部