李雷廷的个人博客分享 http://blog.sciencenet.cn/u/llt001

博文

FLAS: 快速、高通量的 PacBio long read 自矫正算法

已有 4178 次阅读 2019-3-22 21:07 |系统分类:论文交流

01

2019 年 3 月 21 日,Bioinformatics 杂志上发表了北京交通大学、北京理工大学和美国加州大学河边分校的学者完成的关于 PacBio long read 的自矫正算法,命名为 FLAS,特点为速度较快、通量较高。


02

三代测序平台 PacBio 产生的 long read 因其非常大的 read 长度而大大帮助了测序项目。但其 15%的测序错误率需要错误矫正。对于只有 long reads 的项目,较难以很快的速度完成矫正,也不太容易矫正足够数量的碱基,例如高通量地自矫正。MECAT 是目前速度最快的自矫正算法之一,但其通量相对较小(Xiao et al 2017)。这篇论文介绍的 FLAS 是 MECAT 算法的一个封包,可以实现高通量的 long read 自矫正,并维持 MECAT 算法较快的速度。FLAS 在 MECAT 预比对 long reads 的过程中通过寻找另外的 alignments 来提高校正通量,并为了维持精确度而移除 misalignments。另外,FLAS 还使用矫正后的 long reads 区域来矫正未矫正的区域,以进一步提高通量。FLAS 算法的图示如下。


03

论文作者测试了 FLAS 算法在大肠杆菌、酵母、拟南芥和人类的 long reads 数据的表现情况,发现 FLAS 可以实现相比于 MECAT 更高的通量,提高 22.0-50.6%。FLAS 相比于除了 MECAT 以外的工具,速度可以提升 2 至13 倍,通量提升 9.8-281.8%。相比于 MECAT,FLAS 矫正后的 long reads 组装的 contigs 的 N50 可以提高 13.1-29.8%。


表1. 错误矫正性能的评估


表2. Long read 组装的评估


04

FLAS 软件的源代码地址为:https://github.com/baoe/flas


FLAS 的安装方法为:进入 src 文件夹,运行 make 命令,会产生一个 bin 文件夹,里面有编译的 FLAS 的二进制文件。


FLAS 软件的输入文件为 FASTA 格式的 Long reads。


FLAS 软件支持的参数如下:

FLAS 软件的输出文件为错误矫正后的截短的 long reads 和错误矫正后的分开的 long reads。


参考文献:

  1. Bao et al. FLAS: fast and high throughput algorithm for PacBio long read self-correction. Bioinformatics 2019, btz206. DOI:10.1093/biofinformatics/btz206

  2. Xiao et al. Mecat: fast mapping, error correction, and de novo assembly for single-molecule sequencing reads. Nature Methods, 2017, 13(11):1072-1074. DOI:10.1038/nmeth.4432




https://blog.sciencenet.cn/blog-656335-1169094.html

上一篇:PopLDdecay: 基于 VCF 文件的快速、高效计算连锁不平衡的工具
下一篇:GenomeWarp: 不同 assembly 之间高效转换 gVCF 文件的坐标
收藏 IP: 58.32.222.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 16:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部