|
01
—
2019 年 3 月 21 日,Bioinformatics 杂志上发表了北京交通大学、北京理工大学和美国加州大学河边分校的学者完成的关于 PacBio long read 的自矫正算法,命名为 FLAS,特点为速度较快、通量较高。
02
—
三代测序平台 PacBio 产生的 long read 因其非常大的 read 长度而大大帮助了测序项目。但其 15%的测序错误率需要错误矫正。对于只有 long reads 的项目,较难以很快的速度完成矫正,也不太容易矫正足够数量的碱基,例如高通量地自矫正。MECAT 是目前速度最快的自矫正算法之一,但其通量相对较小(Xiao et al 2017)。这篇论文介绍的 FLAS 是 MECAT 算法的一个封包,可以实现高通量的 long read 自矫正,并维持 MECAT 算法较快的速度。FLAS 在 MECAT 预比对 long reads 的过程中通过寻找另外的 alignments 来提高校正通量,并为了维持精确度而移除 misalignments。另外,FLAS 还使用矫正后的 long reads 区域来矫正未矫正的区域,以进一步提高通量。FLAS 算法的图示如下。
03
—
论文作者测试了 FLAS 算法在大肠杆菌、酵母、拟南芥和人类的 long reads 数据的表现情况,发现 FLAS 可以实现相比于 MECAT 更高的通量,提高 22.0-50.6%。FLAS 相比于除了 MECAT 以外的工具,速度可以提升 2 至13 倍,通量提升 9.8-281.8%。相比于 MECAT,FLAS 矫正后的 long reads 组装的 contigs 的 N50 可以提高 13.1-29.8%。
表1. 错误矫正性能的评估
表2. Long read 组装的评估
04
—
FLAS 软件的源代码地址为:https://github.com/baoe/flas
FLAS 的安装方法为:进入 src 文件夹,运行 make 命令,会产生一个 bin 文件夹,里面有编译的 FLAS 的二进制文件。
FLAS 软件的输入文件为 FASTA 格式的 Long reads。
FLAS 软件支持的参数如下:
FLAS 软件的输出文件为错误矫正后的截短的 long reads 和错误矫正后的分开的 long reads。
参考文献:
Bao et al. FLAS: fast and high throughput algorithm for PacBio long read self-correction. Bioinformatics 2019, btz206. DOI:10.1093/biofinformatics/btz206
Xiao et al. Mecat: fast mapping, error correction, and de novo assembly for single-molecule sequencing reads. Nature Methods, 2017, 13(11):1072-1074. DOI:10.1038/nmeth.4432
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 16:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社