
Extract unmapped read pairs from a bam file
2019-1-31
The command samtools fastq will directly convert a bam file to fastq files. Combining with the filter parameter, we could output unmapped read pairs by -f 12 . 0x0004 in the flag field of the SAM format means “the query sequence itself is unmapped” and 0x0008 & ...
Overlapping variants called by GATK HaplotypeCaller
2019-1-31
Recently, I found that overlapping varaints existed in the results that called by GATK HaplotypeCaller (version I noticed this because I want to build consensus sequences using bcftools consensus , which produced warnings like these: ThesiteChr01:597519  ...
Picard MarkDuplicates running slower with more CPUs
2019-1-31
Generally, for a program that support multi-threading, the elapsed time will reduce with the increasing number of used CPUs. However, I found a strang case that picard MarkDuplicates will run slower with more CPUs. When I run picard MarkDuplicates in a node with 160 CPUs, it ...
Crisflash: 基于VCF文件设计CRISPR guide RNA的软件
2019-1-21
前面的推文介绍过针对人类基因组设计 sgRNA 的网页工具 PAVOOC 和针对植物基因组设计 sgRNA 的在线工具和软件 CRISPR-Local 。今天再介绍 一个 2019 年 1 月 12 日发表于 Bioinformatics 杂志上的设计 sgRNA 的软件 Crisflash。 01 — 论文的题目为:Crisflash: Open-source sof ...
2019-1-4
2018 年 11 月 16 日,俄罗斯的研究者 Yevshin 等在 Nucleic Acids Research 杂志上发表了一篇题为“GTRD: a database on gene transcription regulation—2019 update”的论文。 目前版本的基因转录调节数据库(GTRD,网址:http://gtrd.biouml.org)包括以下这些信息: 通过人类( Homo sapiens )、小鼠( ...
STRING v11: 蛋白互作网络数据库
2019-1-3
2018 年 11 月 22 日,瑞士、丹麦、西班牙、美国和德国研究者在 Nucleic Acids Research 杂志上在线发表了题为“STRING v11: protein–protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets”的论文,介绍了 STRING 数据库的第 11 个版本。 ...
BioGRID 互作数据库:2019年更新
2019-1-2
01 — BioGRID BioGRID 是 Biological General Repository for Interactionh Datasets 的缩写(网址为https://thebiogrid.org),是一个公开的数据库,主要记录、整理包括蛋白、遗传和化学互作的数据,涵盖人类和所有主要的模式生物。BioGRID 网站的主页如下,使用起来也比较简单,只需要输入一个基因ID ...
KrakenUniq: 一个新的宏基因组学聚类软件
2018-12-29
01 — 宏基因组学分类器 宏基因组学(Metagenomics)主要研究直接从环境中获得的基因组序列。宏基因组学分类器(Metagenomics classifier)主要解决的问题是对一个数据集中每一条 read 做分类,确定其所属的物种。宏基因组学数据一般包含超过千万条 reads 序列,因此一般通过 k-mer 的方法统计 reads 数量 ...
SAM/BAM/samtools 十岁了
2018-12-25
SAM、BAM 数据格式及 samtools 工具已经发布十年了。近日,SAM/BAM/samtools 的作者 Heng Li 发表博文回顾了 SAM/BAM/samtools 十年的发展历程,“植物基因组” 公众号对此做了编译,点击文末“阅读原文”查看 Heng Li 的博客原文。 01 — SAMtools 的第一个版本 SAMtools 工具 ...
