woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

基础006 宏基因组入门理论以及分析环境的部署

已有 6309 次阅读 2018-8-7 19:30 |个人分类:宏基因组|系统分类:科研笔记

本文“植物微生物组”公众号原创,ID: plantmicrobiome

作者:zhiwen

原文链接:基础006 宏基因组入门理论以及分析环境的部署

一、宏基因组核心思想

  1. 鉴定菌群组成
  2. 鉴定菌群内基因组成
  3. 鉴定功能基因组成
  4. 菌群之间的关系
  5. 菌群和宿主之间的关系

    二、宏基因组的实验思路及流程

    image
  6. 实验设计、取样测序
  7. 数据质控(宿主序列过滤)
  8. 序列分析
  • reads组装成contig、scaffold
  • 组装结果评估
  • 组装结果基因注释
  • 不比对估计基因丰度
  • 比对估计基因丰度
  • Contig分箱
  • 分箱结果评估
  • 分箱结果可视化
  1. 深入数据挖掘分析
  2. 实验验证

    三、宏基因组生信分析环境部署

  • 测序数据过滤的软件:
    检测数据质量 Fastqc
    合并检测报告 MultiQC
    过滤接头、低质量序列 Trimmoatic
    过滤高覆盖度低丰度的kmer khmer
    image
    安装方式:
    conda install khmer=2.1.2
  • 序列组装的软件:
    ==Megahit、 Metaspades==,Minia, Meraga, Ray Meta15,Velour
    安装方式:
    conda install megahit=1.1.3
    conda install spades=3.12.0
  • 组装结果评估软件:
    Sourmash
    安装方式:
    conda install sourmash=2.0.0a8
  • 组装结果基因注释的软件:
    Prokka、Prodigal
    安装方式
    conda install prokka=1.13
    conda install prodigal=2.6.3
  • 不比对估计基因丰度的软件:
    conda install salmon=0.7.2
  • 比对估计基因丰度的软件:
    bowtie2、samtools、bedtools
    安装方式:
    conda install bowtie2=2.3.4.1
    conda install bedtools=2.25.0
    conda install samtools=1.3.1
  • 组装结果分箱的软件包括:
    基于contig分箱:==Maxbin、MetaBAT==、MetaWatt、CONCOCT、MyCC
    安装方式:
    curl  https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz
    tar xzvf MaxBin-2.2.2.tar.gz
    cd MaxBin-2.2.2/src
    make
    添加环境变量
    curl -L https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz
    tar xvf metabatv0.32.4.tar.gz
    添加环境变量
  • 分箱后评估的软件:
    checkm
    安装方式:
    conda create -n checkm checkm=1.0.11
  • 分箱后可视化软件:
    vizbin

    安装方式:
    windows下在浏览器中输入 https://github.com/claczny/VizBin/blob/master/VizBin-dist.jar?raw=true

    -估计物种丰度的软件
    Metaphlan、Karken

    安装方式:
    Metaphlan
    wget https://bitbucket.org/biobakery/metaphlan2/get/default.zip
    tar xzvf biobakery-metaphlan2-<versioned>.tar.gz
    cd biobakery-metaphlan2-<versioned>/
    添加环境变量
    Karken
    conda create -n kraken=1.0
    karken db 下载 wget -c https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz
  • 组装和分箱结果的可视化:Anvio

安装方式
conda create -n anvio anvio=4.0.0

数据库

## eggnog对应的细菌数据库下载
download_eggnog_data.py bact

## silva 原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S和18SrRNA)
axel https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta.gz

## nr非冗余数据库
# 结合diamond进行nr库比对
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz.md5
# https://github.com/bbuchfink/diamond
# diamond makedb --in nr.faa -d nr

## MEGAN注释文件
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/prot_acc2tax-Mar2018X1.abin.zip
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/SSURef_NR99_128_tax_silva_to_NCBI_synonyms.map.gz

## kaiju物种注释文件
# Representative genomes from proGenomes
makeDB.sh -p -v
# Non-redundant protein database nr
makeDB.sh -n

##karken 注释文件
kraken2-build --standard --threads 24 --db kraken


https://blog.sciencenet.cn/blog-3334560-1128063.html

上一篇:vsearch2.8.1使用和命令简介——中文帮助文档-免费64位版usearch
下一篇:Basic005. Intro to statistics basic terms统计名词介绍
收藏 IP: 101.64.179.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-28 06:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部