||
如果想要查看reads在基因组上的情况,可选用以下两种方法(当然方法很多,在此仅列举以下两种):
1.UCSC
2.IGV(Integrative Genomics Viewer)
以上两种方法均可以以多种格式的文件作为inFile,下面以BAM格式的inFile为例:
(一)UCSC(适用于查看文件不太大的inFile中reads在基因组上的分布情况)
首先从RSeQC中下载bam2wig.py(http://dldcc-web.brc.bcm.edu/lilab/liguow/CGI/rseqc/_build/html/index.html#bam2wig-py)
本人所用的服务器上已经安装好了RSeQC的相关组件,且已设置了环境变量。下面直接从运行命令开讲:
1.对file.bam进行sort:
$ samtools sort file.bam file.sorted #得到文件file.sorted.bam;
2.对sort后的文件建立一个索引文件:
$ samtools index file.sorted.bam #将得到一个file.sorted.bam.bai索引文件;
3.bam2wig.py对sort后的文件进行处理:
$ bam2wig.py -i file.sorted.bam -s /leofs/noncode/xcl/references/human/hg19/hg19.fa.sizes -o ERR188040.bam.wig #注:这里的-s /leofs/noncode/xcl/references/human/hg19/hg19.fa.sizes是关于参考基因组染色体大小的参数文件,要注意版本问题,下载方法在前面的博文中有讲述。
但是,在运行一段时间后,报错:
/bin/sh: wigToBigWig: command not found
查找原因后,原来是由于环境变量所在目录下,缺少wigToBigWig文件。
解决办法:去UCSC下载。
UCSC---Download---FTP server---"转到高层目录"---admin---exe---linux.x86_64---wigToBigWig
问题来了:
Q1:用的是谷歌浏览器,进去之后,瞬间显示浏览器崩溃。---A1:换用IE浏览器。
Q2:下载不了,提示要填用户名、密码。---A2:wget+链接地址,在服务器上下载。
下载完成之后,在服务器中对文件进行格式调整:
$ chmod +x wigToBigWig #原因是不同界面下文件需要调整,以适合当前运行环境。就如同windows下的文件传到linux下,要习惯性的用$ dos2unix file 命令对文件格式进行调整一样。
下面,用$ which bam2wig.py查看其所在路径,然后把wigToBigWig文件置于该路径下,再运行bam2wig.py就不会出问题了。
4.将生成的wig文件上传到UCSC
UCSC---Tables---My Data---Custom Tracks
5.即可看到reads的分布图。。。。
(二)IGV(适用于查看文件较大的inFile中reads在基因组上的分布情况)
1.由于IGV需要在java环境下运行,所以需要先下载、配置Java运行环境
java runtime environment (jre) (http://www.java.com/en/download/manual.jsp)
2.下载并安装IGV(http://www.broadinstitute.org/software/igv/download)
3.由于文件较大,所以直接将BAM文件放在IGV中还不能运行,所以需要借助IGVtools将文件转换成*.tdf
文件转换成*.tdf后,就可以在IGV上运行了,选择参考基因组和你需要的区域,看看reads的分布情况。。。
(其实,无论文件大小都可以放在IGV上运行。如果本地未安装IGV,并且文件又不太大,图省事就用UCSC吧)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 22:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社