||
“如何建立基因组学研究的数据分析平台?”之 数据下载和文件备份
下载数据 下面例子是从NCBI的FTP站点中下载人类基因组数据,并保存到/data目录下,-r表示递归下载,-k表示使用相对路径,-c表示断点续传
# cd /data
# sudo wget -r -k -c ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/
常见公开数据库的FTP站点:
ftp://ftp.ncbi.nih.gov/
ftp://ftp.expasy.org/
ftp://ftp.ebi.ac.uk/
ftp://ftp.geneontology.org/
文件打包和压缩 1.2.1. 使用.gz格式压缩文件
#gzip /home/yuan/a 将目录/home/yuan下的文件a压缩,文件a会变成压缩文件a.gz。
#gunzip /home/yuan/a.gz 将目录/home/yuan下的压缩文件a.gz解压缩,压缩文件a.gz会变成文件a。
1.2.2. 使用.bz2格式压缩文件#bzip2 /home/yuan/a 将目录/home/yuan下的文件a压缩,文件a会变成压缩文件a.bz2。
#bunzip2 /home/yuan/a.bz2 将目录/home/yuan下的压缩文件a.bz2解压缩,压缩文件a.bz2会变成文件a。
1.2.3. 使用tar.gz或tar.bz2格式打包并压缩文件夹(多个文件)文件夹和多文件必须先使用tar命令打包然后才能压缩,tar表示打包,gz和bz2表示压缩格式,参数:-x 表示是解包 ,-c 表示打包,-v 表示显示过程信息,-z 表示指定压缩格式为gzip,-j 表示指定压缩格式为bz2,-f 接文件名或者目录表示要解包或者打包的文件或者目录,举例如下:
# tar -zcvpf /home/yuan/usr_local.tar.gz /usr/local 对目录/usr/local打包并压缩保存到目录/home/yuan下,文件名usr_local.tar.gz。
# tar -zxvf /home/yuan/download/a.tar.gz 将/home/yuan/download/目录下的a.tar.gz解包并解压缩到当前目录。
# tar -jxvf /home/yuan/download/a.tar.bz2 将/home/yuan/download/目录下的a.tar.bz2解包并解压缩到当前目录。
1.2.4. 一次对多个文件解压缩:从公开数据库下载的数据常常是压缩文件,以基因组数据为例,如果基因组比较小(例如酿酒酵母),所有染色体的序列文件(.asn, .faa, .fnn, .frn, .gbk, .gff, .ptt, .rnt, .rpt, .val)保存在一个目录下,而且没有压缩,但是高等真核生物的基因组比较复杂,以人类基因组为例,序列文件根据染色体存放在不同目录下,压缩的序列信息分别保存在目录CHR_01-CHR22, CHR_X, CHR_Y里面,使用gunzip命令配合使用通配符一次对多个文件解压缩:
#sudo gunzip -c /data/ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_*/*.gz
系统备份策略
可能我们缺少必要的硬件条件,并不意味着可以忽略数据备份,特别注意数据备份!!!如下建议:
l 一种比较廉价的方式是将数据备份(使用tar命令打包压缩)到一个移动硬盘上(最好3.5"大硬盘),同时将数据刻录到DVD光盘上。
l 每月或根据情况备份如下目录:你的工作目录、你的数据目录、/download、/etc、/boot、/root、/var、/usr/local/。
l 每天或根据情况备份如下目录:你的工作目录和/var/lib/mysql(数据库)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社