||
“如何建立基因组学研究的数据分析平台?”之 安装和配置Linux系统
本文目的是帮助只有生物学背景的研究者尽快搭建一个Linux工作平台,够用就行,篇幅所限仅提供关键信息点,详细学习请自行阅读相关书籍。
系统规划首先需要一台计算机,如果你需要大型、高性能计算机,将不在本文讨论范围内,下面的建议可能不适合你的要求。选择什么样的计算机这取决于实验室的预算,就是量力而行,如果只有1万块钱,5000元用于购买主机(Intel CPU),然后根据预算扩充内存和硬盘,内存至少4 GB,最好16 GB,一个2TB的SATA硬盘,下载免费的Fedora Linux或者其它免费linux。如果有3万元预算,15000可以买到一台低端服务器主机(塔式机箱),双CPU,RAID5,然后扩充内存和硬盘,内存至少16GB,最好64GB以上,硬盘能装多少装多少(至少4x3TB),余下的钱购买软件RedHat Enterprise Linux(大概1CPU 6600元,2CPU 9000元),但是只有第一年免费技术支持和自动升级,以后则要花钱延续这两项服务。
然后开始安装Linux,这里不赘述如何安装的细节,一个建议是如果主板不支持RAID5,但是有多个硬盘,建议只带一个硬盘安装linux,其它硬盘待系统装好后再挂上去,前一个硬盘用于安装系统,单独划一个分区作为自己的工作目录,用于保存自己编写的所有脚本和运行结果,挂上去的硬盘用于保存原始数据(文件一般都比较大或者数量多,比如从NCBI下载的序列或者Illumina测序出来的FASTQ文件或者质谱出来的数据文件);如果支持RAID5,首先进行RAID5设置,然后分区(最好每个分区4TB以下,因为单机版Redhat Enterprise Linux对大于4TB的空间支持不好),然后再安装Enterprise Linux。下面是某台计算机分区规划(2TB):
/boot 100MB
swap 32GB
/ 300GB
/home 300GB 工作目录
/data ~1.4TB 数据目录
给出几个建议:
l 尽快地熟悉命令行式的操作,因为不是做linux网管,没必要知道所有命令,熟悉常用命令就可以了(大约二十几个,文中会提到)。
l 与windows不同,linux运行过程中一般不需要重启,尽量使用正常关机程序,最好不要硬关机。由于包依赖性的问题,一旦系统安装和配置完毕,一般不进行大规模软件自动升级或者强制卸载某个包,除非你已经确认这样做不会影响已有软件的正常运行。
l 做好研究记录,从安装系统开始,包括主要操作步骤,出现的异常情况以及如何解决的等等。
l 注意数据备份,特别是你的工作目录和数据库目录要勤作备份(每天)。
l 做好目录规划,脚本程序(perl、SQL和R)、运行结果以及原始数据要根据不同研究项目分门别类存放。
用户身份linux分为root用户(管理员权限,所有权限)和普通用户,一般使用普通用户名登陆系统,使用su命令在root用户和普通用户之间切换,出于安全考虑(root密码知道的人越少越好),尽量少使用su命令进行这样的操作,可以使用sudo功能针对性赋予普通用户部分超级权限,下面例子是为biotech组用户yuan添加sudo功能:
# adduser -g biotech yuan linux新建用户yuan
# passwd yuan 为用户yuan设定密码yuan
# visudo 打开文件/etc/sudoers,找到其中这行(# %wheel ALL=(ALL) ALL),将注释放开(去掉#)。
# exit
安装软件l
linux一旦安装完毕,立即使用yum命令升级所有软件包,一般情况下,在服务器配置和所有软件安装完毕后开始运行后,就不适合进行这样的大规模软件升级操作了,因为如果出现问题很难回溯。
# yum -y update或者 # yum -y
upgrade
l
由于包依赖性的问题,linux软件安装和卸载尽量使用yum命令自动安装和卸载,会省很多时间, 根据基因组学研究和数据分析的特点,选择自动安装以下一些包:
# yum -y install R R-* 安装R软件及相关包
# yum -y install perl-bioperl 安装Bio-perl包
# yum -y install httpd mysql mysql-server php php-mysql 安装WWW(LAMP)服务器
注:下面使用通配符自动安装所有包的做法属于偷懒行为,如果网络带宽不够或者对文件系统有要求,就不能这样,只安装需要的软件包。
# yum -y install *-DBI 安装数据库借口相关包
# yum -y install mysql* 安装mySQL数据库相关包
# yum -y install perl-* 安装所有perl软件包
# yum -y install graphviz* 安装所有图形显示相关软件包
l
包的手动安装:建议将包解压缩到/usr/local/src/下,并统一安装到/usr/local/下,注意任何一步提示出错都根据提示解决完了才能进行下一步,不过多数情况可能是由于包依赖性的问题导致的。例如下面一系列命令将下载到/home/yuan/download的a.tar.gz解压缩到/usr/local/src目录下并安装,
#cd /usr/local/src
#sudo tar -zxvf /home/yuan/download/a.tar.gz
#cd a
#sudo ./configure
#sudo make
#sudo make test
#sudo make install
命令 |
说明 |
cat |
文件链接 |
cd |
改变当前目录 |
chmod |
chmod -R 754 /home/mysql_pre 修改用户对文件夹/home/mysql_pre以及下面子目录文件权限(r可读,w可写,x执行权限,-无权限,分别对应4、2、1、0分),所有者对/home/mysql_pre可读可写可执行(rwx=7),所有者所在组可读不可写可执行(r-x=5),其它用户可读不可写不可执行(r--=4)。 |
chown |
sudo chown -R yuan:yuan /home/mysql_pre 改变目录以及子目录文件所有者为组yuan中的用户yuan。 |
cp |
cp -r /home/mysql_pre /home/yuan/ 拷贝目录/home/mysql_pre到目录/home/yuan/下,参数-r指连同源文件中的子目录一同拷贝 |
kill/killall |
杀死进程 |
locate/find |
搜索文件 |
ls |
ls 列举目录下面的文件 ls -l 使用长格式显示文件, 查看目录或者文件的属性 ls -a 显示文件包括隐藏文件 |
man |
对命令提供帮助解释 |
mkdir |
创建目录 |
mount/umount |
加载或卸掉某个硬件设备或文件系统 |
mv |
移走目录或者改文件名 |
ps |
查看系统进程 |
pwd |
查看当前所在目录完整路径 |
rm |
删除文件和目录 |
sftp |
远程传输文件 |
ssh |
远程连接到服务器上 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社