小舟Ferry分享 http://blog.sciencenet.cn/u/DonarF1

博文

Torque(torque-4.2.2)安装与使用心得

已有 13848 次阅读 2013-10-28 21:37 |个人分类:linux|系统分类:科研笔记

PBS是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。 PBS的目前包括openPBSPBS ProTorque三个主要分支。其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS proPBS的商业版本,功能最为丰富。TorqueClustering公司接过了OpenPBS,并给与后续支持的一个开源版本。
下面是本人安装torque的过程。

这里需要说明一下,Torque主要是由三个主要部件组成
pbs_server  PBS
服务守护进程,负责接收作业提交,位于服务节点上
pbs_sched  PBS
调度守护进程,负责调度作业,位于服务节点上 
pbs_mom  PBS MOM
守护进程, 负责监控本机并执行作业,位于所有计算节点上


一、Torque安装
node5.cluster(管理结点上)
1、解压安装包
[root@master tmp]# tar zxvf torque-4.2.2.tar.gz

2、进入到解压后的文件
./configure --with-default-server=node5
make
make install
3
1[ljzhou86@node5 torque-4.2.2]$ ./torque.setup  ljzhou86
ljzhou86 我的帐户名

2[root@master torque-2.3.0]#make packages
把产生的 tpackages , torque-package-clients-linux-x86_64.sh,
torque-package-mom-linux-x86_64.sh拷贝到所有节点并安装。用下面的脚本实现:

[ljzhou86@node5 torque-4.2.2]$ for i in node1 node2 node3 node5 node9  ; do ssh ${i} /cluster/node5/temp/software/torque-4.2.2/torque-package-mom-linux-x86_64.sh --install; done

[ljzhou86@node5 torque-4.2.2]$ for i in node1 node2 node3 node5 node9  ; do ssh ${i} /cluster/node5/temp/software/torque-4.2.2/torque-package-clients-linux-x86_64.sh  --install; done
4)在主节点上编辑/var/spool/torque/server_priv/nodes (需要自己建立)
    加入如下内容
node5.cluster  np=8 “.cluster”不能少,不然pbsnodes显示的节点状态全是down

node1.cluster  np=8

node2 .cluster  np=8

node3 .cluster  np=8

node9.cluster  np=8

5)启动pbs_server,pbs_sched,pbs_mom并把其写到/etc/rc.local里使其能开机自启动。写入之后,开机启动这些服务。这里我没有写入。如要写入:

/etc/init.d/pbs_server start

/etc/init.d/pbs_sched start

/etc/init.d/pbs_mom start

6)创建队列
[root@master ~]# qmgr
create queue students
set queue students queue_type = Execution
set queue students Priority = 40
set queue students resources_max.cput = 96:00:00
set queue students resources_min.cput = 00:00:01
set queue students resources_default.cput = 96:00:00
set queue students enabled = True
set queue students started = True

4、在node0x x=1-9,计算结点上)启动pbs_mom,用脚本实现:

for i in node1 node2 node3 node5 node9  ;do /etc/init.d/pbs_mom start; done
2、配置普通用户的ssh:我这里没有做这一步,因为用的是自己以前的帐户ljzhou86

su test
cd
ssh-keygen -t dsa
cd .ssh
cat id_pub.dsa >>authorized_keys
chmod 600 authorized_keys
3、编写作业脚本
[test1@master t]vi pbsjob
#!/bin/tcsh
#PBS -o /home/test1/pbstest/t/output
标准输出文件
#PBS -e /home/test1/pbstest/t/error 
错误输出文件
#PBS -l nodes=5:ppn=8
规定使用的节点数以及每个节点能跑多少核
#PBS –q students
把任务提交到students队列中
cd $PBS_O_WORKDIR
到工作目录下(此为PBS提供的环境变量)
mpirun –machine $PBS_NODEFILE -np 40 vasp-mpi
4、启动mpd我没有做这一步似乎也可以
mpdboot -n 10 -f mfa
mfa
内容:
master:4
node01:4
….
node09:4
5
、提交,查询,删除作业
提交作业:qsub pbsjob
作业提交后会有一个作业号
[test1@master pbstest]$ qsub pbsjob
48.master
查询作业:qstat
[ljzhou86@node5 torque-4.2.2]$ qstat

Job id                    Name             User            Time Use S Queue

------------------------- ---------------- --------------- -------- - -----

6.node5                    myjob            ljzhou86        05:38:29 R students
删除作业:qdel 作业号
[test1@master pbstest]$ qdel  6.
如删除不了,qdel –p 6. 如状态显示Q, 可以qrun 6强制运行。

 



https://blog.sciencenet.cn/blog-100989-736936.html

上一篇:单机linux下安装materials studio 5.5
下一篇:phonopy1.7.4的安装及热力学计算
收藏 IP: 124.16.178.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 13:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部