芝麻开门分享 http://blog.sciencenet.cn/u/opensesame 周锋,研究员

博文

访英见闻(五)海洋模式的调试,集群运算及其他

已有 5668 次阅读 2013-5-17 06:52 |个人分类:个人心得|系统分类:科研笔记| 海洋, 集群, 游学, 数值模式, NEMO

在Plymouth快3个半月,时间真是飞逝。在这里的工作主要是和G.Shapiro教授合作,研究黑海陆架与海盆之间的物质交换,大部分时间是在调试一个叫着NEMO(全称)的海洋数值模式。期间发生了一些时间,还是颇有一些意思。


第一件事时关于NEMO海洋数值模式。因为我在Plymouth主要的工作是运用NEMO这个数值模式到黑海。先前Shapiro教授大部分是在Windows上运行,由于Windows的先天限制,无法大量使用内存,即使是64位机器,其实也不全是64位,因此,即使配备了很多内存,windows也无法充分利用。怪不得人称“瘟到死”。Shapiro教授笑称,他们大概是欧洲唯一一个在windows上用NEMO的研究组了。不过现在NEMO已经可以在Plymouth大学的集群上计算了。


第二件事关于Plymouth大学的集群。因为以前在德国汉堡待过很长时间,用过他们的HAMSOM模式,也是在集群式,我记得好像是买自日本的NEC系统。当时还很强。而且汉堡的集群服务人员非常专业和敬业。有时候我提交到集群的工作进程出了问题,没有任何输出,但是任务仍然挂在集群上占用着cpu,他们很快会发现,并发邮件告诉我。抱着这种瞻仰的心理,没想到在Plymouth却大大失望了一番。我的集群cluster帐户有问题,计算任务提交到集群之后,一直挂着,但是不计算。非了我2周时间,到处查问题。起先,谦虚的认为自己修改NEMO模式出了问题,总和自己不过去。结果查来查去,是我的帐户有问题。因为我的帐户建立的时候可能设置没对,不能用ssh方式登录集群上的各个节点。让管理员重新建了一个帐户居然就好了。我的2周时间就这么废了。不明白这么简单的事情居然也会发生,让我对大学里计算机服务人员(主要是集群管理人员)的专业能力有点失望。后来居然还发生机房冷却剂用完之后才发现,结果临时没有备用的,只能以关机来降温。.....sigh,菜了一点!


第三件事,不同平台下,基本编译器版本完全一致,也会出现问题。windows下好端端正常的NEMO,移植到linux集群后,虽然能运行,但是相同参数所获得的垂向网格完全不同。我很难相信自己,但是终于说服了自己。但是教授不信,花了2周多不停测试。最终在他办公室演示了2个小时,终于说服他。他的一个博士又不信(计算机专业毕业,曾在软件公司工作过,改行来读海洋博士,也曾经移植同一个模式到其他海域,似乎没遇到问题,因此不信,非的我演示给他看)。无奈,又花了2小时演示给他看。知道他自己和我一起在计算机面前测试,才相信。然后一起花了1个半小时找问题,还没找到。


结果问题就是这样一个小小的东西:

gsigt(jk) = -fssig1( REAL(jk,wp)            , rn_bb,jpksigm )

改成

gsigt(jk) = -fssig1( REAL(jk,wp)+0.0_wp     , rn_bb,jpksigm )

就解决问题了。其中的_wp表示双精度,通过+0.0_wp把和值变成双精度类型,这样调用子函数fssig1就不出错了。真是晕死了。我的一个月时间.....


为什么会花一个月?因为在windows单cpu运行是不报错,结果正常,使用intel11.x的编译器。

在dell一个小型机(也是集群),也正常,使用intel13.x编译器。

在我们实验室的集群上也正常,使用pgi编译器。

结果就在Fotcluster2(Plymouth大学集群)上不正常!!!!苍天啊,大地啊!


好在目前回归正常。随便上传两张图片,庆贺一下,然后睡觉





https://blog.sciencenet.cn/blog-113657-690735.html

上一篇:我们的建筑什么时候才能更节能!--访英见闻(三)
下一篇:访英见闻录(六)积累 -- 国内实验室亟需的最重要科研经验之一
收藏 IP: 141.163.62.*| 热度|

1 虞左俊

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 17:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部