Material Studio 8.0 Cluster 已经配置好 Torque 调度系统,并能提交并计算单机作业(14核 或者28核,集群双路cpu,每cpu 14核) 。
但是提交多机作业(大于28核 或者大于14核分配到不同节点上)时,会一直卡住,没有任何的输出,也没有新文件生成。
我弄了好几天了,怀疑是 Licences 的问题,多机计算时无法授权 Linceses,想请教大家一下。
提交了一个多机的 DMol3 作业,终止之后 检查应该是卡死在
而 todsd.txt 文件如下
很明显 在status new running 之后就卡住了,而一直过了700s 被我终止掉才出现stopping
对比运行成功的单机版 输出
可以发现是立即出现 License successful。
除了交互式的提交,我使用命令行,用2机2核 也会卡死在 DMol3.pl -standalone -fromdsd fromdsd.txt -todsd todsd.txt 而无任何输出 而单机就能立即算出
这可以说明是Lincese的原因吗,还是说是其他的问题,论坛里有人知道Cluster 的Lincense 如何正确的安装吗 (我是从网上随便找的License)
这个问题已经困扰我好几天了,搜遍了安装文档和网上,也不知道 Cluster 和Lincense 的正确安装方式
集群信息如下
集群有master 登录节点,node 1-8 计算节点, 在master上安装好 Material Studio 8.0 后,通过nfs共享给 node 1-8
master 端口是18889
master配置信息
Lincese 配置信息
返回小木虫查看更多
另外,queuingsystem 也设置了 NumCPUSsperNode = 14
torque 计算其他任务时很正常,应该也不是torque配置的问题
查一下任务运行后生成的mpd.hosts文件内容(在jobs目录下的随机任务名目录下)。
跟之前描述的一样,如果mpd.hosts有多个节点那么就会卡住,
这是某次提交56核作业的mpd.hosts: (torque 的 numa 设置, 每14核作为一个node)
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node8
node6
node6
node6
node6
node6
node6
node6
node6
node6
node6
node6
node6
node6
node6
node5
node5
node5
node5
node5
node5
node5
node5
node5
node5
node5
node5
node5
node5
,
你参考一下下面这个帖子看看,虽然是老版本,但基本配置应该变化不大:
http://blog.sciencenet.cn/home.php?mod=space&uid=63348&do=blog&id=33755
请问楼主torque怎么在主节点和子节点安装好的?装完了torque6.1.2发现pbs_mom和psb的一系列软件都打不开