当前位置: 首页 > 计算模拟 >求助,Material Studio 8.0 Cluster 提交多机作业无法计算

求助,Material Studio 8.0 Cluster 提交多机作业无法计算

作者 sbingyi
来源: 小木虫 250 5 举报帖子
+关注

Material Studio 8.0 Cluster 已经配置好 Torque 调度系统,并能提交并计算单机作业(14核 或者28核,集群双路cpu,每cpu 14核) 。
但是提交多机作业(大于28核 或者大于14核分配到不同节点上)时,会一直卡住,没有任何的输出,也没有新文件生成。

我弄了好几天了,怀疑是 Licences 的问题,多机计算时无法授权 Linceses,想请教大家一下。

提交了一个多机的 DMol3 作业,终止之后 检查应该是卡死在

引用回帖:
Run: /opt/accelrys/MaterialsStudio8.0/bin/perl /opt/accelrys/MaterialsStudio8.0/etc/Gateway/root_default/dsd/servers/DMol3.pl -standalone -fromdsd fromdsd.txt -todsd todsd.txt

而 todsd.txt 文件如下
引用回帖:
1496842082        status        new        setup
1496842082        status        new        starting
1496842083        status        new        queued
1496842085        progress                -1
1496842088        status        new        running
1496842767        status        new        stopping
1496842775        progress                100
1496842775        message        error        Application finished with no output file GeP3-5L-1.outmol
1496842776        status        new        failure-completed

很明显 在status        new        running 之后就卡住了,而一直过了700s 被我终止掉才出现stopping

对比运行成功的单机版 输出
引用回帖:
1496842481        status        new        setup
1496842481        status        new        starting
1496842482        status        new        queued
1496842484        progress                -1
1496842488        status        new        running
1496842489        message                License checkout of MS_dmol successful
1496842489        message                License checkout of MS_dsolid successful
1496842498        intermediate        file        GeP3-5L-1.car
1496842498        intermediate        file        GeP3-5L-1.monitor
1496842503        message                SCF converged
1496842508        intermediate        file        GeP3-5L-1.car
1496842508        intermediate        file        GeP3-5L-1_opt.summ
1496842508        intermediate        file        GeP3-5L-1.monitor

可以发现是立即出现 License successful。

除了交互式的提交,我使用命令行,用2机2核 也会卡死在 DMol3.pl -standalone -fromdsd fromdsd.txt -todsd todsd.txt 而无任何输出 而单机就能立即算出

这可以说明是Lincese的原因吗,还是说是其他的问题,论坛里有人知道Cluster 的Lincense 如何正确的安装吗 (我是从网上随便找的License)

这个问题已经困扰我好几天了,搜遍了安装文档和网上,也不知道 Cluster 和Lincense 的正确安装方式

集群信息如下

集群有master 登录节点,node 1-8 计算节点, 在master上安装好 Material Studio 8.0 后,通过nfs共享给 node 1-8
master 端口是18889

master配置信息
求助,Material Studio 8.0 Cluster 提交多机作业无法计算
Lincese 配置信息
求助,Material Studio 8.0 Cluster 提交多机作业无法计算-1 返回小木虫查看更多

今日热帖
  • 精华评论
  • sbingyi

    另外,queuingsystem 也设置了 NumCPUSsperNode = 14
    torque 计算其他任务时很正常,应该也不是torque配置的问题

  • sandf

    引用回帖:
    2楼: Originally posted by sbingyi at 2017-06-07 22:18:28
    另外,queuingsystem 也设置了 NumCPUSsperNode = 14
    torque 计算其他任务时很正常,应该也不是torque配置的问题

    查一下任务运行后生成的mpd.hosts文件内容(在jobs目录下的随机任务名目录下)。

  • sbingyi

    引用回帖:
    3楼: Originally posted by sandf at 2017-06-08 07:40:27
    查一下任务运行后生成的mpd.hosts文件内容(在jobs目录下的随机任务名目录下)。...

    跟之前描述的一样,如果mpd.hosts有多个节点那么就会卡住,
    这是某次提交56核作业的mpd.hosts: (torque 的 numa 设置, 每14核作为一个node)
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node6
    node6
    node6
    node6
    node6
    node6
    node6
    node6
    node6
    node6
    node6
    node6
    node6
    node6
    node5
    node5
    node5
    node5
    node5
    node5
    node5
    node5
    node5
    node5
    node5
    node5
    node5
    node5

  • sandf

    引用回帖:
    4楼: Originally posted by sbingyi at 2017-06-08 09:50:10
    跟之前描述的一样,如果mpd.hosts有多个节点那么就会卡住,
    这是某次提交56核作业的mpd.hosts: (torque 的 numa 设置, 每14核作为一个node)
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    node8
    no ...

    你参考一下下面这个帖子看看,虽然是老版本,但基本配置应该变化不大:
    http://blog.sciencenet.cn/home.php?mod=space&uid=63348&do=blog&id=33755

  • sbkk

    请问楼主torque怎么在主节点和子节点安装好的?装完了torque6.1.2发现pbs_mom和psb的一系列软件都打不开

猜你喜欢
下载小木虫APP
与700万科研达人随时交流
  • 二维码
  • IOS
  • 安卓