原创

LSF作业系统bjob一直pend

温馨提示:
本文最后更新于 2024年03月30日,已超过 30 天没有更新。若文章内的图片失效(无法正常加载),请留言反馈或直接联系我

背景

普通用户A提交bjob任务一直处于pend状态,而之前的用户B则可以成功提交并运行。

插曲

考虑是否用户权限不同

检查两个用户的组id是否一致,将用户A的分组和B一致,排除因组权限不同,导致的任务提交失败。

改了后,仍然无法解决。

最终方案

确定原因是因为新建立的用户A仅在管理节点上存在,而LSF的计算节点不存在该用户,导致提交了任务,而计算节点找不到任务的发起者,所以一直pend。

所以开始同步用户信息给计算的fat节点

  1. 使用root登录,远程同步覆盖scp
scp /etc/passwd /etc/shadow /etc/group fat01:/etc/

以上命令,相当于将管理节点的所有用户信息同步给计算节点了。
这样计算节点就可以找到任务的发起者,可以运行了。

  1. 以下命令可以查看用户A在计算节点fat01上是否存在。

    ssh fat01 id userA
    
  2. 再提交任务,成功运行。

思考

  1. 在管理节点建立用户后,需要同步给计算节点,避免这种bug;

  2. 找到集群,新增用户的统一规范的命令。

正文到此结束
本文目录