LSF作业系统bjob一直pend
温馨提示:
本文最后更新于 2024年03月30日,已超过 30 天没有更新。若文章内的图片失效(无法正常加载),请留言反馈或直接联系我。
背景
普通用户A提交bjob任务一直处于pend状态,而之前的用户B则可以成功提交并运行。
插曲
考虑是否用户权限不同
检查两个用户的组id是否一致,将用户A的分组和B一致,排除因组权限不同,导致的任务提交失败。
改了后,仍然无法解决。
最终方案
确定原因是因为新建立的用户A仅在管理节点上存在,而LSF的计算节点不存在该用户,导致提交了任务,而计算节点找不到任务的发起者,所以一直pend。
所以开始同步用户信息给计算的fat节点
- 使用root登录,远程同步覆盖scp
scp /etc/passwd /etc/shadow /etc/group fat01:/etc/
以上命令,相当于将管理节点的所有用户信息同步给计算节点了。
这样计算节点就可以找到任务的发起者,可以运行了。
以下命令可以查看用户A在计算节点fat01上是否存在。
ssh fat01 id userA
再提交任务,成功运行。
思考
在管理节点建立用户后,需要同步给计算节点,避免这种bug;
找到集群,新增用户的统一规范的命令。
正文到此结束
- 本文标签: LSF Centos
- 本文链接: https://blog.voiceclouds.cn/article/103
- 版权声明: 本文由广州海琳信息技术有限公司原创发布,转载请遵循《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权