更新时间:2024-04-30 gmt 08:00
为什么资源充足还是在排队?-九游平台
- 如果是公共资源池,一般是由于其他用户占用资源导致,请耐心等待或根据训练作业一直在等待中(排队)?方法降低排队时间。
- 如果是专属资源池,建议您进行以下排查:
- 排查专属资源池中是否存在其他作业(包括推理作业、训练作业、开发环境作业等)。
可通过总览页面,快速判断是否有其他模块的作业或实例在运行中,并进入到相关作业或实例上,判断是否使用了专属资源池。如判断相关作业或实例可停止,则可以停止,释放出更多的资源。
图1 总览
- 单击进入专属资源池详情页面,查看作业列表。
观察队头是否有其他作业在排队,如果已有作业在排队,则新建的作业需要继续等待。
图2 作业排队列表
- 如果通过排查计算,发现资源确实足够,则考虑可能由于资源碎片化导致的。
例如,集群共2个节点,每个节点都空闲了4张卡,总剩余卡数为8张卡,但用户的作业要求为1节点8张卡,因此无法调度上。
- 排查专属资源池中是否存在其他作业(包括推理作业、训练作业、开发环境作业等)。
父主题:
相关文档
意见反馈
文档内容是否对您有帮助?
提交成功!非常感谢您的反馈,我们会继续努力做到更好!
您可在查看反馈及问题处理状态。
系统繁忙,请稍后重试
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨