九游平台/
ai开发平台modelarts/
modelarts用户指南(standard)/
modelarts standard资源管理/
管理standard专属资源池/
升级standard专属资源池驱动
更新时间:2025-03-04 gmt 08:00
升级standard专属资源池驱动-九游平台
场景介绍
当专属资源池中的节点含有gpu/ascend资源时,用户基于自己的业务,可能会有自定义gpu/ascend驱动的需求,modelarts面向此类客户提供了自助升级专属资源池gpu/ascend驱动的能力。
驱动升级有两种升级方式:安全升级、强制升级。

- 安全升级:不影响正在运行的业务,开始升级后会先将节点进行隔离(不能再下发新的作业),待节点上的存量作业运行完成后再进行升级,因需要等待作业完成,故升级周期可能比较长。
- 强制升级:忽略资源池中正在运行的作业,直接进行驱动升级,可能会导致运行中作业失败,需谨慎选择。
约束限制
- 专属资源池状态处于运行中,且专属池中的节点需要含有gpu/ascend资源。
- 对于逻辑资源池,需要开启节点绑定后才能进行驱动升级,请提交工单联系华为工程师开启节点绑定。
- 当逻辑池开启绑定节点后,且升级过驱动;再操作物理池升级驱动,此时只能升级未绑定的节点;如需升级整个物理池,需先取消逻辑池节点绑定
驱动升级操作
- 登录modelarts管理控制台,在左侧导航栏中选择“ai专属资源池 > 弹性集群cluster”,进入“standard资源池”页面。
- 在资源池列表中,选择需要进行驱动升级的资源池,在右侧的操作列,单击“
> 驱动升级”。
- 在“驱动升级”弹窗中,会显示当前专属资源池的驱动类型、实例数量、当前版本、目标版本、升级方式、升级范围和开启滚动开关。
- 目标版本:在目标版本下拉框中,选择一个目标驱动版本。对于资源池新增加的节点,可能会与资源池原有节点驱动不一致,为了保持驱动一致,目标版本可选择当前驱动版本,升级完成后所有节点驱动会升级为统一版本。
- 升级方式:可选择安全升级或强制升级。
- 安全升级:待节点上没有作业时再升级,升级周期可能比较长。
- 强制升级:忽略运行中作业,直接升级,可能会导致运行中作业失败。
- 开启滚动:开启开关后,支持滚动升级的方式升级驱动。当前支持“按节点比例”和“按实例数量”两种滚动方式。
- 按节点比例:每批次驱动升级的实例数量为“节点比例*资源池实例总数”。
- 按实例数量:每批次驱动升级的实例数量为设置的实例数量。
对于不同的升级方式,滚动升级选择节点的策略会不同:
- 如果升级方式为安全升级,则根据滚动实例数量选择无业务的节点,隔离节点并滚动升级。
- 如果升级方式为强制升级,则根据滚动实例数量随机选择节点,隔离节点并滚动升级。
- 无业务节点定义:在资源池详情“节点”页签下,如果gpu/ascend的可用数等于总数,则为无业务节点。
- 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。
图1 驱动升级 - 设置完成后,单击“确定”开始驱动升级。
父主题: 管理standard专属资源池
相关文档
意见反馈
文档内容是否对您有帮助?
提交成功!非常感谢您的反馈,我们会继续努力做到更好!
您可在查看反馈及问题处理状态。
系统繁忙,请稍后重试
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨