修复standard专属资源池故障节点-九游平台
standard专属资源池支持对故障节点进行修复操作,目前提供了替换节点、高可用冗余节点、重置节点和重启节点等方式。华为云九游平台的技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行,本章节同时也介绍了如何进行授权操作。
故障节点处理方式
- 高可用冗余节点
高可用冗余节点作为专属资源池内的备用节点,能够在普通节点故障时自动进行切换,可以提升资源池整体的sla,有效避免单个节点故障造成的业务受损。用户可以根据自身业务的可靠性要求设置池内的高可用节点数量。
高可用冗余节点不能用于业务运行,将影响资源池的实际可用节点数量。资源池下发任务时,请注意选择实际可用的节点数量,当选择的节点数未剔除资源池的高可用冗余节点数时,会导致任务持续等待。
高可用冗余节点的运行机制:
- 高可用冗余节点将被隔离,默认设置为不可调度,工作负载无法调度到节点上。
- 高可用冗余节点会作为备用节点与节点的故障检测配合使用,为资源池提供故障节点自动切换能力,高可用冗余节点能够在普通节点故障时自动进行切换,切换耗时通常在分钟内。切换后,原“高可用冗余节点”与“故障节点”交换高可用冗余标签,原“高可用冗余节点”自动解隔离成为普通节点,“故障节点”则成为“高可用冗余节点”,由于高可用冗余节点仅是对故障节点的切换,此时仍需对切换后的故障节点进行维修,维修后才能用于后续的自动切换。故障节点修复后,“高可用冗余”标签维持不变,修复好的节点变为新的高可用冗余节点。
相比于其他故障修复方式,高可用冗余节点可使用户免于关注节点状态,减少运维成本。但由于用户需要付费购买备用节点作为高可用冗余节点,因此资源成本会提高。
如何设置高可用节点:当前支持从资源池角度批量设置多个高可用冗余节点,也支持设置单个节点为高可用冗余节点。
- 资源池批量设置多个高可用冗余节点
- 方式一:在购买时设置(仅snt9c支持)
图1 购买时设置
参数说明:
- 开启高可用冗余:是否开启资源池的高可用冗余,超节点默认开启高可用冗余。
- 冗余节点分布策略:冗余节点的分布策略,超节点仅支持step均分:每个超节点内预留相同数量的冗余节点。
- 冗余实例数:此规格设置的高可用冗余实例数量。冗余系数指的是冗余节点分布策略为step均分时,每个超节点内预留的冗余节点数量。
- 方式二:在资源池详情页的规格页签设置
图2 规格页签设置图3 设置高可用冗余能力
- 方式三:在扩缩容页面设置
图4 设置高可用冗余能力
- 方式一:在购买时设置(仅snt9c支持)
- 设置单节点为高可用冗余节点
- 开启高可用冗余
挑选无业务节点作为高可用冗余节点使用,在资源池详情页,“节点”页签下,在想要开启高可用冗余的节点操作列,单击“更多 > 开启高可用冗余”,设置成功后,该节点高可用冗余列标签变为“启用”。
如果想批量设置节点开启高可用冗余,可勾选多个节点后,单击列表上方的“开启高可用冗余”按钮实现批量开启。
图5 开启高可用冗余能力图6 高可用冗余节点- 资源池内高可用冗余节点的建议比例: 每种资源规格建议按5%设置,如每20个节点中挑选一个作为1个高可用冗余节点。
- 无业务节点定义:在资源池详情“节点”页签下,如果gpu/ascend的可用数等于总数,则为无业务节点。
- 关闭高可用冗余
在资源池详情页,“节点”页签下,在想要关闭高可用冗余的节点操作列,单击“更多 > 关闭高可用冗余”,设置成功后,该节点高可用冗余列标签变为“--”。
取消高可用冗余将会解除隔离,工作负载可正常调度到节点上,节点不再作为备用节点使用。
如果想批量设置节点关闭高可用冗余,可勾选多个节点后,单击列表上方的“关闭高可用冗余”按钮实现批量关闭。
图7 关闭高可用冗余能力图8 非高可用冗余
- 开启高可用冗余
- 重置节点:需要升级节点操作系统时,可通过重置节点完成。更新节点配置时产生故障报错,也可通过重置节点修复故障。
“节点”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。勾选多个节点的复选框,单击操作记录旁的“重置”按钮,可实现对多个节点的重置。
下发重置节点任务时需要填写以下参数:
表1 重置参数说明 参数名称
说明
操作系统
选择下拉框中支持的操作系统。
配置方式
选择重置节点的配置方式。
- 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。
- 按节点数量:重置任务包含多个节点时,同时被重置节点的最大个数。
单击“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”。重置节点操作不会收取费用。
图9 重置节点- 重置节点将影响相关业务的运行,请谨慎操作。
- 节点状态为“可用”的节点才能进行重置。
- 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。
- 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。
- 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。
- gpu和npu规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。
图10 操作记录 - 重启节点
资源池详情页的“节点”页签中提供节点重启的功能。单击操作列的“重启”,可实现对单个节点的重启。勾选多个节点的复选框,单击操作记录旁的“重启”按钮,可实现对多个节点的重启。
下发重启节点任务时需要选择对应节点,重启节点将影响相关业务的运行,请谨慎操作。
单击“操作记录”可查看当前资源池节点的操作记录。重启中节点状态为“重启中”,重启成功后,节点状态变为“可用”。重启节点操作不会收取费用。
图11 重启节点图12 操作记录- 重启节点将影响相关业务的运行,请谨慎操作。
- 节点状态为“可用”、“不可用”的节点才能进行重启。
- 同一时间单个节点只能处于一个重启任务中,无法对同一个节点同时下发多个重启任务。
- 当操作记录里某节点处于替换中、重置中或删除中时,无法对该节点进行重启节点操作。
- 当资源池处于驱动升级状态时,该资源池无法进行重启节点操作。
- 节点重启成功后,可能出现短暂不可用现象,是正在拉起业务服务及健康检查,请耐心等待。
- 删除/退订节点:
- 如果是“按需计费”的资源池,您可单击操作列的“删除”,在文本框中输入“delete”,单击“确定”,确认删除,即可实现对单个节点的资源释放。
如果想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,在文本框中输入“delete”,单击“确定”,确认删除,即可实现对多个节点的资源释放。
- 如果是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。
- 如果是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。
部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。
- 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。
- 当资源池中存在异常节点时,可通过删除/退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。
- 仅有一个节点时,无法进行删除/退订/释放操作。
- 如果是“按需计费”的资源池,您可单击操作列的“删除”,在文本框中输入“delete”,单击“确定”,确认删除,即可实现对单个节点的资源释放。
- 开启/关闭删除锁
为了防止节点被误删除或退订,您可以根据业务对节点开启删除锁。开启删除锁的节点将无法正常使用删除/退订功能,需要关闭删除锁才可以进行删除/退订。
- 仅支持对资源池中的节点开启删除锁功能进行节点保护,暂不支持对未纳管到资源池中的游离节点开启删除锁功能。
- 开启删除锁功能仅对节点删除/退订操作进行限制,节点替换、重启节点、重置节点等其他操作不受限制,删除包含开启删除锁节点的资源池操作也不受限制。
- 开启删除锁:单击操作列的“更多>开启删除锁”,在对话框中确认即将开启删除锁的节点信息,确认完后在文本框输入“yes”,单击“确定”,即可对节点开启删除锁。
如果想批量对多个节点开启删除锁,勾选待开启删除锁的节点名称前的复选框,然后单击名称上方的“更多>开启删除锁”,即可实现对多个节点开启删除锁。
- 关闭删除锁:单击操作列的“更多>关闭删除锁”,在对话框中确认即将关闭删除锁的节点信息,确认完后在文本框输入“yes”,单击“确定”,即可对节点关闭删除锁。
如果想批量对多个节点关闭删除锁,勾选待关闭删除锁的节点名称前的复选框,然后单击名称上方的“更多>关闭删除锁”,即可关闭多个节点的删除锁。
事件中心页面授权运维
针对modelarts运维平台告警的故障节点,控制台“资源管理>事件中心”页面记录故障节点的计划事件,包括故障节点的基本信息、事件类型、事件状态、事件描述等,并支持授权和重部署操作,授权华为九游平台的技术支持对故障节点进行运维。
- 授权操作可执行条件
故障节点可执行授权操作的事件类型和事件状态如表2所示。
表2 授权操作执行条件 事件类型
事件状态
可执行授权操作
系统维护
待授权
授权、重部署
本地盘恢复
待授权
授权、重部署
运维授权
待授权
授权
超节点维护
待授权
授权
超节点重部署
待授权
重部署
- 授权操作
当故障节点满足如表2所示的条件时,可通过授权操作授权华为九游平台的技术支持对故障节点进行运维。
您可在控制台“资源管理>事件中心”页面,找到对应节点,在操作列单击“授权”,在弹出的提示框中单击“确认”即可完成授权。
图13 授权- 如果计划事件不满足如表2所示的条件,操作授权按钮为置灰状态。
- 在完成运维操作后,华为云九游平台的技术支持会主动关闭已获得授权,无需您额外操作。
- 重部署操作
当故障节点满足如表2所示的重部署操作执行条件时,可通过重部署操作授权华为九游平台的技术支持对故障节点进行重部署。
您可在控制台“资源管理>事件中心”页面,找到对应节点,在操作列单击“重部署”,在输入框中输入“redeploy”,单击“确认”即可完成授权。
- 如果计划事件不满足如表2所示的重部署操作执行条件,操作重部署按钮为置灰状态。
- 在完成运维操作后,华为云九游平台的技术支持会主动关闭已获得授权,无需您额外操作。
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨