notebook cache盘告警上报-九游平台
创建notebook时,可以根据业务数据量的大小选择cpu、gpu或者ascend资源,对gpu或ascend类型的资源,modelarts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。
当前开发环境的cache盘使用时,没有容量告警,在使用时很容易超过限制,并直接重启notebook实例。重启后多种配置重置,会导致用户数据丢弃,环境丢失,造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警,并将数据上报至aom平台。
告警上报配置方法
- 登录aom控制台。
- 单击“告警 > 告警规则”,在“告警规则”界面,单击“添加告警”。
- 填写告警基本信息。
- 设置告警规则。
“规则类型”选择“阈值规则”。
“监控对象”:选择“选择资源对象”。单击选择资源对象,弹出新窗口。
- 添加方式:选择“按指标维度添加”。
- 指标名称:选择“全量指标”,搜索需要监控的cache指标名称然后选中。例如:ma_container_notebook_cache_dir_size_bytes(cache目录的总大小)、ma_container_notebook_cache_dir_util(cache目录的利用率)
- 指标维度:根据实际需求选择相应的指标维度。例如service_id:xxx,然后单击“确定”。
监控对象设置完成后,选择“统计方式”和“统计周期”。
“告警条件设置”:触发条件根据实际需求设置。
图1 监控对象指标设置图2 设置指标统计方式图3 告警条件设置 - 设置告警通知,单击“立即创建”。
“告警方式”:选择“直接告警”
“行动规则”:开启开关,选择已创建的行动规则。如果现有列表中的告警行动规则无法满足需要,可单击“新建告警行动规则”添加,详细操作请参考创建告警行动规则。
“告警恢复通知”:开启开关
图4 设置告警通知先在smn创建一个主题,用于配置告警通知规则。更多内容请参考消息通知服务用户指南。
- 创建主题
- 进入“消息通知服务”控制台,单击“主题管理 > 主题”,进入“主题”页面。
- 单击“创建主题”填写主题名称,选择企业项目后,单击确定即可创建一个主题。
- 单击主题名称“操作”列的“更多 > 设置主题策略”。
选择apm,即允许aom的告警触发smn服务。
图5 设置主题策略 - 单击主题名称“操作”列的“添加订阅”。订阅成功后,一旦满足告警条件,那么就会收到通知。
选择合适的协议,如邮件,短信等,并填写终端,如邮件地址,手机号等。单击确认。
此时订阅总数中会出现一条记录,但是处于未确认的状态。
收到邮件后单击“订阅确认”。
此时该订阅记录将处于已确认的状态。
- 创建告警行动规则
行动规则即为告警触发时,aom以怎样的方式来告知用户。启用告警行动规则后,系统根据关联smn主题与消息模板来发送告警通知。更多详情请参考aom用户指南。
根据界面提示填写行动规则名称,选择行动规则类型,选择上一步创建的主题,选择消息模板,然后单击“确定”。
图6 新建告警行动规则
- 创建主题
在之前打开的“创建告警规则”页面的告警通知区域,“行动规则”选择新创建的告警行动规则,单击“立即创建”。
至此,整个告警流程配置完成,一旦满足告警条件,那么就会收到邮件通知。
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨