更新时间:2025-03-04 gmt 08:00

notebook cache盘告警上报-九游平台

创建notebook时,可以根据业务数据量的大小选择cpu、gpu或者ascend资源,对gpu或ascend类型的资源,modelarts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。

当前开发环境的cache盘使用时,没有容量告警,在使用时很容易超过限制,并直接重启notebook实例。重启后多种配置重置,会导致用户数据丢弃,环境丢失,造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警,并将数据上报至aom平台。

配置流程

  1. 填写告警基本信息
  2. 设置告警规则
    1. 监控对象指标配置
    2. 告警触发条件设置
  3. 告警通知设置
    1. 创建主题、设置主题策略、订阅主题
    2. 创建告警行动规则
    3. 选择已创建的行动规则

告警上报配置方法

  1. 登录aom控制台。
  2. 单击“告警 > 告警规则”,在“告警规则”界面,单击“添加告警”
  3. 填写告警基本信息。

  4. 设置告警规则。

    “规则类型”选择“阈值规则”

    “监控对象”:选择“选择资源对象”。单击选择资源对象,弹出新窗口。

    • 添加方式:选择“按指标维度添加”
    • 指标名称:选择“全量指标”,搜索需要监控的cache指标名称然后选中。例如:ma_container_notebook_cache_dir_size_bytes(cache目录的总大小)、ma_container_notebook_cache_dir_util(cache目录的利用率)
    • 指标维度:根据实际需求选择相应的指标维度。例如service_id:xxx,然后单击“确定”

    监控对象设置完成后,选择“统计方式”“统计周期”

    “告警条件设置”:触发条件根据实际需求设置。

    图1 监控对象指标设置
    图2 设置指标统计方式
    图3 告警条件设置
  5. 设置告警通知,单击“立即创建”

    “告警方式”:选择“直接告警”

    “行动规则”:开启开关,选择已创建的行动规则。如果现有列表中的告警行动规则无法满足需要,可单击“新建告警行动规则”添加,详细操作请参考创建告警行动规则

    “告警恢复通知”:开启开关

    图4 设置告警通知

    先在smn创建一个主题,用于配置告警通知规则。更多内容请参考消息通知服务用户指南

    • 创建主题
      1. 进入“消息通知服务”控制台,单击“主题管理 > 主题”,进入“主题”页面。
      2. 单击“创建主题”填写主题名称,选择企业项目后,单击确定即可创建一个主题。
      3. 单击主题名称“操作”列的“更多 > 设置主题策略”

        选择apm,即允许aom的告警触发smn服务。

        图5 设置主题策略
      4. 单击主题名称“操作”列的“添加订阅”。订阅成功后,一旦满足告警条件,那么就会收到通知。

        选择合适的协议,如邮件,短信等,并填写终端,如邮件地址,手机号等。单击确认。

        此时订阅总数中会出现一条记录,但是处于未确认的状态。

        收到邮件后单击“订阅确认”

        此时该订阅记录将处于已确认的状态。

    • 创建告警行动规则

      行动规则即为告警触发时,aom以怎样的方式来告知用户。启用告警行动规则后,系统根据关联smn主题与消息模板来发送告警通知。更多详情请参考aom用户指南

      根据界面提示填写行动规则名称,选择行动规则类型,选择上一步创建的主题,选择消息模板,然后单击“确定”

      图6 新建告警行动规则

在之前打开的“创建告警规则”页面的告警通知区域“行动规则”选择新创建的告警行动规则,单击“立即创建”

至此,整个告警流程配置完成,一旦满足告警条件,那么就会收到邮件通知。

相关文档

网站地图