更新时间:2025-01-08 gmt 08:00

modelarts standard资源监控概述-九游平台

为了满足用户对资源使用的监控诉求,modelarts standard提供了多种监控查看方式。

  • 方式一:通过modelarts standard控制台查看

    您在可通过modelarts控制台的总览页或各模块资源监控页签查看监控指标。具体涉及以下几个方面:

    • 通过modelarts控制台的总览页查看,具体请参见通过modelarts控制台查看监控指标
    • standard训练作业:用户在运行训练作业时,可以查看训练作业占用的cpu、gpu或npu资源使用情况。具体请参见训练资源监控章节。
    • standard在线服务:用户将模型部署为在线服务后,可以通过监控功能查看该推理服务的cpu、内存或gpu等资源使用统计信息和模型调用次数统计,具体参见章节。
  • 方式二:通过aom查看所有监控指标

    modelarts standard上报的所有监控指标都保存在aom中,当modelarts控制台可以查看的指标不满足诉求时,用户可以通过aom服务提供的指标消费和使用的能力来查看指标。设置指标阈值告警、告警上报等,都可以直接在aom控制台操作。具体参见通过aom控制台查看modelarts所有监控指标

  • 方式三:通过grafana查看所有监控指标

    当aom的监控模板不能满足用户诉求时,用户可以使用grafana可视化工具来查看与分析监控指标。grafana支持灵活而又复杂多样的监控视图和模板,为用户提供基于网页仪表面板的可视化监控效果,使用户更加直观地查看到实时资源使用情况。

    将grafana的数据源配置完成后,就可以通过grafana查看aom保存的所有modelarts standard的所有指标。具体参见使用grafana查看aom中的监控指标

    通过grafana插件查看aom中的监控指标的操作流程如下:

    1. 安装配置grafana

      安装配置grafana有、和三种方式,请您根据实际情况选择。

相关文档

网站地图