更新时间:2025-03-04 gmt 08:00
查看训练作业资源占用情况-九游平台
约束限制
训练作业的资源占用情况系统会自动保存30天,过期会被清除。
如何查看训练作业资源使用详情
- 在modelarts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。
- 在训练作业列表中,单击作业名称进入训练作业详情页面。
- 在训练作业详情页面,单击“资源占用情况”页签查看计算节点的资源使用情况,最多可显示最近三天的数据。在“资源占用情况”窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。
操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。
操作二:单击图例“cpuusage”、“gpumemusage”、“gpuutil”、“memusage”“npumemusage”、“npuutil”,可以添加或取消对应参数的使用情况图。
操作三:鼠标悬浮在图片上的时间节点,可查看对应时间节点的占用率情况。
图1 资源占用情况表1 参数说明 参数
说明
cpuusage
cpu使用率。
gpumemusage
gpu内存使用率。
gpuutil
gpu使用情况。
memusage
内存使用率。
npumemusage
npu内存使用率。
npuutil
npu使用情况。
如何判断训练作业资源利用率高低
在模型训练的训练作业列表页可以查看作业资源利用率情况。当作业worker-0实例的gpu/npu的平均利用率低于50%时,在训练作业列表中会进行告警提示。
图2 作业列表显示作业资源利用率情况

此处的作业资源利用率只涉及gpu和npu资源。作业worker-0实例的gpu/npu平均利用率计算方法:将作业worker-0实例的各个gpu/npu加速卡每个时间点的利用率汇总取平均值。
如何提高训练作业资源利用率
- 适当增大batch_size:较大的batch_size可以让gpu/npu计算单元获得更高的利用率,但是也要根据实际情况来选择batch_size,防止batch_yllsize过大导致内存溢出。
- 提升数据读取的效率:如果读取一个batch数据的时间要长于gpu/npu计算一个batch的时间,就有可能出现gpu/npu利用率上下浮动的情况。建议优化数据读取和数据增强的性能,例如将数据读取并行化,或者使用nvidia data loading library(dali)等工具提高数据增强的速度。
- 模型保存不要太频繁:模型保存操作一般会阻塞训练,如果模型较大,并且较频繁地进行保存,就会影响gpu/npu利用率。同理,其他非gpu/npu操作尽量不要阻塞训练主进程太多的时间,如日志打印,保存训练指标信息等。
父主题:
相关文档
意见反馈
文档内容是否对您有帮助?
提交成功!非常感谢您的反馈,我们会继续努力做到更好!
您可在查看反馈及问题处理状态。
系统繁忙,请稍后重试
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨