查看训练作业详情-九游平台
- 登录modelarts管理控制台。
- 在左侧导航栏中,选择“训练作业”列表。
在作业列表,单击“导出”,可以将训练作业根据时间周期导出excel表到本地。最多只支持导出前200行数据。
,进入 - 在“训练作业”列表中,单击作业名称,进入训练作业详情页。
- 在训练作业详情页的左侧,可以查看此次训练作业的基本信息和算法配置的相关信息。
- 训练作业基本信息
表1 训练作业基本信息 参数
说明
“作业id”
训练作业唯一标识。
“作业状态”
训练作业状态。
说明:- 如果昇腾以及mindspore框架的训练作业运行失败,您可以在作业状态的提示信息中,单击进行发帖提问或者搜索问题。
- 非昇腾规格的作业运行失败后,您可以在作业状态的提示信息中,单击进行发帖或者搜索已有问题。
“创建时间”
记录训练作业创建时间。
“运行时长”
记录训练作业运行时长,是训练作业全生命周期中多次的k8s资源运行的时长总和。
“重启次数”
记录训练过程中时如果出现故障,作业自动重启的次数。仅当创建训练作业时开启“自动重启”功能时可见。
“描述”
训练作业的描述。
您可以单击编辑图标,更新训练作业的描述。
“作业优先级”
显示训练作业的优先级。
- 训练作业参数
表2 训练作业参数 参数
说明
“算法名称”
本次训练作业使用的算法。单击算法名称,可以跳转至算法详情页面。
“预置镜像”
本次训练作业使用的预置镜像框架。仅使用预置框架创建的训练作业才有该参数。
“自定义镜像”
本次训练作业使用的自定义镜像。仅使用自定义镜像创建的训练作业才有该参数。
“代码目录”
训练作业代码目录所在的obs路径。
您可以单击代码目录后的“编辑代码”,在“obs在线编辑”对话框中实时编辑训练脚本代码。当训练作业状态为“等待中”、“创建中”和“运行中”时,不支持“obs在线编辑”功能。
说明:当您使用订阅算法创建训练作业时,不支持该参数。
“启动文件”
训练作业启动文件位置。
说明:当您使用订阅算法创建训练作业时,不支持该参数。
“运行用户id”
容器运行时的用户id。
“本地代码目录”
训练代码在训练容器中的存放路径。
“工作目录”
训练启动文件在训练容器中的路径。
“实例数”
本次训练作业设置的实例数。
“专属资源池”
专属资源池信息,仅当训练作业使用专属资源池时可见。
“实例规格”
本次训练作业使用的训练规格。
“输入-输入路径”
本次训练中,输入数据的obs路径。
“输入-参数名称”
算法代码中,输入路径指代的参数。
“输入-获取方式”
本次训练作业的输入采用的获取方式。
“输入-本地路径(训练参数值)”
训练启动后,modelarts将obs路径中的数据下载至后台容器,本地路径指modelarts后台容器中存储输入数据的路径。
“输出-输出路径”
本次训练中,输出数据的obs路径。
“输出-参数名称”
算法代码中,输出路径指代的参数。
“输出-获取方式”
本次训练作业的输出采用的获取方式。
“输出-本地路径(训练参数值)”
modelarts后台容器中存储训练输出的路径。
“超参”
本次训练作业使用的超参。
“环境变量”
本次训练作业设置的环境变量。
- 训练作业基本信息
- 在训练详情页,支持管理训练作业的事件通知。
- 作业状态为“已完成”“运行失败”“异常”和“已终止”的训练作业不支持在详情中配置事件通知。
- 拥有查看列表中作业的权限才能配置事件通知。
- 如果是修改事件类型,只会通知修改成功之后的训练状态变化。
配置事件通知后,在训练作业发生特定事件(如作业状态变化或者疑似卡死)后会发送通知(短信邮件等),发送通知涉及少量费用,详情查看消息通知服务。
- 如果训练作业已经启用事件通知,则可以单击“已配置”右侧的
,修改或关闭事件通知。
图1 修改事件通知 - 如果训练作业未启用事件通知,则可以单击“未配置”右侧的
,启用并配置事件通知。
图2 配置事件通知
表3 事件通知的参数说明 参数名称
说明
主题名
事件通知的主题名称。可以在下拉框中选择合适的主题名称,也可以单击“立即创建”,前往消息通知服务中新建主题。
说明:在消息通知服务中创建主题,并为该主题添加订阅,确认该订阅状态为“已确认”后,方可收到事件消息提醒。
事件
选择要订阅的事件类型。例如“作业开始”、“作业结束”、“作业失败”、“作业终止”、“作业疑似卡死”等。
说明:只有资源类型为gpu或npu的训练作业才支持通知“作业疑似卡死”的事件。
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨