九游平台/ ai开发平台modelarts/ api参考/ / 查询训练作业详情

更新时间：2025-03-11 gmt 08:00

查看pdf

查询训练作业详情-九游平台

功能介绍

查询训练作业详情。

调试

您可以在中调试该接口，支持自动认证鉴权。api explorer可以自动生成sdk代码示例，并提供sdk代码示例调试功能。

uri

get /v2/{project_id}/training-jobs/{training_job_id}

表1 路径参数
参数	是否必选	参数类型	描述
project_id	是	string	用户项目id。获取方法请参见获取项目id和名称。
training_job_id	是	string	训练作业id。获取方法请参见。

请求参数

无

响应参数

状态码：200

表2 响应body参数
参数	参数类型	描述
kind	string	训练作业类型。默认使用job。枚举值： job 训练作业。
metadata	jobmetadata object	训练作业元信息。
status	status object	训练作业状态信息。创建作业无需填写。
algorithm	jobalgorithmresponse object	训练作业算法。目前支持三种形式： id：只取算法的id； subscription_id item_version_id：取算法的订阅id和版本id； code_dir boot_file：取训练作业的代码目录和启动文件。
tasks	array of taskresponse objects	异构训练作业的任务列表。
spec	specresponce object	训练作业规格参数。
endpoints	jobendpointsresp object	远程接入训练作业时需要的相关配置。

表3 jobmetadata
参数	参数类型	描述
id	string	训练作业id，创建成功后由modelarts生成返回，无需填写。
name	string	训练作业名称。限制为1-64位只含数字、字母、下划线和中划线的名称。
workspace_id	string	指定作业所处的工作空间，默认值为“0”。
description	string	对训练作业的描述，默认为“null”，字符串的长度限制为[0, 256]。
create_time	long	训练作业创建时间戳，单位为毫秒，创建成功后由modelarts生成返回，无需填写。
user_name	string	训练作业创建用户的用户名，创建成功后由modelarts生成返回，无需填写。
annotations	map	训练作业高级功能配置，可选取值如下： "job_template": "template rl"（异构作业）。 "fault-tolerance/job-retry-num": "3"（故障自动重启次数）。 "fault-tolerance/job-unconditional-retry": "true"（无条件重启） "fault-tolerance/hang-retry": "true"（卡死重启） "jupyter-lab/enable": "true"（jupyterlab训练应用程序）。 "tensorboard/enable": "true"（tensorboard训练应用程序）。 "mindstudio-insight/enable": "true"（mindstudio insight训练应用程序）。

表4 status
参数	参数类型	描述
phase	string	训练作业一级状态。可选值如下： creating：创建中 pending：等待中 running：运行中 failed：运行失败 completed：已完成 terminating：停止中 terminated：已停止 abnormal：异常
secondary_phase	string	训练作业二级状态为内部详细状态，可能会增加、修改、删除，不建议依赖。可选值如下： creating：创建中 queuing：排队中 running：运行中 failed：运行失败 completed：已完成 terminating：停止中 terminated：已停止 createfailed：创建失败 terminatedfailed：停止失败 unknown：未知状态 lost：异常
duration	long	训练作业运行时长，单位为毫秒。
node_count_metrics	array>	训练作业运行时节点数变化指标。
tasks	array of strings	训练作业子任务名称。
start_time	long	训练作业开始时间，格式为时间戳。
task_statuses	array of taskstatuses objects	训练在子任务状态信息。
running_records	array of runningrecord objects	训练作业运行及故障恢复记录。

表5 taskstatuses
参数	参数类型	描述
task	string	训练作业子任务名称。
exit_code	integer	训练作业子任务退出码。
message	string	训练作业子任务错误消息。

表6 runningrecord
参数	参数类型	描述
start_at	integer	本次运行开始时间的unix时间戳，单位为秒(s)。
end_at	integer	本次运行结束时间的unix时间戳，单位为秒(s)。
start_type	string	本地运行的启动方式： init_or_rescheduled：代表本次启动为被调度后的首次运行，包括初次启动及调度恢复后的运行。 restarted：代表本次启动非被调度后的首次运行，为进程重启后的运行。
end_reason	string	本次运行结束原因。
end_related_task	string	引发本次运行结束的task worker id(如worker-0)。
end_recover	string	本次运行结束后所采取的故障容忍策略，枚举值如下： npu_proc_restart: npu原地热恢复 gpu_proc_restart: gpu原地热恢复 proc_restart: 进程原地重启 pod_reschedule: pod级重调度 job_reschedule: job级重调度 job_reschedule_with_taint: 隔离式job重调度
end_recover_before_downgrade	string	本次运行结束后在故障容忍策略降级前所采取的容忍策略，取值范围同end_recover。

表7 jobalgorithmresponse
参数	参数类型	描述
id	string	训练作业算法。目前支持三种形式： id：只取算法的id； subscription_id item_version_id：取算法的订阅id和版本id； code_dir boot_file：取训练作业的代码目录和启动文件。
name	string	算法名称。
subscription_id	string	订阅算法的订阅id。应与item_version_id一同出现。
item_version_id	string	订阅算法的版本。应与subscription_id一同出现。
code_dir	string	训练作业的代码目录。如：“/usr/app/”。应与boot_file一同出现，如果boot_file已经填入id或subscription_id item_version_id，则无需填写此参数。
boot_file	string	训练作业的代码启动文件，需要在代码目录下。如：“/usr/app/boot.py”。应与code_dir一同出现，如果code_dir已经填入id或subscription_id item_version_id，则无需填写此参数。
autosearch_config_path	string	自动化搜索作业的yaml配置路径，需要提供一个obs路径。如：“obs://bucket/file.yaml”。
autosearch_framework_path	string	自动化搜索作业的框架代码目录，需要提供一个obs路径。如：“obs://bucket/files/”。
command	string	自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。
parameters	array of parameter objects	训练作业的运行参数。
policies	policies object	作业支持的策略。
inputs	array of input objects	训练作业的数据输入。
outputs	array of output objects	训练作业的结果输出。
engine	jobengine object	训练作业的引擎。使用算法管理的算法id或订阅算法subscription_id item_version_id创建作业时，无需填写。
local_code_dir	string	算法的代码目录下载到训练容器内的本地路径。规则如下：必须为/home下的目录； v1兼容模式下，当前字段不生效；当code_dir以file://为前缀时，当前字段不生效。
working_dir	string	运行算法时所在的工作目录。规则：v1兼容模式下，当前字段不生效。
environments	array of map objects	训练作业的环境变量。格式："key":"value"，无需填写。
summary	summary object	可视化日志summary。

表8 parameter
参数	参数类型	描述
name	string	参数名称。
value	string	参数值。
description	string	参数描述信息。
constraint	constraint object	参数属性。
i18n_description	i18n_description object	国际化描述。

表9 constraint
参数	参数类型	描述
type	string	参数种类。
editable	boolean	是否可编辑。
required	boolean	是否必须。
sensitive	boolean	是否敏感。该功能暂未实现。
valid_type	string	有效种类。
valid_range	array of strings	有效范围。

**表10** i18n_description
参数	参数类型	描述
language	string	国际语种，可选值如下： zh-cn（中文） en-us（英文）
description	string	国际化语种的描述信息。

**表11** policies
参数	参数类型	描述
auto_search	auto_search object	超参搜索配置。

**表12** auto_search
参数	参数类型	描述
skip_search_params	string	需要排除的超参组合。
reward_attrs	array of reward_attrs objects	搜索指标列表。
search_params	array of search_params objects	搜索参数。
algo_configs	array of algo_configs objects	搜索算法配置。

**表13** reward_attrs
参数	参数类型	描述
name	string	指标名称。
mode	string	搜索方向。 max指定时表示指标值越大越好； min指定时表示指标值越小越好。
regex	string	指标正则表达式。

**表14** search_params
参数	参数类型	描述
name	string	超参名称。
param_type	string	参数类型。 continuous：指定时表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时，控制台显示为输入框。 discrete：指定时表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时，控制台显示为下拉选择框架。
lower_bound	string	超参下界。
upper_bound	string	超参上界。
discrete_points_num	string	连续型超参离散化取值个数。
discrete_values	array of strings	离散型超参的取值列表。

**表15** algo_configs
参数	参数类型	描述
name	string	搜索算法名称。
params	array of autosearchalgoconfigparameter objects	搜索算法参数。

**表16** autosearchalgoconfigparameter
参数	参数类型	描述
key	string	参数键。
value	string	参数值。
type	string	参数种类。

**表17** input
参数	参数类型	描述
name	string	数据输入通道名称。
description	string	数据输入通道描述信息。
local_dir	string	数据输入通道映射的容器本地路径。例如，“/home/ma-user/modelarts/inputs/data_url_0”。
remote	inputdatainfo object	数据实际输入信息。枚举值： dataset：指定输入为数据集； obs：指定输入为obs路径。
remote_constraint	array of remote_constraint objects	数据输入约束。

**表18** inputdatainfo
参数	参数类型	描述
dataset	dataset object	数据输入信息为数据集。
obs	obs object	数据输入输出信息为obs方式。

**表19** dataset
参数	参数类型	描述
id	string	训练作业的数据集id。
version_id	string	训练作业的数据集版本id。
obs_url	string	训练作业需要的数据集obs路径url，modelarts会通过数据集id和数据集版本id自动解析生成。如：“/usr/data/”。

**表20** obs
参数	参数类型	描述
obs_url	string	训练作业需要的数据集obs路径url。如：“/usr/data/”。

**表21** remote_constraint
参数	参数类型	描述
data_type	string	数据输入类型，包括数据存储位置、数据集两种方式。
attributes	string	数据输入为数据集时的相关属性。枚举值： data_format 数据格式； data_segmentation 数据切分方式； dataset_type 标注类型。

**表22** output
参数	参数类型	描述
name	string	数据输出通道名称。
description	string	数据输出通道描述信息。
local_dir	string	数据输出通道映射的容器本地路径。
remote	remote object	数据实际输出信息。

**表23** jobengine
参数	参数类型	描述
engine_id	string	训练作业选择的引擎规格id。engine_id，engine_name engine_version和image_url方式三选一。
engine_name	string	训练作业选择的引擎名称。如果已填写engine_id，则此参数无需填写。
engine_version	string	训练作业选择的引擎版本名称。如果已填写engine_id，则此参数无需填写。
image_url	string	训练作业选择的自定义镜像地址，地址从swr服务获取。
install_sys_packages	boolean	是否需要安装训练平台指定的 moxing 版本。true为需要。只有填写了engine_name，engine_version，image_url参数时支持该设置。

**表24** summary
参数	参数类型	描述
log_type	string	训练作业可视化日志类型，配置后训练作业可作为可视化作业数据源。可选取值如下： "tensorboard" "mindstudio-insight"
log_dir	logdir object	训练作业可视化日志输出，log_type非空时必填。
data_sources	array of datasource objects	可视化作业或训练作业调试模式的可视化日志输入，训练作业高级功能开启"tensorboard/enable": "true"或"mindstudio-insight/enable": "true"时必填。

**表25** logdir
参数	参数类型	描述
pfs	pfssummary object	obs并行文件系统输出。

**表26** pfssummary
参数	参数类型	描述
pfs_path	string	obs并行文件系统路径url。

**表27** datasource
参数	参数类型	描述
job	jobsummary object	作业数据源。

**表28** jobsummary
参数	参数类型	描述
job_id	string	训练作业id。

**表29** taskresponse
参数	参数类型	描述
role	string	任务角色，该功能暂未支持。
algorithm	taskresponsealgorithm object	算法管理算法配置。
task_resource	flavorresponse object	训练作业、算法的规格信息。

**表30** taskresponsealgorithm
参数	参数类型	描述
code_dir	string	算法启动文件所在目录绝对路径。
boot_file	string	算法启动文件绝对路径。
inputs	algorithminput object	算法输入通道信息。
outputs	algorithmoutput object	算法输出通道信息。
engine	algorithmengine object	异构作业所依赖的引擎。
local_code_dir	string	算法的代码目录下载到训练容器内的本地路径。规则如下：必须为/home下的目录； v1兼容模式下，当前字段不生效；当code_dir以file://为前缀时，当前字段不生效。
working_dir	string	运行算法时所在的工作目录。规则：v1兼容模式下，当前字段不生效。

**表31** algorithminput
参数	参数类型	描述
name	string	数据输入通道名称。
local_dir	string	数据输入输出通道映射的容器本地路径。
remote	algorithmremote object	数据实际输入信息，异构作业只支持obs。

**表32** algorithmremote
参数	参数类型	描述
obs	remoteobs object	数据输入输出信息为obs方式。

**表33** algorithmoutput
参数	参数类型	描述
name	string	数据输出通道名称。
local_dir	string	数据输出通道映射的容器本地路径。
remote	remote object	数据实际输出信息。
mode	string	数据传输模式，默认为“upload_periodically”。
period	string	数据传输周期，默认为30s。

**表34** remote
参数	参数类型	描述
obs	remoteobs object	数据实际输出到obs。

**表35** remoteobs
参数	参数类型	描述
obs_url	string	数据实际输出到obs的路径。

**表36** algorithmengine
参数	参数类型	描述
engine_id	string	引擎规格的id。如“caffe-1.0.0-python2.7”。
engine_name	string	引擎规格的名称。如“caffe”。
engine_version	string	引擎规格的版本。对一个引擎名称，有多个版本的引擎，如使用python2.7的"caffe-1.0.0-python2.7"等。
v1_compatible	boolean	是否为v1兼容模式。
run_user	string	引擎默认启动用户uid。
image_url	string	算法选择的自定义镜像地址。

**表37** flavorresponse
参数	参数类型	描述
flavor_id	string	资源规格的id。
flavor_name	string	资源规格的名称。
max_num	integer	资源规格的最大节点数。
flavor_type	string	资源规格的类型。可选值如下： cpu gpu ascend
billing	billinginfo object	资源规格计费信息。
flavor_info	flavorinforesponse object	资源规格详细信息。
attributes	map	其他规格属性。

**表38** flavorinforesponse
参数	参数类型	描述
max_num	integer	可以选择的最大节点数量（max_num，为1代表不支持分布式）。
cpu	cpu object	cpu规格信息。
gpu	gpu object	gpu规格信息。
npu	npu object	ascend规格信息。
memory	memory object	内存信息。
disk	diskresponse object	磁盘信息。

**表39** diskresponse
参数	参数类型	描述
size	integer	磁盘大小。
unit	string	磁盘大小单位。

**表40** specresponce
参数	参数类型	描述
resource	resource object	训练作业资源规格信息。flavor_id和pool_id [flavor_id]方式二选一。
volumes	array of jobvolume objects	训练作业挂载卷信息。
log_export_path	logexportpath object	训练作业日志输出信息。
schedule_policy	schedulepolicy object	训练作业调度策略
custom_metrics	array of custommetrics objects	指标采集配置

**表41** resource
参数	参数类型	描述
policy	string	训练作业资源规格模式，可选值为regular，表示为标准模式。
flavor_id	string	训练作业资源规格id。cpu规格专属资源池不支持指定flavor_id。gpu/ascend规格专属资源池可选取值如下： modelarts.pool.visual.xlarge（1卡） modelarts.pool.visual.2xlarge（2卡） modelarts.pool.visual.4xlarge（4卡） modelarts.pool.visual.8xlarge（8卡）
flavor_name	string	使用flavor_id时，由modelarts返回的只读规格名称。
node_count	integer	训练作业选择的资源副本数。
pool_id	string	训练作业选择的资源池id。
flavor_detail	flavordetail object	训练作业、算法的规格信息（该字段只有公共资源池存在）。

**表42** flavordetail
参数	参数类型	描述
flavor_type	string	资源规格的类型。可选值如下： cpu gpu ascend
billing	billinginfo object	资源规格计费信息。
flavor_info	flavorinfo object	资源规格详细信息。

**表43** billinginfo
参数	参数类型	描述
code	string	计费码。
unit_num	integer	计费单元。

**表44** flavorinfo
参数	参数类型	描述
max_num	integer	可以选择的最大节点数量（max_num，为1代表不支持分布式）。
cpu	cpu object	cpu规格信息。
gpu	gpu object	gpu规格信息。
npu	npu object	ascend规格信息。
memory	memory object	内存信息。
disk	disk object	磁盘信息。

**表45** cpu
参数	参数类型	描述
arch	string	cpu架构。
core_num	integer	核数。

**表46** gpu
参数	参数类型	描述
unit_num	integer	gpu卡数。
product_name	string	产品名。
memory	string	内存。

**表47** npu
参数	参数类型	描述
unit_num	string	npu卡数。
product_name	string	产品名。
memory	string	内存。

**表48** memory
参数	参数类型	描述
size	integer	内存大小。
unit	string	内存单元数。

**表49** disk
参数	参数类型	描述
size	string	磁盘大小。
unit	string	磁盘大小单位，一般为gb。

**表50** jobvolume
参数	参数类型	描述
nfs	nfs object	nfs方式的挂载卷。

**表51** nfs
参数	参数类型	描述
nfs_server_path	string	nfs服务端路径，如：“10.10.10.10:/example/path”。
local_path	string	挂载到训练容器中的路径，如：“/example/path”。
read_only	boolean	nfs挂载卷在容器中是否只读。

**表52** logexportpath
参数	参数类型	描述
obs_url	string	训练作业日志保存的obs地址，如：“obs://example/path”。
host_path	string	训练作业日志保存的宿主机的路径，如：“/example/path”。

**表53** schedulepolicy
参数	参数类型	描述
required_affinity	requiredaffinity object	训练作业亲和要求
priority	integer	训练作业优先级
preemptible	boolean	是否可以被抢占

**表54** requiredaffinity
参数	参数类型	描述
affinity_type	string	亲和调度策略，可选取值如下: cabinet 强整柜调度 hyperinstance 超节点亲和调度
affinity_group_size	integer	亲和组大小，affinity_type为hyperinstance时必填，系统会将affinity_group_size个task调度到一个超节点内组成亲和组。用户向超节点资源池投递训练作业，如果未设置亲和组大小，系统会默认赋值为1。

**表55** custommetrics
参数	参数类型	描述
metrics_url	string	指标采集的url，和下面的端口要么都填，要么都不填
metrics_port	integer	指标采集的端口，和下面的端口要么都填，要么都不填

**表56** jobendpointsresp
参数	参数类型	描述
ssh	sshresp object	ssh连接信息。
jupyter_lab	jupyterlab object	jupyterlab连接信息。
tensorboard	tensorboard object	tensorboard连接信息。
mindstudio_insight	mindstudioinsight object	mindstudio insight连接信息。

**表57** sshresp
参数	参数类型	描述
key_pair_names	array of strings	ssh密钥对名称，可以在云服务器控制台（ecs）“密钥对”页面创建和查看。
task_urls	array of taskurls objects	ssh连接地址信息。

**表58** taskurls
参数	参数类型	描述
task	string	训练作业的任务id。
url	string	训练作业ssh连接地址。

**表59** jupyterlab
参数	参数类型	描述
url	string	训练作业的jupyterlab地址。
token	string	训练作业的jupyterlab token。

**表60** tensorboard
参数	参数类型	描述
url	string	训练作业的tensorboard地址。
token	string	训练作业的tensorboard token。

**表61** mindstudioinsight
参数	参数类型	描述
url	string	训练作业的mindstudio insight地址。
token	string	训练作业的mindstudio insight token。

请求示例

如下以查询uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。

get https://endpoint/v2/{project_id}/training-jobs/3faf5c03-aaa1-4cbe-879d-24b05d997347

响应示例

状态码：200

{
  "kind" : "job",
  "metadata" : {
    "id" : "3faf5c03-aaa1-4cbe-879d-24b05d997347",
    "name" : "trainjob--py14_mem06-108",
    "description" : "",
    "create_time" : 1636447346315,
    "workspace_id" : "0",
    "user_name" : ""
  },
  "status" : {
    "phase" : "abnormal",
    "secondary_phase" : "createfailed",
    "duration" : 0,
    "start_time" : 0,
    "node_count_metrics" : [ [ 1636447746000, 0 ], [ 1636447755000, 0 ], [ 1636447756000, 0 ] ],
    "tasks" : [ "worker-0" ],
    "running_records" : [ {
      "start_at" : 1701327093,
      "end_at" : 1701322341,
      "start_type" : "init_or_rescheduled",
      "end_recover" : "job_reschedule",
      "end_reason" : "exit with 127",
      "end_related_task" : "worker-2",
      "end_recover_before_downgrade" : "npu_proc_restart"
    }, {
      "start_at" : 1701323345,
      "end_at" : 1701325432,
      "start_type" : "init_or_rescheduled",
      "end_reason" : "job completed"
    } ]
  },
  "algorithm" : {
    "code_dir" : "obs://test/economic_test/py_minist/",
    "boot_file" : "obs://test/economic_test/py_minist/minist_common.py",
    "inputs" : [ {
      "name" : "data_url",
      "local_dir" : "/home/ma-user/modelarts/inputs/data_url_0",
      "remote" : {
        "obs" : {
          "obs_url" : "/test/data/py_minist/"
        }
      }
    } ],
    "outputs" : [ {
      "name" : "train_url",
      "local_dir" : "/home/ma-user/modelarts/outputs/train_url_0",
      "remote" : {
        "obs" : {
          "obs_url" : "/test/train_output/"
        }
      }
    } ],
    "engine" : {
      "engine_id" : "pytorch-cp36-1.4.0-v2",
      "engine_name" : "pytorch",
      "engine_version" : "pytorch-1.4.0-python3.6-v2"
    }
  },
  "spec" : {
    "resource" : {
      "flavor_id" : "modelarts.vm.pnt1.large.eco",
      "node_count" : 1,
      "flavor_detail" : {
        "flavor_type" : "gpu",
        "billing" : {
          "code" : "modelarts.vm.gpu.pnt1.eco",
          "unit_num" : 1
        },
        "flavor_info" : {
          "cpu" : {
            "arch" : "x86",
            "core_num" : 8
          },
          "gpu" : {
            "unit_num" : 1,
            "memory" : "8gb"
          },
          "memory" : {
            "size" : 64,
            "unit" : "gb"
          }
        }
      }
    },
    "custom_metrics" : [ {
      "metrics_url" : "/raw_text",
      "metrics_port" : 5006
    } ]
  }
}

状态码

状态码	描述
200	ok

错误码

请参见。

父主题：

上一篇：创建训练作业

意见反馈

文档内容是否对您有帮助？

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨