查询训练作业详情-九游平台
功能介绍
查询训练作业详情。
调试
您可以在中调试该接口,支持自动认证鉴权。api explorer可以自动生成sdk代码示例,并提供sdk代码示例调试功能。
uri
get /v2/{project_id}/training-jobs/{training_job_id}
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
project_id |
是 |
string |
用户项目id。获取方法请参见获取项目id和名称。 |
training_job_id |
是 |
string |
训练作业id。获取方法请参见。 |
请求参数
无
响应参数
状态码:200
参数 |
参数类型 |
描述 |
---|---|---|
kind |
string |
训练作业类型。默认使用job。枚举值:
|
metadata |
jobmetadata object |
训练作业元信息。 |
status |
status object |
训练作业状态信息。创建作业无需填写。 |
algorithm |
jobalgorithmresponse object |
训练作业算法。目前支持三种形式:
|
tasks |
array of taskresponse objects |
异构训练作业的任务列表。 |
spec |
specresponce object |
训练作业规格参数。 |
endpoints |
jobendpointsresp object |
远程接入训练作业时需要的相关配置。 |
参数 |
参数类型 |
描述 |
---|---|---|
id |
string |
训练作业id,创建成功后由modelarts生成返回,无需填写。 |
name |
string |
训练作业名称。限制为1-64位只含数字、字母、下划线和中划线的名称。 |
workspace_id |
string |
指定作业所处的工作空间,默认值为“0”。 |
description |
string |
对训练作业的描述,默认为“null”,字符串的长度限制为[0, 256]。 |
create_time |
long |
训练作业创建时间戳,单位为毫秒,创建成功后由modelarts生成返回,无需填写。 |
user_name |
string |
训练作业创建用户的用户名,创建成功后由modelarts生成返回,无需填写。 |
annotations |
map |
训练作业高级功能配置,可选取值如下:
|
参数 |
参数类型 |
描述 |
---|---|---|
phase |
string |
训练作业一级状态。可选值如下:
|
secondary_phase |
string |
训练作业二级状态为内部详细状态,可能会增加、修改、删除,不建议依赖。可选值如下:
|
duration |
long |
训练作业运行时长,单位为毫秒。 |
node_count_metrics |
array |
训练作业运行时节点数变化指标。 |
tasks |
array of strings |
训练作业子任务名称。 |
start_time |
long |
训练作业开始时间,格式为时间戳。 |
task_statuses |
array of taskstatuses objects |
训练在子任务状态信息。 |
running_records |
array of runningrecord objects |
训练作业运行及故障恢复记录。 |
参数 |
参数类型 |
描述 |
---|---|---|
task |
string |
训练作业子任务名称。 |
exit_code |
integer |
训练作业子任务退出码。 |
message |
string |
训练作业子任务错误消息。 |
参数 |
参数类型 |
描述 |
---|---|---|
start_at |
integer |
本次运行开始时间的unix时间戳,单位为秒(s)。 |
end_at |
integer |
本次运行结束时间的unix时间戳,单位为秒(s)。 |
start_type |
string |
本地运行的启动方式:
|
end_reason |
string |
本次运行结束原因。 |
end_related_task |
string |
引发本次运行结束的task worker id(如worker-0)。 |
end_recover |
string |
本次运行结束后所采取的故障容忍策略,枚举值如下:
|
end_recover_before_downgrade |
string |
本次运行结束后在故障容忍策略降级前所采取的容忍策略,取值范围同end_recover。 |
参数 |
参数类型 |
描述 |
---|---|---|
id |
string |
训练作业算法。目前支持三种形式:
|
name |
string |
算法名称。 |
subscription_id |
string |
订阅算法的订阅id。应与item_version_id一同出现。 |
item_version_id |
string |
订阅算法的版本。应与subscription_id一同出现。 |
code_dir |
string |
训练作业的代码目录。如:“/usr/app/”。应与boot_file一同出现,如果boot_file已经填入id或subscription_id item_version_id,则无需填写此参数。 |
boot_file |
string |
训练作业的代码启动文件,需要在代码目录下。如:“/usr/app/boot.py”。应与code_dir一同出现,如果code_dir已经填入id或subscription_id item_version_id,则无需填写此参数。 |
autosearch_config_path |
string |
自动化搜索作业的yaml配置路径,需要提供一个obs路径。如:“obs://bucket/file.yaml”。 |
autosearch_framework_path |
string |
自动化搜索作业的框架代码目录,需要提供一个obs路径。如:“obs://bucket/files/”。 |
command |
string |
自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。 |
parameters |
array of parameter objects |
训练作业的运行参数。 |
policies |
policies object |
作业支持的策略。 |
inputs |
array of input objects |
训练作业的数据输入。 |
outputs |
array of output objects |
训练作业的结果输出。 |
engine |
jobengine object |
训练作业的引擎。使用算法管理的算法id或订阅算法subscription_id item_version_id创建作业时,无需填写。 |
local_code_dir |
string |
算法的代码目录下载到训练容器内的本地路径。规则如下:
|
working_dir |
string |
运行算法时所在的工作目录。规则:v1兼容模式下,当前字段不生效。 |
environments |
array of map |
训练作业的环境变量。格式:"key":"value",无需填写。 |
summary |
summary object |
可视化日志summary。 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
string |
参数名称。 |
value |
string |
参数值。 |
description |
string |
参数描述信息。 |
constraint |
constraint object |
参数属性。 |
i18n_description |
i18n_description object |
国际化描述。 |
参数 |
参数类型 |
描述 |
---|---|---|
type |
string |
参数种类。 |
editable |
boolean |
是否可编辑。 |
required |
boolean |
是否必须。 |
sensitive |
boolean |
是否敏感。该功能暂未实现。 |
valid_type |
string |
有效种类。 |
valid_range |
array of strings |
有效范围。 |
参数 |
参数类型 |
描述 |
---|---|---|
language |
string |
国际语种,可选值如下:
|
description |
string |
国际化语种的描述信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
auto_search |
auto_search object |
超参搜索配置。 |
参数 |
参数类型 |
描述 |
---|---|---|
skip_search_params |
string |
需要排除的超参组合。 |
reward_attrs |
array of reward_attrs objects |
搜索指标列表。 |
search_params |
array of search_params objects |
搜索参数。 |
algo_configs |
array of algo_configs objects |
搜索算法配置。 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
string |
指标名称。 |
mode |
string |
搜索方向。
|
regex |
string |
指标正则表达式。 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
string |
超参名称。 |
param_type |
string |
参数类型。
|
lower_bound |
string |
超参下界。 |
upper_bound |
string |
超参上界。 |
discrete_points_num |
string |
连续型超参离散化取值个数。 |
discrete_values |
array of strings |
离散型超参的取值列表。 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
string |
搜索算法名称。 |
params |
array of autosearchalgoconfigparameter objects |
搜索算法参数。 |
参数 |
参数类型 |
描述 |
---|---|---|
key |
string |
参数键。 |
value |
string |
参数值。 |
type |
string |
参数种类。 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
string |
数据输入通道名称。 |
description |
string |
数据输入通道描述信息。 |
local_dir |
string |
数据输入通道映射的容器本地路径。例如,“/home/ma-user/modelarts/inputs/data_url_0”。 |
remote |
inputdatainfo object |
数据实际输入信息。枚举值:
|
remote_constraint |
array of remote_constraint objects |
数据输入约束。 |
参数 |
参数类型 |
描述 |
---|---|---|
id |
string |
训练作业的数据集id。 |
version_id |
string |
训练作业的数据集版本id。 |
obs_url |
string |
训练作业需要的数据集obs路径url,modelarts会通过数据集id和数据集版本id自动解析生成。如:“/usr/data/”。 |
参数 |
参数类型 |
描述 |
---|---|---|
obs_url |
string |
训练作业需要的数据集obs路径url。如:“/usr/data/”。 |
参数 |
参数类型 |
描述 |
---|---|---|
data_type |
string |
数据输入类型,包括数据存储位置、数据集两种方式。 |
attributes |
string |
数据输入为数据集时的相关属性。枚举值:
|
参数 |
参数类型 |
描述 |
---|---|---|
name |
string |
数据输出通道名称。 |
description |
string |
数据输出通道描述信息。 |
local_dir |
string |
数据输出通道映射的容器本地路径。 |
remote |
remote object |
数据实际输出信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
engine_id |
string |
训练作业选择的引擎规格id。engine_id,engine_name engine_version和image_url方式三选一。 |
engine_name |
string |
训练作业选择的引擎名称。如果已填写engine_id,则此参数无需填写。 |
engine_version |
string |
训练作业选择的引擎版本名称。如果已填写engine_id,则此参数无需填写。 |
image_url |
string |
训练作业选择的自定义镜像地址,地址从swr服务获取。 |
install_sys_packages |
boolean |
是否需要安装训练平台指定的 moxing 版本。true为需要。只有填写了engine_name,engine_version,image_url参数时支持该设置。 |
参数 |
参数类型 |
描述 |
---|---|---|
log_type |
string |
训练作业可视化日志类型,配置后训练作业可作为可视化作业数据源。可选取值如下:
|
log_dir |
logdir object |
训练作业可视化日志输出,log_type非空时必填。 |
data_sources |
array of datasource objects |
可视化作业或训练作业调试模式的可视化日志输入,训练作业高级功能开启"tensorboard/enable": "true"或"mindstudio-insight/enable": "true"时必填。 |
参数 |
参数类型 |
描述 |
---|---|---|
pfs |
pfssummary object |
obs并行文件系统输出。 |
参数 |
参数类型 |
描述 |
---|---|---|
pfs_path |
string |
obs并行文件系统路径url。 |
参数 |
参数类型 |
描述 |
---|---|---|
job |
jobsummary object |
作业数据源。 |
参数 |
参数类型 |
描述 |
---|---|---|
job_id |
string |
训练作业id。 |
参数 |
参数类型 |
描述 |
---|---|---|
role |
string |
任务角色,该功能暂未支持。 |
algorithm |
taskresponsealgorithm object |
算法管理算法配置。 |
task_resource |
flavorresponse object |
训练作业、算法的规格信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
code_dir |
string |
算法启动文件所在目录绝对路径。 |
boot_file |
string |
算法启动文件绝对路径。 |
inputs |
algorithminput object |
算法输入通道信息。 |
outputs |
algorithmoutput object |
算法输出通道信息。 |
engine |
algorithmengine object |
异构作业所依赖的引擎。 |
local_code_dir |
string |
算法的代码目录下载到训练容器内的本地路径。规则如下:
|
working_dir |
string |
运行算法时所在的工作目录。规则:v1兼容模式下,当前字段不生效。 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
string |
数据输入通道名称。 |
local_dir |
string |
数据输入输出通道映射的容器本地路径。 |
remote |
algorithmremote object |
数据实际输入信息,异构作业只支持obs。 |
参数 |
参数类型 |
描述 |
---|---|---|
obs |
remoteobs object |
数据输入输出信息为obs方式。 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
string |
数据输出通道名称。 |
local_dir |
string |
数据输出通道映射的容器本地路径。 |
remote |
remote object |
数据实际输出信息。 |
mode |
string |
数据传输模式,默认为“upload_periodically”。 |
period |
string |
数据传输周期,默认为30s。 |
参数 |
参数类型 |
描述 |
---|---|---|
obs |
remoteobs object |
数据实际输出到obs。 |
参数 |
参数类型 |
描述 |
---|---|---|
obs_url |
string |
数据实际输出到obs的路径。 |
参数 |
参数类型 |
描述 |
---|---|---|
engine_id |
string |
引擎规格的id。如“caffe-1.0.0-python2.7”。 |
engine_name |
string |
引擎规格的名称。如“caffe”。 |
engine_version |
string |
引擎规格的版本。对一个引擎名称,有多个版本的引擎,如使用python2.7的"caffe-1.0.0-python2.7"等。 |
v1_compatible |
boolean |
是否为v1兼容模式。 |
run_user |
string |
引擎默认启动用户uid。 |
image_url |
string |
算法选择的自定义镜像地址。 |
参数 |
参数类型 |
描述 |
---|---|---|
flavor_id |
string |
资源规格的id。 |
flavor_name |
string |
资源规格的名称。 |
max_num |
integer |
资源规格的最大节点数。 |
flavor_type |
string |
资源规格的类型。可选值如下:
|
billing |
billinginfo object |
资源规格计费信息。 |
flavor_info |
flavorinforesponse object |
资源规格详细信息。 |
attributes |
map |
其他规格属性。 |
参数 |
参数类型 |
描述 |
---|---|---|
max_num |
integer |
可以选择的最大节点数量(max_num,为1代表不支持分布式)。 |
cpu |
cpu object |
cpu规格信息。 |
gpu |
gpu object |
gpu规格信息。 |
npu |
npu object |
ascend规格信息。 |
memory |
memory object |
内存信息。 |
disk |
diskresponse object |
磁盘信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
size |
integer |
磁盘大小。 |
unit |
string |
磁盘大小单位。 |
参数 |
参数类型 |
描述 |
---|---|---|
resource |
resource object |
训练作业资源规格信息。flavor_id和pool_id [flavor_id]方式二选一。 |
volumes |
array of jobvolume objects |
训练作业挂载卷信息。 |
log_export_path |
logexportpath object |
训练作业日志输出信息。 |
schedule_policy |
schedulepolicy object |
训练作业调度策略 |
custom_metrics |
array of custommetrics objects |
指标采集配置 |
参数 |
参数类型 |
描述 |
---|---|---|
policy |
string |
训练作业资源规格模式,可选值为regular,表示为标准模式。 |
flavor_id |
string |
训练作业资源规格id。cpu规格专属资源池不支持指定flavor_id。gpu/ascend规格专属资源池可选取值如下:
|
flavor_name |
string |
使用flavor_id时,由modelarts返回的只读规格名称。 |
node_count |
integer |
训练作业选择的资源副本数。 |
pool_id |
string |
训练作业选择的资源池id。 |
flavor_detail |
flavordetail object |
训练作业、算法的规格信息(该字段只有公共资源池存在)。 |
参数 |
参数类型 |
描述 |
---|---|---|
flavor_type |
string |
资源规格的类型。可选值如下:
|
billing |
billinginfo object |
资源规格计费信息。 |
flavor_info |
flavorinfo object |
资源规格详细信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
code |
string |
计费码。 |
unit_num |
integer |
计费单元。 |
参数 |
参数类型 |
描述 |
---|---|---|
max_num |
integer |
可以选择的最大节点数量(max_num,为1代表不支持分布式)。 |
cpu |
cpu object |
cpu规格信息。 |
gpu |
gpu object |
gpu规格信息。 |
npu |
npu object |
ascend规格信息。 |
memory |
memory object |
内存信息。 |
disk |
disk object |
磁盘信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
arch |
string |
cpu架构。 |
core_num |
integer |
核数。 |
参数 |
参数类型 |
描述 |
---|---|---|
unit_num |
integer |
gpu卡数。 |
product_name |
string |
产品名。 |
memory |
string |
内存。 |
参数 |
参数类型 |
描述 |
---|---|---|
unit_num |
string |
npu卡数。 |
product_name |
string |
产品名。 |
memory |
string |
内存。 |
参数 |
参数类型 |
描述 |
---|---|---|
size |
integer |
内存大小。 |
unit |
string |
内存单元数。 |
参数 |
参数类型 |
描述 |
---|---|---|
size |
string |
磁盘大小。 |
unit |
string |
磁盘大小单位,一般为gb。 |
参数 |
参数类型 |
描述 |
---|---|---|
nfs |
nfs object |
nfs方式的挂载卷。 |
参数 |
参数类型 |
描述 |
---|---|---|
nfs_server_path |
string |
nfs服务端路径,如:“10.10.10.10:/example/path”。 |
local_path |
string |
挂载到训练容器中的路径,如:“/example/path”。 |
read_only |
boolean |
nfs挂载卷在容器中是否只读。 |
参数 |
参数类型 |
描述 |
---|---|---|
obs_url |
string |
训练作业日志保存的obs地址,如:“obs://example/path”。 |
host_path |
string |
训练作业日志保存的宿主机的路径,如:“/example/path”。 |
参数 |
参数类型 |
描述 |
---|---|---|
required_affinity |
requiredaffinity object |
训练作业亲和要求 |
priority |
integer |
训练作业优先级 |
preemptible |
boolean |
是否可以被抢占 |
参数 |
参数类型 |
描述 |
---|---|---|
affinity_type |
string |
亲和调度策略,可选取值如下:
|
affinity_group_size |
integer |
亲和组大小,affinity_type为hyperinstance时必填,系统会将affinity_group_size个task调度到一个超节点内组成亲和组。 用户向超节点资源池投递训练作业,如果未设置亲和组大小,系统会默认赋值为1。 |
参数 |
参数类型 |
描述 |
---|---|---|
metrics_url |
string |
指标采集的url,和下面的端口要么都填,要么都不填 |
metrics_port |
integer |
指标采集的端口,和下面的端口要么都填,要么都不填 |
参数 |
参数类型 |
描述 |
---|---|---|
ssh |
sshresp object |
ssh连接信息。 |
jupyter_lab |
jupyterlab object |
jupyterlab连接信息。 |
tensorboard |
tensorboard object |
tensorboard连接信息。 |
mindstudio_insight |
mindstudioinsight object |
mindstudio insight连接信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
key_pair_names |
array of strings |
ssh密钥对名称,可以在云服务器控制台(ecs)“密钥对”页面创建和查看。 |
task_urls |
array of taskurls objects |
ssh连接地址信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
task |
string |
训练作业的任务id。 |
url |
string |
训练作业ssh连接地址。 |
参数 |
参数类型 |
描述 |
---|---|---|
url |
string |
训练作业的jupyterlab地址。 |
token |
string |
训练作业的jupyterlab token。 |
参数 |
参数类型 |
描述 |
---|---|---|
url |
string |
训练作业的tensorboard地址。 |
token |
string |
训练作业的tensorboard token。 |
参数 |
参数类型 |
描述 |
---|---|---|
url |
string |
训练作业的mindstudio insight地址。 |
token |
string |
训练作业的mindstudio insight token。 |
请求示例
如下以查询uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。
get https://endpoint/v2/{project_id}/training-jobs/3faf5c03-aaa1-4cbe-879d-24b05d997347
响应示例
状态码:200
ok
{ "kind" : "job", "metadata" : { "id" : "3faf5c03-aaa1-4cbe-879d-24b05d997347", "name" : "trainjob--py14_mem06-108", "description" : "", "create_time" : 1636447346315, "workspace_id" : "0", "user_name" : "" }, "status" : { "phase" : "abnormal", "secondary_phase" : "createfailed", "duration" : 0, "start_time" : 0, "node_count_metrics" : [ [ 1636447746000, 0 ], [ 1636447755000, 0 ], [ 1636447756000, 0 ] ], "tasks" : [ "worker-0" ], "running_records" : [ { "start_at" : 1701327093, "end_at" : 1701322341, "start_type" : "init_or_rescheduled", "end_recover" : "job_reschedule", "end_reason" : "exit with 127", "end_related_task" : "worker-2", "end_recover_before_downgrade" : "npu_proc_restart" }, { "start_at" : 1701323345, "end_at" : 1701325432, "start_type" : "init_or_rescheduled", "end_reason" : "job completed" } ] }, "algorithm" : { "code_dir" : "obs://test/economic_test/py_minist/", "boot_file" : "obs://test/economic_test/py_minist/minist_common.py", "inputs" : [ { "name" : "data_url", "local_dir" : "/home/ma-user/modelarts/inputs/data_url_0", "remote" : { "obs" : { "obs_url" : "/test/data/py_minist/" } } } ], "outputs" : [ { "name" : "train_url", "local_dir" : "/home/ma-user/modelarts/outputs/train_url_0", "remote" : { "obs" : { "obs_url" : "/test/train_output/" } } } ], "engine" : { "engine_id" : "pytorch-cp36-1.4.0-v2", "engine_name" : "pytorch", "engine_version" : "pytorch-1.4.0-python3.6-v2" } }, "spec" : { "resource" : { "flavor_id" : "modelarts.vm.pnt1.large.eco", "node_count" : 1, "flavor_detail" : { "flavor_type" : "gpu", "billing" : { "code" : "modelarts.vm.gpu.pnt1.eco", "unit_num" : 1 }, "flavor_info" : { "cpu" : { "arch" : "x86", "core_num" : 8 }, "gpu" : { "unit_num" : 1, "memory" : "8gb" }, "memory" : { "size" : 64, "unit" : "gb" } } } }, "custom_metrics" : [ { "metrics_url" : "/raw_text", "metrics_port" : 5006 } ] } }
状态码
状态码 |
描述 |
---|---|
200 |
ok |
错误码
请参见。
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨