资源选择推荐-九游平台
不同ai模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。modelarts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同ai模型训练的要求。针对第一次使用modelarts的用户,本文提供端到端案例指导,帮助您快速了解如何在modelarts上选择合适的训练方案并进行模型训练。
针对不同的数据量和算法情况,推荐以下训练方案:
- 单机单卡:小数据量(1g训练数据)、低算力场景(1卡vnt1),存储方案使用“obs的并行文件系统(存放数据和代码)”。
- 单机多卡:中等数据量(50g左右训练数据)、中等算力场景(8卡vnt1),存储方案使用“sfs(存放数据和代码)”。
- 多机多卡:大数据量(1t训练数据)、高算力场景(4台8卡vnt1),存储方案使用“sfs(存放数据) 普通obs桶(存放代码)”,采用分布式训练。
场景 |
obs |
sfs |
swr |
dew |
modelarts |
vpc |
ecs |
evs |
---|---|---|---|---|---|---|---|---|
单机单卡 |
按需购买。(并行文件系统) |
× |
免费。 |
免费。 |
包月购买。 |
免费。 |
× |
按需购买。 |
单机多卡 |
× |
包月购买。 (hpc型500g) |
免费。 |
免费。 |
包月购买。 |
免费。 |
包月购买。 (ubuntu 18.04,建议不小于2u8g,本地存储空间100g,带eip全动态bgp,按流量10m带宽) |
× |
多机多卡 |
按需购买。 (普通obs桶) |
包月购买。 (hpc型500g) |
免费。 |
免费。 |
包月购买。 |
免费。 |
包月购买。 (建议不小于2u8g,本地存储空间100g,带eip全动态bgp,按流量10m带宽) |
× |
算法及数据 |
资源规格 |
epoch数 |
运行时长(hh:mm:ss) |
---|---|---|---|
算法:pytorch官方针对imagenet的样例 数据:imagenet分类数据子集 |
1机1卡vnt1 |
10 |
0:05:03 |
算法:yolox 数据:coco2017 |
1机1卡vnt1 |
10 |
03:33:13 |
1机8卡vnt1 |
10 |
01:11:48 |
|
4机8卡vnt1 |
10 |
0:36:17 |
|
算法:swin-transformer 数据:imagenet21k |
1机1卡vnt1 |
10 |
197:25:03 |
1机8卡vnt1 |
10 |
26:10:25 |
|
4机8卡vnt1 |
10 |
07:08:44 |
步骤 |
说明 |
时长 |
---|---|---|
镜像下载 |
首次下载镜像的时间(25g)。 |
8分钟 |
资源调度 |
点创建训练任务开始到变成运行中的时间(资源充足、镜像已缓存)。 |
20秒 |
训练列表页打开 |
已有50条训练作业,单击训练模块后的时间。 |
6秒 |
日志加载 |
作业运行中,已经输出1兆的日志文本,单击训练详情页面需要多久加载出日志。 |
2.5秒 |
训练详情页 |
作业运行中,没有用户日志情况下,在modelarts控制台九游平台主页面单击训练详情页面后加载页面内容。 |
2.5秒 |
jupyterlab页面 |
进入jupyterlab页面后加载页面内容。 |
0.5秒 |
notebook列表页 |
已有50个notebook实例,在modelarts控制台九游平台主页面单击开发环境后的时间。 |
4.5秒 |
镜像下载时间受节点规格、节点硬盘类型(高io/普通io)、是否ssd等因素影响,以上数据仅供参考。
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨