更新时间:2025-03-04 gmt 08:00
分布式训练功能介绍-九游平台
modelarts提供了如下能力:
- 丰富的官方预置镜像,满足用户的需求。
- 支持基于预置镜像自定义制作专属开发环境,并保存使用。
- 丰富的教程,帮助用户快速适配分布式训练,使用分布式训练极大减少训练时间。
- 分布式训练调测的能力,可在pycharm/vscode/jupyterlab等开发工具中调试分布式训练。
约束限制
- 总览页面打开的codelab不支持此项功能,但是如果用户在ai hub中打开了可用的案例,会自动跳转到codelab中,此时是可以使用这项功能的。
- 如果切换了notebook的规格,那么只能在notebook进行单机调测,不能进行分布式调测,也不能提交远程训练作业。
- 当前仅支持pytorch和mindspore ai框架,如果mindspore要进行多机分布式训练调试,则每台机器上都必须有8张卡。
- 本文档提供的调测代码中涉及到的obs路径,请用户替换为自己的实际obs路径。
- 本文档提供的调测代码是以pytorch为例编写的,不同的ai框架之间,整体流程是完全相同的,只需要修改个别的参数即可。
dataparallel进行单机多卡训练的优缺点
- 代码简单:仅需修改一行代码。
- 通信瓶颈 :负责reducer的gpu更新模型参数后分发到不同的gpu,因此有较大的通信开销。
- gpu负载不均衡:负责reducer的gpu需要负责汇总输出、计算损失和更新权重,因此显存和使用率相比其他gpu都会更高。
distributeddataparallel进行多机多卡训练的优缺点
- 通信更快:相比于dp,通信速度更快
- 负载相对均衡:相比于dp,gpu负载相对更均衡
- 运行速度快:因为通信时间更短,效率更高,能更快速的完成训练作业
相关章节
- 创建单机多卡的分布式训练(dataparallel):介绍单机多卡数据并行分布式训练原理和代码改造点。
- 创建多机多卡的分布式训练(distributeddataparallel):介绍多机多卡数据并行分布式训练原理和代码改造点。
- 示例:创建ddp分布式训练(pytorch gpu):提供了分布式训练调测具体的代码适配操作过程和代码示例。
- 示例:创建ddp分布式训练(pytorch npu):针对resnet18在cifar10数据集上的分类任务,给出了分布式训练改造(ddp)的完整代码示例,供用户学习参考。
- 基于开发环境使用sdk调测训练作业:介绍如何在modelarts的开发环境中,使用sdk调测单机和多机分布式训练作业。
父主题: 分布式模型训练
相关文档
意见反馈
文档内容是否对您有帮助?
提交成功!非常感谢您的反馈,我们会继续努力做到更好!
您可在查看反馈及问题处理状态。
系统繁忙,请稍后重试
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨