更新时间:2025-03-04 gmt 08:00

从0制作自定义镜像用于创建训练作业(pytorch cpu/gpu)-九游平台

本章节介绍如何从0到1制作镜像,并使用该镜像在modelarts平台上进行训练。镜像中使用的ai引擎是pytorch,训练使用的资源是cpu或gpu。

本实践教程仅适用于新版训练作业。

场景描述

本示例使用linux x86_64架构的主机,操作系统ubuntu-18.04,通过编写dockerfile文件制作自定义镜像。

目标:构建安装如下软件的容器镜像,并在modelarts平台上使用cpu/gpu规格资源运行训练作业。

  • ubuntu-18.04
  • cuda-11.1
  • python-3.7.13
  • pytorch-1.8.1

操作流程

使用自定义镜像创建训练作业时,需要您熟悉docker软件的使用,并具备一定的开发经验。详细步骤如下所示:

  1. 前提条件
  2. step1 创建obs桶和文件夹
  3. step2 准备训练脚本并上传至obs
  4. step3 准备镜像主机
  5. step4 制作自定义镜像
  6. step5 上传镜像至swr服务
  7. step6 在modelarts上创建训练作业

前提条件

已注册华为账号并开通华为云,且在使用modelarts前检查账号状态,账号不能处于欠费或冻结状态。

step1 创建obs桶和文件夹

在obs服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示,示例中的桶名称“test-modelarts”和文件夹名称均为举例,请替换为用户自定义的名称。

创建obs桶和文件夹的操作指导请参见创建桶新建文件夹

请确保您使用的obs与modelarts在同一区域。

表1 obs桶文件夹列表

文件夹名称

用途

“obs://test-modelarts/pytorch/demo-code/”

用于存储训练脚本文件。

“obs://test-modelarts/pytorch/log/”

用于存储训练日志文件。

step2 准备训练脚本并上传至obs

准备本案例所需的训练脚本“pytorch-verification.py”文件,并上传至obs桶的“obs://test-modelarts/pytorch/demo-code/”文件夹下。

“pytorch-verification.py”文件内容如下:

import torch
import torch.nn as nn
x = torch.randn(5, 3)
print(x)
available_dev = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
y = torch.randn(5, 3).to(available_dev)
print(y)

step3 准备镜像主机

准备一台linux x86_64架构的主机,操作系统使用ubuntu-18.04。您可以准备相同规格的弹性云服务器ecs或者应用本地已有的主机进行自定义镜像的制作。

购买ecs服务器的具体操作请参考购买并登录linux弹性云服务器“cpu架构”选择“x86计算”“镜像”选择“公共镜像”,推荐使用ubuntu18.04的镜像。

step4 制作自定义镜像

目标:构建安装好如下软件的容器镜像,并使用modelarts训练服务运行。

  • ubuntu-18.04
  • cuda-11.1
  • python-3.7.13
  • pytorch-1.8.1

此处介绍如何通过编写dockerfile文件制作自定义镜像的操作步骤 。

  1. 安装docker。

    以linux x86_64架构的操作系统为例,获取docker安装包。您可以执行以下指令安装docker。关于安装docker的更多指导内容参见。

    curl -fssl get.docker.com -o get-docker.sh
    sh get-docker.sh

    如果docker images命令可以执行成功,表示docker已安装,此步骤可跳过。

  2. 执行如下命令确认docker engine版本。
    docker version | grep -a 1 engine
    命令回显如下。
    ...
    engine:
      version:          18.09.0

    推荐使用大于等于该版本的docker engine来制作自定义镜像。

  3. 准备名为context的文件夹。
    mkdir -p context
  4. 准备可用的pip源文件pip.conf 。本示例使用华为开源镜像站提供的pip源,其pip.conf文件内容如下。
    [global]
    index-url = https://repo.huaweicloud.com/repository/pypi/simple
    trusted-host = repo.huaweicloud.com
    timeout = 120

    在华为开源镜像站https://mirrors.huaweicloud.com/home中,搜索pypi ,也可以查看“pip.conf”文件内容。

  5. 下载“torch*.whl ”文件。

    在网站“https://download.pytorch.org/whl/torch_stable.html”搜索并下载如下whl文件。

    • torch-1.8.1 cu111-cp37-cp37m-linux_x86_64.whl
    • torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl
    • torchvision-0.9.1 cu111-cp37-cp37m-linux_x86_64.whl

    “ ”符号的url编码为“+”,在上述网站中搜索目标文件名时,需要将原文件名中的“ ”符号替换为“+”

    例如“torch-1.8.1+cu111-cp37-cp37m-linux_x86_64.whl”

  6. 下载miniconda3安装文件。

    使用地址https://repo.anaconda.com/miniconda/miniconda3-py37_4.12.0-linux-x86_64.sh,下载miniconda3 py37 4.12.0安装文件(对应python 3.7.13)。

  7. 将上述pip源文件、torch*.whl文件、miniconda3安装文件放置在context文件夹内,context文件夹内容如下。
    context
    ├── miniconda3-py37_4.12.0-linux-x86_64.sh
    ├── pip.conf
    ├── torch-1.8.1 cu111-cp37-cp37m-linux_x86_64.whl
    ├── torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl
    └── torchvision-0.9.1 cu111-cp37-cp37m-linux_x86_64.whl
  8. 编写容器镜像dockerfile文件。
    在context文件夹内新建名为dockerfile的空文件,并将下述内容写入其中。
    # 容器镜像构建主机需要连通公网
    # 基础容器镜像, https://github.com/nvidia/nvidia-docker/wiki/cuda
    # 
    # https://docs.docker.com/develop/develop-images/multistage-build/#use-multi-stage-builds
    # require docker engine >= 17.05
    #
    # builder stage
    from nvidia/cuda:11.1.1-runtime-ubuntu18.04 as builder
    # 基础容器镜像的默认用户已经是 root
    # user root
    # 使用华为开源镜像站提供的 pypi 配置
    run mkdir -p /root/.pip/
    copy pip.conf /root/.pip/pip.conf
    # 复制待安装文件到基础容器镜像中的 /tmp 目录
    copy miniconda3-py37_4.12.0-linux-x86_64.sh /tmp
    copy torch-1.8.1 cu111-cp37-cp37m-linux_x86_64.whl /tmp
    copy torchvision-0.9.1 cu111-cp37-cp37m-linux_x86_64.whl /tmp
    copy torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl /tmp
    # https://conda.io/projects/conda/en/latest/user-guide/install/linux.html#installing-on-linux
    # 安装 miniconda3 到基础容器镜像的 /home/ma-user/miniconda3 目录中
    run bash /tmp/miniconda3-py37_4.12.0-linux-x86_64.sh -b -p /home/ma-user/miniconda3
    # 使用 miniconda3 默认 python 环境 (即 /home/ma-user/miniconda3/bin/pip) 安装 torch*.whl
    run cd /tmp && \
        /home/ma-user/miniconda3/bin/pip install --no-cache-dir \
        /tmp/torch-1.8.1 cu111-cp37-cp37m-linux_x86_64.whl \
        /tmp/torchvision-0.9.1 cu111-cp37-cp37m-linux_x86_64.whl \
        /tmp/torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl
    # 构建最终容器镜像
    from nvidia/cuda:11.1.1-runtime-ubuntu18.04
    # 安装 vim和curl 工具(依然使用华为开源镜像站)
    run cp -a /etc/apt/sources.list /etc/apt/sources.list.bak && \
        sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \
        sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \
        apt-get update && \
        apt-get install -y vim curl && \
        apt-get clean && \
        mv /etc/apt/sources.list.bak /etc/apt/sources.list
    # 增加 ma-user 用户 (uid = 1000, gid = 100)
    # 注意到基础容器镜像已存在 gid = 100 的组,因此 ma-user 用户可直接使用
    run useradd -m -d /home/ma-user -s /bin/bash -g 100 -u 1000 ma-user
    # 从上述 builder stage 中复制 /home/ma-user/miniconda3 目录到当前容器镜像的同名目录
    copy --chown=ma-user:100 --from=builder /home/ma-user/miniconda3 /home/ma-user/miniconda3
    # 设置容器镜像预置环境变量
    # 请务必设置 pythonunbuffered=1, 以免日志丢失
    env path=$path:/home/ma-user/miniconda3/bin \
        pythonunbuffered=1
    # 设置容器镜像默认用户与工作目录
    user ma-user
    workdir /home/ma-user

    关于dockerfile文件编写的更多指导内容参见。

  9. 确认已创建完成dockerfile文件。此时context文件夹内容如下。
    context
    ├── dockerfile
    ├── miniconda3-py37_4.12.0-linux-x86_64.sh
    ├── pip.conf
    ├── torch-1.8.1 cu111-cp37-cp37m-linux_x86_64.whl
    ├── torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl
    └── torchvision-0.9.1 cu111-cp37-cp37m-linux_x86_64.whl
  10. 构建容器镜像。在dockerfile文件所在的目录执行如下命令构建容器镜像pytorch:1.8.1-cuda11.1。
    1
    dockerbuild.-tpytorch:1.8.1-cuda11.1
    
    构建过程结束时出现如下构建日志说明镜像构建成功。
    successfully tagged pytorch:1.8.1-cuda11.1

step5 上传镜像至swr服务

  1. 登录容器镜像服务控制台,选择区域,要和modelarts区域保持一致,否则无法选择到镜像。
  2. 单击右上角“创建组织”,输入组织名称完成组织创建。请自定义组织名称,本示例使用“deep-learning”,下面的命令中涉及到组织名称“deep-learning”也请替换为自定义的值。
  3. 单击右上角“登录指令”,获取登录访问指令,本文选择复制临时登录指令。
  4. 以root用户登录本地环境,输入复制的swr临时登录指令。
  5. 上传镜像至容器镜像服务镜像仓库。
    1. 使用docker tag命令给上传镜像打标签。
      #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。
      sudo docker tag pytorch:1.8.1-cuda11.1 swr.{region-id}.{domain}/deep-learning/pytorch:1.8.1-cuda11.1
      #此处以华为云cn-north-4为例
      sudo docker tag pytorch:1.8.1-cuda11.1 swr.cn-north-4.myhuaweicloud.com/deep-learning/pytorch:1.8.1-cuda11.1
    2. 使用docker push命令上传镜像。
      #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。
      sudo docker push swr.{region-id}.{domain}/deep-learning/pytorch:1.8.1-cuda11.1
      #此处以华为云cn-north-4为例
      sudo docker push swr.cn-north-4.myhuaweicloud.com/deep-learning/pytorch:1.8.1-cuda11.1
  6. 完成镜像上传后,在容器镜像服务控制台的“我的镜像”页面可查看已上传的自定义镜像。

    “swr.cn-north-4.myhuaweicloud.com/deep-learning/pytorch:1.8.1-cuda11.1”即为此自定义镜像的“swr_url”

step6 在modelarts上创建训练作业

  1. 登录modelarts管理控制台,检查当前账号是否已完成访问授权的配置。如未完成,请参考快速配置modelarts委托授权针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。
  2. 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。
  3. “创建训练作业”页面,填写相关参数信息,然后单击“提交”
    • 创建方式:选择“自定义算法”
    • 启动方式:选择“自定义”
    • 镜像地址:step5 上传镜像至swr服务中创建的镜像。“swr.cn-north-4.myhuaweicloud.com/deep-learning/pytorch:1.8.1-cuda11.1”
    • 代码目录:设置为obs中存放启动脚本文件的目录,例如:“obs://test-modelarts/pytorch/demo-code/”,训练代码会被自动下载至训练容器的“${ma_job_dir}/demo-code”目录中,“demo-code”为obs存放代码路径的最后一级目录,可以根据实际修改。
    • 启动命令:“/home/ma-user/miniconda3/bin/python ${ma_job_dir}/demo-code/pytorch-verification.py” ,此处的“demo-code”为用户自定义的obs存放代码路径的最后一级目录,可以根据实际修改。
    • 资源池:选择公共资源池
    • 类型:选择gpu或者cpu规格。
    • 永久保存日志:打开
    • 作业日志路径:设置为obs中存放训练日志的路径。例如:“obs://test-modelarts/pytorch/log/”
  4. “规格确认”页面,确认训练作业的参数信息,确认无误后单击“提交”
  5. 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。

    训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如下所示。

    图1 gpu规格运行日志信息
    图2 cpu规格运行日志信息

相关文档

网站地图