九游平台/ ai开发平台modelarts/ 最佳实践/ / llava-next基于lite server适配pytorch npu训练微调指导（6.3.912）

更新时间：2025-02-07 gmt 08:00

查看pdf

llava-九游平台

方案概览

本方案介绍了在modelarts lite server上使用昇腾计算资源ascend snt9b开展llava-next模型的训练过程，包括pretrain_clip训练和finetune_onevision训练。

约束限制

本方案目前仅适用于企业客户。
本文档适配昇腾云modelarts 6.3.912版本，请参考获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。
确保容器可以访问公网。

资源规格要求

推荐使用“西南-贵阳一”region上的server资源和ascend snt9b。

获取软件和镜像

表1 获取软件和镜像
分类	名称	获取路径
插件代码包	ascendcloud-6.3.912软件包中的ascendcloud-aigc-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。	获取路径：，在此路径中查找下载modelarts 6.3.912 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方九游平台的技术支持下载获取。
基础镜像包	swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241213131522-aafe527	swr上拉取。

表2 模型镜像版本
模型	版本
cann	cann_8.0.rc3
驱动	24.1.rc1
pytorch	2.1.0

步骤一检查环境

请参考，购买server资源，并确保机器已开通，密码已获取，能通过ssh登录，不同机器之间网络互通。

购买server资源时如果无可选资源规格，需要联系华为云九游平台的技术支持申请开通。

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见。
ssh登录机器后，检查npu卡状态。运行如下命令，返回npu设备信息。
```
npu-smi info                    # 在每个实例节点上运行此命令可以看到npu卡状态
npu-smi info -l | grep total    # 在每个实例节点上运行此命令可以看到总卡数
```
如出现错误，可能是机器上的npu设备没有正常安装，或者npu镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的npu。

检查是否安装docker。

docker -v   #检查docker是否安装

如尚未安装，运行以下命令安装docker。

yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64

配置ip转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。
```
sysctl -p | grep net.ipv4.ip_forward
```
如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置ip转发。
```
sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf
sysctl -p | grep net.ipv4.ip_forward
```

步骤二获取基础镜像

建议使用官方提供的镜像部署推理服务。镜像地址{image_url}获取请参见表1 获取软件和镜像。

docker pull {image_url}

步骤三启动容器镜像

启动容器镜像，启动前可以根据实际需要增加修改参数。

docker run -itd --net=host \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
--shm-size=1024g \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/ascend/driver:/usr/local/ascend/driver \
-v /var/log/npu/:/usr/slog \
-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
-v ${work_dir}:${container_work_dir} \
--name ${container_name} \
${image_id}  \
/bin/bash

--device=/dev/davincix 挂载npu设备，示例中挂载了8张卡
work_dir：工作目录，目录下存放着训练所需代码、数据等文件
container_work_dir: 容器工作目录，一般同work_dir
container_name：自定义容器名
image_id：镜像id，通过docker images来查看拉取的镜像id。

步骤四进入容器

通过容器名称进入容器中。默认使用ma-user用户执行后续命令。

docker exec -it  ${container_name} bash

修改权限。

sudo chown -r ma-user:ma-group ${container_work_dir}

此步骤可能需要密码或root权限。

步骤五下载代码安装环境

下载华为侧插件代码包ascendcloud-aigc-6.3.912-xxx.zip文件，获取路径参见表1 获取软件和镜像。

mv ascendcloud-aigc-6.3.912-xxx.zip ${container_work_dir}
cd ${container_work_dir}
unzip ascendcloud-aigc-6.3.912-*.zip 
cd multimodal_algorithm/llava-next/train/c7cc95c0ed68ee553cf0870b6684695df609bb38
bash llava_next_install.sh
cp pretrain_clip_ascend.sh finetune_onevision_ascend.sh ./llava-next/scripts/train

步骤六增加适配代码

# 安装优化加速包
cd ${container_work_dir}/multimodal_algorithm/ascendcloud_multimodal_plugin 
pip install -e .
# 使能优化加速包step1(此步默认在环境安装阶段已完成)
cd ${container_work_dir}/multimodal_algorithm/llava-next/train/c7cc95c0ed68ee553cf0870b6684695df609bb38/llava-next/
在./llava/train/train_mem.py 引入优化代码包 from ascendcloud_multimodal.train.models.llava_next.ascend_modeling_llava_next import *
# 使能优化加速包step2
cp -rf ${container_work_dir}/multimodal_algorithm/ascendcloud_multimodal_plugin/ascendcloud_multimodal/train/models/llava_next/siglip_encoder.py ${container_work_dir}/multimodal_algorithm/llava-next/train/c7cc95c0ed68ee553cf0870b6684695df609bb38/llava-next/llava/model/multimodal_encoder/

步骤七下载数据集

数据集需从huggingface下载，(其中的和)。

方式1：手动下载以上所列数据集，并将其放置在${container_work_dir}/data路径下， data目录需手动创建。

方式2：利用git下载，须确保git lfs已成功安装：

mkdir -p ${container_work_dir}/data && cd ${container_work_dir}/data  
# 下载pretrain_clip场景的数据集
git clone https://huggingface.co/datasets/liuhaotian/llava-pretrain
cd llava-pretrain
git lfs pull
# 待下载成功后，解压文件
unzip images.zip
# 下载finetune_onevision场景的数据集
cd ${container_work_dir}/data
git clone https://huggingface.co/datasets/mbzuai/videogpt-plus_training_dataset 
cd videogpt-plus_training_dataset 
git lfs pull --include="annotations/vcg-plus_112k.json"
git lfs pull --include="instruction_tuning/activitynet_videos.tgz"
# 待下载成功后，解压文件
cd ${container_work_dir}/data/videogpt-plus_training_dataset/instruction_tuning 
tar -xzvf activitynet_videos.tgz

步骤八下载模型权重

模型权重需从huggingface准备，，。

方式1：手动下载以上所列权重，并将其放置在${container_work_dir}/pretrained路径下， pretrained目录需手动创建。

方式2：利用git下载，须确保git lfs已成功安装：

mkdir -p ${container_work_dir}/pretrained
# 下载 qwen2-7b-instruct 
cd ${container_work_dir}/pretrained 
git clone https://huggingface.co/qwen/qwen2-7b-instruct 
cd qwen2-7b-instruct 
git lfs pull  
# 下载 clip-vit-large-patch14-336(pretrain_clip场景)
cd ${container_work_dir}/pretrained 
git clone https://huggingface.co/openai/clip-vit-large-patch14-336 
cd clip-vit-large-patch14-336 
git lfs pull  
# 下载 siglip-so400m-patch14-384(finetune_onevision场景) 
cd ${container_work_dir}/pretrained 
git clone https://huggingface.co/google/siglip-so400m-patch14-384 
cd siglip-so400m-patch14-384 
git lfs pull

步骤九开始训练

单机训练

cd ${container_work_dir}/multimodal_algorithm/llava-next/train/c7cc95c0ed68ee553cf0870b6684695df609bb38/llava-next 
# pretrain_clip场景
num_gpus=8 nnodes=1 rank=0 addr=localhost port=23245 bash scripts/train/pretrain_clip_ascend.sh # 需修改pretrain_clip_ascend.sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径
# finetune_onevision场景
num_gpus=8 nnodes=1 rank=0 addr=localhost port=23245 bash scripts/train/finetune_onevision_ascend.sh # 需修改finetune_onevision_ascend.sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径

多机训练

cd ${container_work_dir}/multimodal_algorithm/llava-next/train/c7cc95c0ed68ee553cf0870b6684695df609bb38/llava-next 
# pretrain_clip场景
num_gpus=8 nnodes=${node_num} rank=${node_rank} addr=${master_node_ip} port=23245 bash scripts/train/pretrain_clip_ascend.sh # 需修改pretrain_clip_ascend.sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径
# finetune_onevision场景
num_gpus=8 nnodes=${node_num} rank=${node_rank} addr=${master_node_ip} port=23245 bash scripts/train/finetune_onevision_ascend.sh # 需修改finetune_onevision_ascend.sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径

路径修改说明：

执行训练脚本前，需修改pretrain_clip_ascend.sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径，如图1所示；
执行训练脚本前，修改finetune_onevision_ascend.sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径，如图2所示。

图1 pretrain_clip场景模型路径和数据集路径指引

图2 finetune_onevision场景模型路径和数据集路径指引

参数说明：

node_num：机器数量。
node_rank：机器rank num，主机为0，其余递增。
master_addr：主机ip地址。

训练成功如下图所示。

图3 pretrain_clip训练成功

图4 finetune_onevision训练成功

父主题：

上一篇：internvl2基于lite server适配pytorch npu训练指导（6.3.912）

下一篇：llava模型基于lite server适配pytorch npu预训练指导（6.3.912）

意见反馈

文档内容是否对您有帮助？

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

llava-九游平台

方案概览

约束限制

资源规格要求

获取软件和镜像

步骤一检查环境

步骤二获取基础镜像

步骤三启动容器镜像

步骤四进入容器

步骤五下载代码安装环境

步骤六增加适配代码

步骤七下载数据集

步骤八下载模型权重

步骤九开始训练

相关文档

意见反馈

文档内容是否对您有帮助？

售前咨询热线

llava-九游平台

方案概览

约束限制

资源规格要求

获取软件和镜像

步骤一 检查环境

步骤二 获取基础镜像

步骤三 启动容器镜像

步骤四 进入容器

步骤五 下载代码安装环境

步骤六 增加适配代码

步骤七 下载数据集

步骤八 下载模型权重

步骤九 开始训练

相关文档

意见反馈

文档内容是否对您有帮助？

售前咨询热线

步骤一检查环境

步骤二获取基础镜像

步骤三启动容器镜像

步骤四进入容器

步骤五下载代码安装环境

步骤六增加适配代码

步骤七下载数据集

步骤八下载模型权重

步骤九开始训练