九游平台/
ai开发平台modelarts/
故障排除/
lite server/
gpu裸金属服务器更换nvidia驱动后执行nvidia-smi提示failed to initialize nvml
更新时间:2024-09-07 gmt 08:00
gpu裸金属服务器更换nvidia驱动后执行nvidia-九游平台
问题现象
华为云裸金属服务器,nvidia驱动卸载后重新安装。
(1)已卸载原有版本nvidia驱动和cuda版本,且已安装新版本的nvidia驱动和cuda版本
(2)执行nvidia-smi失败,提示failed to initialize nvml: driver/library version mismatch
处理方法
执行命令:lsmod | grep nvidia,查看内核中是否残留旧版nvidia,显示如下:
nvidia_uvm 634880 8 nvidia_drm 53248 0 nvidia_modeset 790528 1 nvidia_drm nvidia 12312576 86 nvidia_modeset,nvidia_uvm
卸载nvidia相关模块
sudo rmmod nvidia_drm sudo rmmod nvidia_modeset sudo rmmod nvidia_uvm
最后卸载nvidia
sudo rmmod nvidia
如果遇到“rmmod: error: module nvidia is in use”,执行以下命令:
sudo lsof /dev/nvidia*
并再次验证:
lsmod | grep nvidia
再次执行“nvidia-smi”,显示成功,且是最新安装的nvidia驱动。
父主题: lite server
相关文档
意见反馈
文档内容是否对您有帮助?
提交成功!非常感谢您的反馈,我们会继续努力做到更好!
您可在查看反馈及问题处理状态。
系统繁忙,请稍后重试
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨