更新时间:2025-01-10 gmt 08:00
gpu a系列裸金属服务器roce带宽不足如何解决?-九游平台
问题现象
gp ant8支持roce网卡, ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90gb/s,但实际测试下来的结果只有35gb/s。
原因分析
“nv_peer_mem”是一个linux内核模块,它允许支持p2p(peer-to-peer)的nvidia gpu直接进行内存访问(dma)。这意味着数据可以直接在多个gpu之间传输,而无需经过cpu或系统内存,这可以显著降低延迟并提高带宽。
所以既然nccl-tests能正常测试, 但是达不到预期,可能是nv_peer_mem异常。
处理方法
- 查看nv_peer_mem是否已安装。
dpkg -i | grep peer
如果未安装则需要安装,安装方法参考装机指导。 如果已安装则进入下一检测项。
- 查看该软件是否已经加载至内核。
lsmod | grep peer
如果没有则需要重新加载至内核,执行如下命令进行加载:
/etc/init.d/nv_peer_mem start
如果执行失败,可能是未加载nv_peer_mem.conf至/etc/infiniband/中或nv_peer_mem不在/etc/init.d/中。
如果找不到相关文件的问题,可以搜索相关文件在哪里,然后复制到指定目录,例如可执行如下命令:cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem.conf /etc/infiniband/ cp /tmp/nvidia-peer-memory-1.3/debian/tmp/etc/init.d/nv_peer_mem /etc/init.d/
父主题: lite server
相关文档
意见反馈
文档内容是否对您有帮助?
提交成功!非常感谢您的反馈,我们会继续努力做到更好!
您可在查看反馈及问题处理状态。
系统繁忙,请稍后重试
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨