九游平台/ ai开发平台modelarts/ 常见问题/ lite server/ gpu a系列裸金属服务器如何进行roce性能带宽测试?
更新时间:2025-02-27 gmt 08:00

gpu a系列裸金属服务器如何进行roce性能带宽测试?-九游平台

场景描述

本文主要指导如何在gpu a系列裸金属服务器上测试roce性能带宽。

前提条件

gpu a系列裸金属服务器已经安装了ib驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云ant8裸金属服务器使用ubuntu20.04操作系统默认已经安装ib驱动。)

操作步骤

方法1:使用mlx硬件计数器,估算roce网卡收发流量

统计300s内流量,统计脚本如下:

x=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data)
sleep 300
y=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data)
res=$(($y-$x))
echo $res

上述获取的值*4/300 ,即为当前网卡的接收速率,单位byte/s。

方法2:使用ib_write_bw测试rdma的读写处理确定带宽

服务器a:服务端从mlx4_0网卡接收数据

ib_write_bw -a -d mlx5_0

服务器b:客户端向服务端mlx4_0网卡发送数据。

ib_write_bw -a -f 服务器a的ip -d mlx5_0 --report_gbits
图1 服务器a执行结果
图2 服务器b执行结果

相关文档

网站地图