Home

【vSAN】集群主机告警:检测到物理网卡错误率较高

把 vSAN 集群主机从 6.7 升级到 8.0 U2 后,如果运行一段时间开始出现“检测到物理网卡错误率较高”的告警,通常需要先确认这是驱动兼容性问题、链路问题,还是已知的网卡队列参数问题。

问题现象

升级后一周左右,主机开始出现如下告警:

告警内容大意为:

检测到物理网卡错误率较高。有关详细信息,请查看主机的 vSAN 性能视图。

检查方法

可以通过以下路径查看对应物理网卡的丢包率和吞吐量:

主机 -> 监控 -> vSAN -> 性能 -> 物理适配器

也可以在 ESXi Shell 中执行命令确认:

esxcli network nic stats get -n vmnic3

其中 vmnic3 需要替换为实际对应的物理网卡名称。

处理方法

在排除驱动和固件兼容性问题后,可以按 VMware 发行说明中的思路,为 ixgben 驱动关闭 QPair

如果主机上有 8 块 ixgben 物理网卡,并且都需要关闭 QPair,可以执行:

esxcli system module parameters set -p "QPair=0,0,0,0,0,0,0,0" -m ixgben

执行完成后,重启主机生效。

原因说明

参考 ESXi 7.0 发行说明,这是 Intel 82599 / X540 / X550 系列网卡在 ixgben 驱动下的已知问题之一。启用 QPair 后,在某些高负载场景里可能出现吞吐量下降或丢包计数上升。

https://docs.vmware.com/cn/VMware-vSphere/7.0/rn/vsphere-esxi-vcenter-server-70-release-notes.html

补充说明

  • 上面的 QPair 参数写法需要按实际 ixgben 网卡数量对应填写,每个 01 对应一块 pNIC。
  • 如果并不是所有网卡都需要调整,可以只针对对应位置设置。
  • 在修改前,仍然建议先确认物理链路、交换机端口、驱动版本和固件版本是否正常。
VMware 网络 存储