【vSAN】集群主机告警:检测到物理网卡错误率较高
把 vSAN 集群主机从 6.7 升级到 8.0 U2 后,如果运行一段时间开始出现“检测到物理网卡错误率较高”的告警,通常需要先确认这是驱动兼容性问题、链路问题,还是已知的网卡队列参数问题。
问题现象
升级后一周左右,主机开始出现如下告警:

告警内容大意为:
检测到物理网卡错误率较高。有关详细信息,请查看主机的 vSAN 性能视图。
检查方法
可以通过以下路径查看对应物理网卡的丢包率和吞吐量:
主机 -> 监控 -> vSAN -> 性能 -> 物理适配器也可以在 ESXi Shell 中执行命令确认:
esxcli network nic stats get -n vmnic3其中 vmnic3 需要替换为实际对应的物理网卡名称。
处理方法
在排除驱动和固件兼容性问题后,可以按 VMware 发行说明中的思路,为 ixgben 驱动关闭 QPair。
如果主机上有 8 块 ixgben 物理网卡,并且都需要关闭 QPair,可以执行:
esxcli system module parameters set -p "QPair=0,0,0,0,0,0,0,0" -m ixgben
执行完成后,重启主机生效。
原因说明
参考 ESXi 7.0 发行说明,这是 Intel 82599 / X540 / X550 系列网卡在 ixgben 驱动下的已知问题之一。启用 QPair 后,在某些高负载场景里可能出现吞吐量下降或丢包计数上升。
https://docs.vmware.com/cn/VMware-vSphere/7.0/rn/vsphere-esxi-vcenter-server-70-release-notes.html

补充说明
- 上面的
QPair参数写法需要按实际ixgben网卡数量对应填写,每个0或1对应一块 pNIC。 - 如果并不是所有网卡都需要调整,可以只针对对应位置设置。
- 在修改前,仍然建议先确认物理链路、交换机端口、驱动版本和固件版本是否正常。