专用网络中的数据包丢失(服务器到服务器)。网关和服务器之间没有丢包

网络工程 数据包丢失
2022-02-23 07:38:50

我正在对一个奇怪的丢包情况进行故障排除。我们有一个带有柜顶开关的服务器柜(Brocade FESX648-PREM)。该交换机与我们的传输提供商运行 BGP 会话。

我们有一台服务器(以下称为“坏服务器”)正在经历 50% 的数据包丢失。该服务器正在运行 Windows Server 2012 R2,并且它已经运行了几个月没有问题,直到今天早上。在这一点上,我怀疑交换机本身可能有问题,所以我转向这个社区寻求其他故障排除的帮助,而不是 ServerFault 或 SuperUser 来进行与服务器相关的故障排除。

这是我到目前为止检查的内容,以排除坏服务器上数据包丢失的原因:

  1. 机柜中没有其他服务器出现丢包。
  2. 网关交换机和坏服务器可以毫无问题地相互ping通。
  3. 如果我登录到机柜中的另一台服务器并尝试 ping 坏的服务器,那么我确实会丢失数据包。
  4. 坏服务器上的路由表很好——默认路由指向正确的网关,不存在其他条目(本地 IPv4 分配除外)。
  5. 防火墙已被禁用。
  6. 没有有效的 VPN 设置(即,坏服务器上的路由表只有默认路由)。
  7. CPU 负载和网络流量都非常低。
  8. 服务器已重启。
  9. 速度和双工设置设置为自动否定,并且在交换机和服务器上都相同。
  10. 两端强制100mbit满,仍然有丢包。
  11. 交换机上没有记录端口错误(没有丢包、冲突、FCS 等)。
  12. 交换机上的 CPU 利用率很低(http://pastebin.com/q24QSqEz)。

任何人有任何想法我接下来应该看哪里?特别是#2、#3 和 #11 的结果真的让我陷入了循环......

1个回答

这最终成为一个失败的开关。几天后,我们开始在端口 37-48 上遇到问题。FESX648-PREM 由控制端口区域的端口 ASIC 供电。这些地区是:1-12、13-24、25-36 和 37-48。这个盒子上的故障模式之一是端口 ASIC 可能会死掉并导致转发问题。

上面的“坏服务器”是我们在 37-48 区域使用的唯一服务器。因此,当我们切换端口并重新测试时,我们得到了相同的结果,因为故障的 ASIC 影响了多个端口。

我们更换了整个开关并解决了问题。