我正在对一个奇怪的丢包情况进行故障排除。我们有一个带有柜顶开关的服务器柜(Brocade FESX648-PREM)。该交换机与我们的传输提供商运行 BGP 会话。
我们有一台服务器(以下称为“坏服务器”)正在经历 50% 的数据包丢失。该服务器正在运行 Windows Server 2012 R2,并且它已经运行了几个月没有问题,直到今天早上。在这一点上,我怀疑交换机本身可能有问题,所以我转向这个社区寻求其他故障排除的帮助,而不是 ServerFault 或 SuperUser 来进行与服务器相关的故障排除。
这是我到目前为止检查的内容,以排除坏服务器上数据包丢失的原因:
- 机柜中没有其他服务器出现丢包。
- 网关交换机和坏服务器可以毫无问题地相互ping通。
- 如果我登录到机柜中的另一台服务器并尝试 ping 坏的服务器,那么我确实会丢失数据包。
- 坏服务器上的路由表很好——默认路由指向正确的网关,不存在其他条目(本地 IPv4 分配除外)。
- 防火墙已被禁用。
- 没有有效的 VPN 设置(即,坏服务器上的路由表只有默认路由)。
- CPU 负载和网络流量都非常低。
- 服务器已重启。
- 速度和双工设置设置为自动否定,并且在交换机和服务器上都相同。
- 两端强制100mbit满,仍然有丢包。
- 交换机上没有记录端口错误(没有丢包、冲突、FCS 等)。
- 交换机上的 CPU 利用率很低(http://pastebin.com/q24QSqEz)。
任何人有任何想法我接下来应该看哪里?特别是#2、#3 和 #11 的结果真的让我陷入了循环......