由 MikroTik CloudCore1036 路由器和 HP 1810-24G 交换机配置错误引起的整个网络中的 ARP 问题

网络工程 ARP 生命值 以太通道
2022-02-14 08:16:37

我的问题是

  1. 为什么在 LAN 的不同站点的第 3 层设备的第 2 层配置会导致网络的另一部分出现问题?!
  2. CC1036 上的什么样的机制被激活,导致整个网络中许多设备的 ARP 表出现差距?!

MikroTik CloudCore1036路由器和HP 1810-24G交换机配置错误导致全网ARP问题

在上图中你可以看到我的部分网络方案。基于 Mikrotik CloudCore1036的主路由器在一个网桥内,HP交换机1810-24G1810-8G - 所有默认配置在默认 VLAN 内。所有CC1036接口都是arp-proxyarp-enabled模式。

  • CloudCore 1036 - 带有一个网桥并包含一个链接绑定的主路由器(导致问题balance-rr而不会导致问题802.3ad
  • swt-dx交换机 - 我的分布层交换机;所有HP 1810-24G - J9803A,带有一个默认 VLAN,
  • swt-ax开关 - 我的访问层开关;所有HP 1810-8G - J9802A,带有一个默认 VLAN,
  • 服务器 NAS - 我的本地存储服务器,
  • 本地站 x - 使用CC1036 MikrotikRouter 中定义的DHCP 服务器连接到网络的主机
  • Bonding-1 - 我在CC1036swt-d-1交换机之间绑定了 3 个链接;swt-d-1E22E23E24接口和CC1036E1E2E3接口上使用了中继线,我使用了平衡 rr协议,并将该绑定添加到网桥。

根本原因分析:

乍一看,一切都很好——所有主机都可以访问 Internet,并且可以通过 LAN 在它们之间访问。

第一个症状是失去从整个 LAN 站点和使用 VPN 的 Internet到NAS 服务器的连接。

此外,本地站 3站点的某些主机无法本地化本地站 1的 LAN 打印机- 存在 PING 问题等。当我尝试连接到本地站 3 LAN 站点的不同主机时也是如此。

本地站 3主机上的ARP也不完整!!!他们不知道最近邻居的 MAC 地址!!!

我怀疑swt-d-3有问题。

当我在swt-d-3 上断开连接E23CC1036的swt-d-3开关链路试图更换该开关时 - 监控服务器显示该问题立即消失。

这很奇怪,因为问题被隔离到本地站 3 LAN 部分。理论上,帧和数据包不应离开swt-d-3交换机,因为有问题的流量仅限于连接到此交换机端口的主机。


当我重新配置CC1036并将绑定协议从balance -rr更改为CC1036swt-d-1之间802.3ad时,整个网络开始运行良好!!!所有主机开始互相看到,与Nas 服务器的连接问题消失,所有ARP 表都已完成。

2个回答

为什么在 LAN 的不同站点的第 3 层设备的第 2 层配置会导致网络的另一部分出现问题?!

首先,需要明确的是,由于您提到要桥接 Cloud Core 上的接口,因此这是同一个 L2 LAN 的一部分,而不是“不同的站点”。

其次,错误配置网络设备会产生各种意想不到的问题。成为一名优秀的网络故障排除者的一部分是能够将实际问题与症状区分开来。

CC1036 上的什么样的机制被激活,导致整个网络中许多设备的 ARP 表出现差距?!

在您的修复中,您只提到将 Cloud Core 从 balance-rr 更改为 802.3ad。你在 swt-d-1 上有什么改变吗?如果是这样,是什么?

我的猜测是您在使用 STP 时遇到了问题,当您没有在两侧正确配置链路聚合时可能会发生这种情况。当发生这种情况时,我看到的问题是 L2 循环或一个设备向第二个设备发送流量而第二个设备的端口处于 STP 阻塞状态的情况。

以我的知识和我的 Mikrotik 冒险,我建议你:

  1. 如果没有主要原因,请使用模式 802.3ad而不是 balance-rr。如果您阅读Mikrotik WIKI - Bonding他们说它的模式不是 100% 兼容所有其他网络产品
  2. ARP 表不需要总是满的,可能只有来自主机需要交谈的 ip/mac 目标的输入

我的诊断是模式平衡-rr 是您的网络问题的根源