我正在寻找一些事后建议,因此不会再发生此事。

我们有两个Cisco 4500x交换机的网络核心,配置为VSS冗余。从这些服务器中,我们有iSCSI设备,用于vSphere的HP刀片中心,到用户访问交换机的聚合链接以及在服务器机房中用于铜缆设备的一对4948e交换机。从4948es开始,我们有一对用于两个ISP链路的2960交换机,以及一对用作防火墙的ASA。相当不错的冗余,除了连接到4948e的许多设备只有单个NIC-我们只能做的很多。

我们正准备更换当前的用户访问开关(旧的Extremes)。 )与梅拉基。我们还正在实施Meraki AP,以取代当前的Arubas。无线项目的一部分涉及到一些新的VLAN和子网,用于AP管理和访客无线。

我们在4500x上有两个定义的VLAN(20和40),它们在任何地方都没有使用过-确认子网是空的,没有端口在使用它们,等等。我进入4500x并发出“ no interface vlan 20”,然后使用所需的子网对其进行了重建。然后,我将其添加到连接到Meraki的两个10Gb端口。
switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>

我注意到20和40个VLAN已关闭,因此我在它们上发出了no shutdown。那时我失去了访问Merakis的权限,所以我意识到我没有为该链接的端口通道接口添加VLAN。

此时我们一半的环境变得无法访问

我们的互联网链接变得异常脆弱。我们的Avaya VoIP电话无法拨入或拨出。我们有几个铜缆连接的iSCSI设备不可用-没有面向用户的中断,但是我们的备份和邮件存档受到影响。我进入服务器机房,将Merakis与4500x断开连接(拔下两个10Gb光纤端口),以防万一我以某种方式创建了一个环路-不变。我承认当时只是盯着它看了一会儿。

我拉起Orion,并注意到我们的一个外部交换机(Cat2960)和我们的ASA对之一也掉线了。显然我们有部分局域网连接丢失,但是ASA对也相互交叉连接,并且它们的上行链路没有断开,因此它们没有故障转移到内部设备可以到达的范围。我关闭了“关闭”的ASA,并且互联网再次可以访问。

我给TAC打了电话,经过几个小时的努力,技术人员一直在为我展示的4500x主机上的每个故障主机仔细检查每个端口配置,然后我登录了我们的4948e交换机和展示了它如何无法ping通直接连接和向上连接的东西-我们基于Windows的铜制iSCSI设备之一,刀片中心上的iLO接口等。

他查看了日志,并做了找不到任何东西,但是此时他说:“即使我在日志中看不到它,看起来也像是生成树的错误”,所以我们重新启动了4948e,所有直接连接的主机都恢复了-包括Avaya机壳,因此我们的手机可以再次开始工作。 4500x光纤连接设备仍然存在问题-死路径,因为它们都是多余的。他想对它进行非正常的关机后再开机,但这已经包含了我们所有的10 Gbit iSCSI,这将使我们的vSphere环境(本质上是我们所有的服务器)表现糟糕。我说服他做一个优雅的冗余切换,以解决剩余的问题。

TL; DR:我对核心进行了相当无害的更改,并导致了一个可怕的问题。我是否犯了应该预料会导致此错误的配置错误-例如,如果我先不关闭VLAN,然后将其添加到端口通道,然后再将其添加到端口,是否可以避免这种情况?思科技术人员并未这么说。他说,由于正常运行时间超过一年,并且IOS版本较旧,因此这种情况并不奇怪。


4500x:Cisco IOS软件,IOS-XE软件,Catalyst 4500 L3交换机软件(cat4500e-UNIVERSALK9-M),版本03.04.05.SG发行版本
软件(fc1)ROM:15.0(1r)SG10

4948e:Cisco IOS软件,Catalyst 4500 L3交换软件
(cat4500e-IPBASEK9-M),版本15.0(2)SG10,发布软件(fc1)
ROM:12.2 (44r)SG11


#1 楼

听起来您好像制造了广播风暴,而阻止广播风暴的唯一方法就是关闭交换机的电源。经历了几次之后,我们采用了Cisco建议的一些最佳实践:


您只能将VLAN扩展到单个访问交换机。您可以
在接入交换机上拥有任意数量的VLAN,但是
任何接入交换机上的VLAN都不应中继到任何其他接入交换机,
只能中继到分布交换机。通过使用switchport trunk allowed vlan
命令手动禁用中继上的所有其他VLAN来强制执行此操作。
分布交换机上不应有任何访问接口,
只能是分布中继接口。 br请勿使用VTP(将所有开关设置为transparent模式)。
您的访问接口应启用portfastbpduguard
。您可以为所有访问接口全局启用这些接口,并且您的中继接口将不受影响。如果您
不小心将交换机连接到访问接口,这将导致该接口进入err-diable并防止STP环路。
请勿将访问交换机连接到另一个访问交换机。仅
将访问交换机连接到配电交换机,并且仅在主干
接口上。

这些最佳实践将防止几乎所有的STP问题,并隔离单个发生的所有问题。存取开关。

评论


是的。希望有一天,我希望在一个拥有足够资金,没有“怪异”(即L2)应用程序,温顺的用户社区以及足够的管理支持的网络上工作,以遵循所有推荐的良好习惯。有一天

–罗恩·托恩(Ron Trunk)
16-09-28在15:04

1.关于VLAN和访问交换机的第一个建议,我不确定我是否理解。

– mfinni
16-9-28在15:42

2.我们的“分布”大概是我们的4500x,它主要是干线,但具有一些iSCSI光纤连接。

– mfinni
16-09-28在15:43

3.避免使用VTP-今天会考虑,不要认为任何东西都是“透明的”

– mfinni
16-9-28在15:43



4. portfast和bdpuguard-也会审查此建议

– mfinni
16-09-28在15:44

#2 楼

除了上述Ron Maupin的出色建议外,我还在Cisco的论坛上找到了几篇有关我在此过程中犯下的潜在大错误的帖子。我首先将VLAN添加到了物理端口接口,而不是它们所属的端口通道接口。后者是执行此操作的正确方法,而我可能是造成此问题的原因。

评论


如果成员接口出现故障,则可以按照您的方式进行操作。总的来说,我发现我要关闭成员接口,进行所有配置,包括端口通道,然后,一旦完成就可以进行配置。

–罗恩·莫潘♦
16-9-29在13:45