昨天,当我们的BGP路由之一短时间中断时,我们的网络出现了短暂的中断。值得庆幸的是,几分钟后,我们的连接故障转移到了辅助BGP路由,并且在ISP端关闭/不关闭后,主路由开始运行。运行iOS 12.2 58的3750e交换机。

在我与ISP的对话中,他们无法给出明确的原因答案。为避免将来再次出现此问题,我们可以采取什么措施来确定原因?

发生错误时记录日志

br />记录ISP进行关闭/不关闭以重置BGP时的日志

172258: May  6 14:43:06: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Down BGP Notification sent
172259: May  6 14:43:06: %BGP-3-NOTIFICATION: sent to neighbor xxx.xxx.12.34 4/0 (hold time expired) 0 bytes
172260: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Multicast topology base removed from session  BGP Notification sent
172261: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Unicast topology base removed from session  BGP Notification sent

记录BGP连接最终从空闲状态变为Up的时间
172542: May  6 15:04:15: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to down
172543: May  6 15:04:16: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to down
172544: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 DOWN on interface GigabitEthernet2/0/49 non DR
172545: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 UP on interface GigabitEthernet2/0/49 
172546: May  6 15:04:16: %PIM-5-DRCHG: DR change from neighbor 0.0.0.0 to xxx.xxx.12.35 on interface GigabitEthernet2/0/49
172547: May  6 15:04:18: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to up
172548: May  6 15:04:19: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to up


我们这端的BGP接口(注意:没有CRC,丢弃,冲突的报告...)

评论

请注意,Meta中已经有关于标签的讨论。请考虑(或进入meta和chime)将您的cisco型号标记制成MANUFAC-MODELSERIES ...不确定3750e,但也许是3700系列?因此,然后以“ cisco-3700”为标签。否则,将是硬件模型之汤。请也保留您的“ cisco”标签,以便人们也可以搜索/关注/订阅“ cisco”。

按建议完成。

没有提到2个BGP对等体是否直接连接。如果它们之间还有其他设备,则它们可能还会产生许多其他可能的问题。

由于3700是旧型号路由器,因此重新标记为cisco-3750。 Catalyst交换机为3750。

@noaru 2个BGP对等体直接连接。

#1 楼

172259:5月6日14:43:06:%BGP-3-NOTIFICATION:发送给邻居xxx.xxx.12.34 4/0(保持时间已过期)0个字节

这通常意味着连接没有在保持计时器内响应任何保持活动状态(默认为180秒)。造成此问题的原因有很多。通常它是layer3可达性问题。如果再次发生,则应通过ping和telnet测试对等方来排除第3层问题(通过telnet到端口179,查看其是否响应)。是邻居的一端有问题(在这种情况下,更可能是远端)。

#2 楼

如果您只是想寻找“根本原因”,请执行以下操作:

您可能想问问提供商,在此之前是否对他们的终端进行了任何配置更改。在Cisco路由器上有一些实例(目前尚不能100%保证目前的代码版本),当一侧删除并重新添加带有“ mpls-ip”和/或“ mtu”的“ route-map”时,BGP会话将震荡BGP对等中的配置。尽管这种维护不应引起对等会话的问题,但我听说过这种情况。

此外,我不确定他们是否需要尽可能地降低界面并将其备份以“解决”问题。我认为只需重置对等会话就足够了,但是如果在发生故障时没有流量通过,人们可能会争辩说,他们放弃了接口以使事情再次滚动。

评论


尚未听说过重置对等会话。与这里提到的相似吗?链接另外,我可以做些什么来重置连接吗?

–John Lee
13年5月7日在21:23



它只是一个简单的“清除ip bgp nei xx.xx.xx.xx”,也称为“清除会话”。它仅重置BGP邻居关系(硬清除会断开会话并重新建立会话)。

–贾斯汀·西布鲁克·罗莎(Justin Seabrook-Rocha)
13年5月7日在21:25

快速问题:是否需要在ISP端完成“ clear ip bgp nei”,还是我们也可以启动它?

–John Lee
13年5月7日在21:42

任一端都可以启动清除会话。有时,当发生“奇怪”的事情时(例如此处的情况),值得在两端进行尝试。我只是为了排除故障而一次完成每个目标。

– GoatAtWork
13年5月7日在22:07

值得一提的是,您可以执行软重置(只需在命令末尾添加'soft'关键字)-它会强制重新发送更新,而不会破坏连接(和邻居关系)。

– noaru
13年5月7日在22:31

#3 楼

这可能是MTU问题。有一阵子。启动正常,但是当收到具有很多路由的UPDATE时,由于MTU不匹配而丢失。另外,如果两个路由器之间有L2设备(交换机?媒体转换器?),则可能会在接口不断开的情况下中断连接。

#4 楼

不是从我所看到的。您的ISP的路由器退出了对路由器发出的问候消息的响应,这就是为什么您失去BGP连接的原因。您的路由器也有可能退出了侦听来自ISP的问候消息的过程,但是我看不到任何明显的消息可以帮助您查明问题。也许更专注于ISP跟踪的人可以发表评论并阐明一些想法?

评论


您的意思是保持活动,而不是问候消息-这是BGP,而不是OSPF。

–尼尔斯
13年5月7日23:31



谢谢,是的有时我有点混乱。

–艾培(Avery Abbott)
13年5月20日在21:38