对“ Down BGP”连接进行故障排除

昨天，当我们的BGP路由之一短时间中断时，我们的网络出现了短暂的中断。值得庆幸的是，几分钟后，我们的连接故障转移到了辅助BGP路由，并且在ISP端关闭/不关闭后，主路由开始运行。运行iOS 12.2 58的3750e交换机。

在我与ISP的对话中，他们无法给出明确的原因答案。为避免将来再次出现此问题，我们可以采取什么措施来确定原因？

发生错误时记录日志

br />记录ISP进行关闭/不关闭以重置BGP时的日志

172258: May  6 14:43:06: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Down BGP Notification sent
172259: May  6 14:43:06: %BGP-3-NOTIFICATION: sent to neighbor xxx.xxx.12.34 4/0 (hold time expired) 0 bytes
172260: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Multicast topology base removed from session  BGP Notification sent
172261: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Unicast topology base removed from session  BGP Notification sent

记录BGP连接最终从空闲状态变为Up的时间

172542: May  6 15:04:15: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to down
172543: May  6 15:04:16: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to down
172544: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 DOWN on interface GigabitEthernet2/0/49 non DR
172545: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 UP on interface GigabitEthernet2/0/49 
172546: May  6 15:04:16: %PIM-5-DRCHG: DR change from neighbor 0.0.0.0 to xxx.xxx.12.35 on interface GigabitEthernet2/0/49
172547: May  6 15:04:18: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to up
172548: May  6 15:04:19: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to up

我们这端的BGP接口（注意：没有CRC，丢弃，冲突的报告...）

请注意，Meta中已经有关于标签的讨论。请考虑（或进入meta和chime）将您的cisco型号标记制成MANUFAC-MODELSERIES ...不确定3750e，但也许是3700系列？因此，然后以“ cisco-3700”为标签。否则，将是硬件模型之汤。请也保留您的“ cisco”标签，以便人们也可以搜索/关注/订阅“ cisco”。

按建议完成。

没有提到2个BGP对等体是否直接连接。如果它们之间还有其他设备，则它们可能还会产生许多其他可能的问题。

由于3700是旧型号路由器，因此重新标记为cisco-3750。 Catalyst交换机为3750。

@noaru 2个BGP对等体直接连接。

#1 楼

172259：5月6日14:43:06：％BGP-3-NOTIFICATION：发送给邻居xxx.xxx.12.34 4/0（保持时间已过期）0个字节

这通常意味着连接没有在保持计时器内响应任何保持活动状态（默认为180秒）。造成此问题的原因有很多。通常它是layer3可达性问题。如果再次发生，则应通过ping和telnet测试对等方来排除第3层问题（通过telnet到端口179，查看其是否响应）。是邻居的一端有问题（在这种情况下，更可能是远端）。

#2 楼

如果您只是想寻找“根本原因”，请执行以下操作：

您可能想问问提供商，在此之前是否对他们的终端进行了任何配置更改。在Cisco路由器上有一些实例（目前尚不能100％保证目前的代码版本），当一侧删除并重新添加带有“ mpls-ip”和/或“ mtu”的“ route-map”时，BGP会话将震荡BGP对等中的配置。尽管这种维护不应引起对等会话的问题，但我听说过这种情况。

此外，我不确定他们是否需要尽可能地降低界面并将其备份以“解决”问题。我认为只需重置对等会话就足够了，但是如果在发生故障时没有流量通过，人们可能会争辩说，他们放弃了接口以使事情再次滚动。

尚未听说过重置对等会话。与这里提到的相似吗？链接另外，我可以做些什么来重置连接吗？

–John Lee
13年5月7日在21:23

它只是一个简单的“清除ip bgp nei xx.xx.xx.xx”，也称为“清除会话”。它仅重置BGP邻居关系（硬清除会断开会话并重新建立会话）。

–贾斯汀·西布鲁克·罗莎（Justin Seabrook-Rocha）
13年5月7日在21:25

快速问题：是否需要在ISP端完成“ clear ip bgp nei”，还是我们也可以启动它？

–John Lee
13年5月7日在21:42

任一端都可以启动清除会话。有时，当发生“奇怪”的事情时（例如此处的情况），值得在两端进行尝试。我只是为了排除故障而一次完成每个目标。

– GoatAtWork
13年5月7日在22:07

值得一提的是，您可以执行软重置（只需在命令末尾添加'soft'关键字）-它会强制重新发送更新，而不会破坏连接（和邻居关系）。

– noaru
13年5月7日在22:31

#3 楼

这可能是MTU问题。有一阵子。启动正常，但是当收到具有很多路由的UPDATE时，由于MTU不匹配而丢失。另外，如果两个路由器之间有L2设备（交换机？媒体转换器？），则可能会在接口不断开的情况下中断连接。

#4 楼

不是从我所看到的。您的ISP的路由器退出了对路由器发出的问候消息的响应，这就是为什么您失去BGP连接的原因。您的路由器也有可能退出了侦听来自ISP的问候消息的过程，但是我看不到任何明显的消息可以帮助您查明问题。也许更专注于ISP跟踪的人可以发表评论并阐明一些想法？

您的意思是保持活动，而不是问候消息-这是BGP，而不是OSPF。

–尼尔斯
13年5月7日23:31

谢谢，是的有时我有点混乱。

–艾培（Avery Abbott）
13年5月20日在21:38

编程黑洞网

对“ Down BGP”连接进行故障排除

评论

#1 楼

#2 楼

评论

#3 楼

#4 楼

评论