在我与ISP的对话中,他们无法给出明确的原因答案。为避免将来再次出现此问题,我们可以采取什么措施来确定原因?
发生错误时记录日志
br />记录ISP进行关闭/不关闭以重置BGP时的日志
172258: May 6 14:43:06: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Down BGP Notification sent
172259: May 6 14:43:06: %BGP-3-NOTIFICATION: sent to neighbor xxx.xxx.12.34 4/0 (hold time expired) 0 bytes
172260: May 6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Multicast topology base removed from session BGP Notification sent
172261: May 6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Unicast topology base removed from session BGP Notification sent
记录BGP连接最终从空闲状态变为Up的时间
172542: May 6 15:04:15: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to down
172543: May 6 15:04:16: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to down
172544: May 6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 DOWN on interface GigabitEthernet2/0/49 non DR
172545: May 6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 UP on interface GigabitEthernet2/0/49
172546: May 6 15:04:16: %PIM-5-DRCHG: DR change from neighbor 0.0.0.0 to xxx.xxx.12.35 on interface GigabitEthernet2/0/49
172547: May 6 15:04:18: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to up
172548: May 6 15:04:19: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to up
我们这端的BGP接口(注意:没有CRC,丢弃,冲突的报告...)
#1 楼
172259:5月6日14:43:06:%BGP-3-NOTIFICATION:发送给邻居xxx.xxx.12.34 4/0(保持时间已过期)0个字节这通常意味着连接没有在保持计时器内响应任何保持活动状态(默认为180秒)。造成此问题的原因有很多。通常它是layer3可达性问题。如果再次发生,则应通过ping和telnet测试对等方来排除第3层问题(通过telnet到端口179,查看其是否响应)。是邻居的一端有问题(在这种情况下,更可能是远端)。
#2 楼
如果您只是想寻找“根本原因”,请执行以下操作:您可能想问问提供商,在此之前是否对他们的终端进行了任何配置更改。在Cisco路由器上有一些实例(目前尚不能100%保证目前的代码版本),当一侧删除并重新添加带有“ mpls-ip”和/或“ mtu”的“ route-map”时,BGP会话将震荡BGP对等中的配置。尽管这种维护不应引起对等会话的问题,但我听说过这种情况。
此外,我不确定他们是否需要尽可能地降低界面并将其备份以“解决”问题。我认为只需重置对等会话就足够了,但是如果在发生故障时没有流量通过,人们可能会争辩说,他们放弃了接口以使事情再次滚动。
评论
尚未听说过重置对等会话。与这里提到的相似吗?链接另外,我可以做些什么来重置连接吗?
–John Lee
13年5月7日在21:23
它只是一个简单的“清除ip bgp nei xx.xx.xx.xx”,也称为“清除会话”。它仅重置BGP邻居关系(硬清除会断开会话并重新建立会话)。
–贾斯汀·西布鲁克·罗莎(Justin Seabrook-Rocha)
13年5月7日在21:25
快速问题:是否需要在ISP端完成“ clear ip bgp nei”,还是我们也可以启动它?
–John Lee
13年5月7日在21:42
任一端都可以启动清除会话。有时,当发生“奇怪”的事情时(例如此处的情况),值得在两端进行尝试。我只是为了排除故障而一次完成每个目标。
– GoatAtWork
13年5月7日在22:07
值得一提的是,您可以执行软重置(只需在命令末尾添加'soft'关键字)-它会强制重新发送更新,而不会破坏连接(和邻居关系)。
– noaru
13年5月7日在22:31
#3 楼
这可能是MTU问题。有一阵子。启动正常,但是当收到具有很多路由的UPDATE时,由于MTU不匹配而丢失。另外,如果两个路由器之间有L2设备(交换机?媒体转换器?),则可能会在接口不断开的情况下中断连接。#4 楼
不是从我所看到的。您的ISP的路由器退出了对路由器发出的问候消息的响应,这就是为什么您失去BGP连接的原因。您的路由器也有可能退出了侦听来自ISP的问候消息的过程,但是我看不到任何明显的消息可以帮助您查明问题。也许更专注于ISP跟踪的人可以发表评论并阐明一些想法?评论
您的意思是保持活动,而不是问候消息-这是BGP,而不是OSPF。
–尼尔斯
13年5月7日23:31
谢谢,是的有时我有点混乱。
–艾培(Avery Abbott)
13年5月20日在21:38
评论
请注意,Meta中已经有关于标签的讨论。请考虑(或进入meta和chime)将您的cisco型号标记制成MANUFAC-MODELSERIES ...不确定3750e,但也许是3700系列?因此,然后以“ cisco-3700”为标签。否则,将是硬件模型之汤。请也保留您的“ cisco”标签,以便人们也可以搜索/关注/订阅“ cisco”。按建议完成。
没有提到2个BGP对等体是否直接连接。如果它们之间还有其他设备,则它们可能还会产生许多其他可能的问题。
由于3700是旧型号路由器,因此重新标记为cisco-3750。 Catalyst交换机为3750。
@noaru 2个BGP对等体直接连接。