我有一个HP c7000刀片服务器机箱,其中包含运行ios 12.2(58)SE1的Cisco 3120X和Cisco 3120G交换机。刀片服务器本身的负载非常轻,但是机箱中不同刀片服务器交换机上的许多接口显示出相当多的输出下降。如果我反复检查输出下降的次数,我不仅会看到计数器增加,有时还会减少。这些数字与接口上记录的数据包不相关。该平台的QoS设置是默认设置。

以下示例均在30秒内获取:

bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 2255550
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 2255550
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 2255550
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 2255550
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 2255550
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 2255550
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 451110
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 451110
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 902220
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 1353330
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 1804440
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 1804440
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 1804440
bc1019-3120-stack>sh int gi2/0/7 | i output drops
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 451490

bc1019-3120-stack>sh int gi2/0/7 | i output rate
  5 minute output rate 301000 bits/sec, 119 packets/sec




1)除了服务器nic不能足够快地接收帧以外,还有什么会导致输出下降的吗?

2)接口计数器可以记录的最大输出下降次数是多少?它达到最大值时会翻转吗?

3)什么是健康的产出下降率?

评论

正如Leonardo Abdalla指出的那样,在刀片服务器机箱上看到的不稳定的输出下降是CSCtq86186错误的结果。

这是一个错误。我们碰到了同样的东西,升级到c3750e-universalk9-mz.150-2.SE4.bin,一切都很好。 JB

#1 楼

除非有人清除计数器,否则您永远都不会看到里程表类型的计数器(基于数据包操作而增加的计数器)减少,它们应该始终增加。该部分听起来像是个错误。

就导致输出下降的特别原因而言,有太多不同的原因,很难准确地找到它。有时,交换机的背板内部会出现拥塞,这些可能会在输出接口上的输出下降时出现。在极少数情况下,当以1分钟的间隔进行轮询时,也不会出现微爆,这会使接口快速过载,但随后又会迅速下降。我建议抓取用于输出丢弃的SNMP OID,然后对其进行图形化处理,并查看其与CLI计数器的对应关系。没有到达目的地但是,如果您正在高速运行链接(您说不是那样),则在一定程度上不可避免,这主要是由于内部开关缓冲等造成的。

评论


我想知道在这种情况下是否有太多辍学,柜台回绕了。

–不
13年5月10日在15:29

它们是32位计数器,因此您无法接近极限。 (可能是内部64位)

–瑞奇
13年5月19日在20:13

#2 楼

我的第一个想法是单播泛洪,尤其是当计数器在同一VLAN中的多个端口上一致地递增时。我同意亚伦的观点,计数器递减听起来像个错误。计数器可能会在2 ^ 64处翻转,但这不会在几秒钟内发生。我认为健康的输出率下降为零,但这是不现实的,即使在数据中心也是如此。您正在执行10G上行链路吗?

评论


是的,刀片服务器机箱中的两个3120X分别有一个10gig上行链路(一个端口由于stp而被阻塞)

–User123456
13年5月9日在21:05



正如1G上行链路很容易使100M下行链路不堪重负一样,我敢肯定10G / 1G也是如此。当发生单播洪泛时尤其如此。我怀疑单播泛洪在带宽/ pps统计信息中是否显而易见。

–丹尼斯·奥尔瓦尼(Dennis Olvany)
13年5月9日在22:49

#3 楼

好像您遇到了CSCtq86186错误。此错误已在3750、2960年代发现,但也可能会影响刀片式交换机。

评论


这正是我们在3120上遇到的错误-已在15.0(2)SE中修复。谢谢!

–User123456
13年5月23日在12:04

#4 楼

如果遇到单播泛洪,在其中一台主机上运行wireshark或跨端口之一显示应该很快。

听起来您在方形拓扑中具有冗余核心?如果是这样,请尝试将此命令添加到您的vlan界面:

arp timeout 300


CAM表将条目保留5分钟,而ARP表则保留4小时(默认值)。将ARP设置为与CAM匹配可以消除单播泛洪,但会稍微增加CPU的开销。 Catalyst 6500/6000交换机ARP或CAM表问题疑难解答

#5 楼

在具有较小缓冲区的小型交换机上,输出下降相当普遍,因为任何突发都会耗尽缓冲区。我对3120并不是很熟悉,所以我无法说说它的缓冲区大小,但这至少是一个常见的原因,直到有人可能会导致输出下降。

具体原因是原因线路阻塞(HOLB),其中多个源端口正在发送到一个目的地,因此我们会出现拥塞。另一个常见原因是从较高的端口速度降低到较低的速度时,例如10G到1G或40G到10G。

我建议您运行show controllers ethernet-controller X,其中X是您的端口。您应该获得有关输出下降的一些信息,例如,如果某项尝试输出到较大的帧,如果您的网络中没有一致的MTU,则可能会发生这种情况。