查找透明的防火墙数据包丢失

我们在第2层透明模式下使用Cisco ASA 5585。该配置只是我们的业务合作伙伴dmz与内部网络之间的两个10GE链接。一个简单的映射如下所示。

10.4.2.9/30                    10.4.2.10/30
core01-----------ASA1----------dmzsw

ASA具有8.2（4）和SSP20。交换机是6500 Sup2T和12.2。在任何交换机或ASA接口上都没有丢包！交换机之间的最大流量约为1.8Gbps，而ASA上的CPU负载非常低。

我们遇到了一个奇怪的问题。我们的nms管理员看到非常严重的数据包丢失情况始于6月的某个时候。丢包的速度非常快，但是我们不知道为什么。通过防火墙的流量保持不变，但是数据包丢失迅速增长。这些是我们通过防火墙看到的nagios ping故障。 Nagios向每个服务器发送10次ping。有些故障会使所有ping失效，而并非所有故障都会使全部10 ping失效。并不是很糟糕。

                             My traceroute  [v0.75]
nagios    (0.0.0.0)                                    Fri Jul 19 03:43:38 2013
Keys:  Help   Display mode   Restart statistics   Order of fields   quit
                                  Packets               Pings
 Host                           Loss%   Snt Drop   Last  Best   Avg  Wrst StDev
 1. 10.4.61.1                    0.0%  1246    0    0.4   0.3   0.3  19.7   1.2
 2. 10.4.62.109                  0.0%  1246    0    0.2   0.2   0.2   4.0   0.4
 3. 10.4.62.105                  0.0%  1246    0    0.4   0.4   0.4   3.6   0.4
 4. 10.4.62.37                   0.0%  1246    0    0.5   0.4   0.7  11.2   1.7
 5. 10.4.2.9                     1.3%  1246   16    0.8   0.5   2.1  64.8   7.9
 6. 10.4.2.10                    1.4%  1246   17    0.9   0.5   3.5 102.4  11.2
 7. dmz-server                   1.1%  1246   13    0.6   0.5   0.6   1.6   0.2

当我们在交换机之间ping时，我们不会丢失很多数据包，但是很明显问题出在交换机之间。

core01#ping ip 10.4.2.10 repeat 500000

Type escape sequence to abort.
Sending 500000, 100-byte ICMP Echos to 10.4.2.10, timeout is 2 seconds:
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Success rate is 99 percent (499993/500000), round-trip min/avg/max = 1/2/6 ms
core01#

我们怎么能有这么多ping故障，并且接口上没有丢包？我们如何找到问题所在？思科TAC一直在解决这个问题，他们一直在寻求来自许多不同交换机的显示技术，而且很明显问题出在core01和dmzsw之间。有人可以帮忙吗？

2013年7月30日更新

谢谢大家帮助我发现问题。这是一个行为异常的应用程序，每次发送大量小的UDP数据包的时间约为10秒。这些数据包被防火墙拒绝。看来我的经理想升级我们的ASA，所以我们不再遇到这个问题。

更多信息

来自注释中的问题：

ASA1# show inter detail | i ^Interface|overrun|error
Interface GigabitEthernet0/0 "", is administratively down, line protocol is down
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface GigabitEthernet0/1 "", is administratively down, line protocol is down
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface GigabitEthernet0/2 "", is administratively down, line protocol is down
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface GigabitEthernet0/3 "", is administratively down, line protocol is down
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface GigabitEthernet0/4 "", is administratively down, line protocol is down
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface GigabitEthernet0/5 "", is administratively down, line protocol is down
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface GigabitEthernet0/6 "", is administratively down, line protocol is down
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface GigabitEthernet0/7 "", is administratively down, line protocol is down
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface Internal-Data0/0 "", is up, line protocol is up
     2749335943 input errors, 0 CRC, 0 frame, 2749335943 overrun, 0 ignored, 0 abort
         0 output errors, 0 collisions, 0 interface resets
           RX[00]: 156069204310 packets, 163645512578698 bytes, 0 overrun
           RX[01]: 185159126458 packets, 158490838915492 bytes, 0 overrun
           RX[02]: 192344159588 packets, 197697754050449 bytes, 0 overrun
           RX[03]: 173424274918 packets, 196867236520065 bytes, 0 overrun
Interface Internal-Data1/0 "", is up, line protocol is up
    26018909182 input errors, 0 CRC, 0 frame, 26018909182 overrun, 0 ignored, 0 abort
    0 output errors, 0 collisions, 0 interface resets
           RX[00]: 194156313803 packets, 189678575554505 bytes, 0 overrun
           RX[01]: 192391527307 packets, 184778551590859 bytes, 0 overrun
           RX[02]: 167721770147 packets, 179416353050126 bytes, 0 overrun
           RX[03]: 185952056923 packets, 205988089145913 bytes, 0 overrun
Interface Management0/0 "Mgmt", is up, line protocol is up
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface Management0/1 "", is administratively down, line protocol is down
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface TenGigabitEthernet0/8 "Inside", is up, line protocol is up
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets
Interface TenGigabitEthernet0/9 "DMZ", is up, line protocol is up
        0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
        0 output errors, 0 collisions, 0 interface resets

ASA1#

数据包丢失是否与流量水平达到峰值时一致？在此之前，此环境是否曾经免费发行过？到目前为止，已采取什么措施进行故障排除？

流量水平无关紧要。当通过防火墙的流量较低或较高时，就会发生数据包丢失。我们已经与TAC开了一个案例，为期一周，他们找不到任何接口上的数据包丢失。交换机或防火墙上没有CPU问题。我们使用dmz已有将近一年的时间，并且丢包仅在上个月左右开始。

嗨，队友，您是否在两个ASA接口中的一个上启用了IPS？我相信我们可以找到罪魁祸首。

根据mtr信息，并且您可以在交换机之间进行ping操作而不会出现问题，我认为问题出在您的core1交换机和通往nm的下一跳之间。

@Santino，现在说这是在core01上游丢失还是在它与dmzsw之间的某个位置为时尚早。 user2096，请发布show interface detail的输出| i ^接口|溢出|错误并显示防火墙上的资源使用情况

#1 楼

Interface Internal-Data0/0 "", is up, line protocol is up
     2749335943 input errors, 0 CRC, 0 frame, 2749335943 overrun, 0 ignored, 0 abort
                                              ^^^^^^^^^^^^^^^^^^
         0 output errors, 0 collisions, 0 interface resets

您在InternalData接口上显示超限，因此您将丢弃通过ASA的流量。有了这么多滴，不难想象这是导致问题的原因。当内部Rx FIFO队列溢出时会发生溢出（通常是由于加载问题）。

编辑以评论中的问题：

不明白为什么防火墙超载，它接近使用10Gbps。您能解释一下为什么即使CPU和带宽都很低时我们仍然看到超载吗？ CPU大约为5％，两个方向的带宽都从未高于1.4Gbps。设备的带宽，每秒连接或每秒数据包的功率。如此多的人引用了1或5分钟的统计数据，就好像该时间段内的流量相对恒定。传呼问题）...

show clock
show traffic detail | i ^[a-zA-Z]|overrun|packets dropped
show asp drop

现在绘制出每隔几秒钟您看到的流量与下降的流量；如果您在流量激增时看到大量的政策激增或超支，那么您就更接近罪魁祸首了。

如果您需要，您可以直接在ASA上嗅一下帮助确定导致ASA崩溃的原因...有时您必须快速赶上这一点。

甜！感谢您提供有关“显示int细节”的信息〜

–玉米片
13年7月23日在11:59

我们的内部数据超速增长非常快，所以这看起来像是问题。但是我不明白为什么防火墙超载，它接近使用10Gbps。您能解释为什么即使CPU和带宽都很低时我们仍会看到超速运行吗？ CPU大约为5％，任一方向的带宽都永远不会高于1.4Gbps。

–user2096
13年7月25日在9:12

@ user2096，我编辑了答案以回复...

–迈克·彭宁顿
13年7月25日在10:53

这似乎没有意义-这是透明的防火墙，有10GE进出和10GE出进。内部数据路径不适用10GE？似乎是产品设计失败。

–烟碱
13年7月27日在15:47

@ nicotine，OP购买了SSP-20，并且内部将SSP-20限制为不超过5Gbps（请参阅Cisco数据表）。如果要使用完整的10Gbps防火墙，则必须购买另一种选择（如果CPS成为问题，甚至可能是SSP-60）。如果超出包装盒的内部缓冲容量，这仅仅是设计失败。我见过用10GE的SSP-20很好的用例。

–迈克·彭宁顿
13年7月27日在17:10

编程黑洞网

查找透明的防火墙数据包丢失

评论

#1 楼

评论