CE维护常见故障处理之日常故障处理-白红宇

CE设备作为软交换网元接入IP承载网的第一道关卡，起着十分重要的作用。作为CE设备维护人员，在日常维护设备的过程中能够对常见的故障从容应对、处理是十分有必要的。

本人对CE设备的维护已半年多，现将CE维护中常遇见的故障及如何处理总结一下，与大家共同学习、交流。

一、端口变down故障处理

CE设备的端口一般分为GigabitEthernet(电口)和pos(光口)，CE设备终端查看端口的命令为:

华为NE40E：display interface GigabitEthernet X/X/X

爱立信juniper:show interface GigabitEthernet X/X/X

爱立信SE800：show port [ Slot/Port ] detail

由于目前广州地区的CE设备品牌主要包括华为Quidway NE40E系列和爱立信的Redback SE800系列,至于爱立信的juniper、Apline 3804及Summit 48si等设备已经逐步退网。爱立信的SE800是新验收不久的CE设备，广州地区只有两对,所以本文中所提到的CE设备故障一般是指华为NE40E中出现的故障，其它品牌CE设备故障参考处理。

首先CE设备的一个端口变down情况会有两种及原因分析(见附表一)：

情况	物理状况	链路状况	原因分析
一	up	down	1.IP 地址冲突,子网掩码设置错误。 2. 没有设置DCE时钟。 3. 没有设置对FR的,PPP的封装。 4.Hello 和Dead的更新时钟在两端不同。 5. 路由协议设置错误。
二	down	down	1 、物理端口被手动shutdwon。 2 、由于对方的端口down掉或者链路不通。

附表一

1、第一种情况处理：

从设备终端登陆CE设备查看端口链路层出现down情况的端口（见图一），该情况是最常见的一种故障。

物理状态为

链路

状态为

down

图一

对于这种端口链路状态变down的情况处理步骤：

1) 参照OSI参考模型(Open System Interconnection),第二层的链路层协议从初始化到变Up 起来，会经过包括链路层协议本身规定的参数、能力协商，及协议所规定的定期性的链路通达性检测（例如HDLC 的Keepalive 报文）。既然称之为“协商”，也就意味着该过程是一对一交互性进行的，既有一个发送出去的报文，也会有一个对方发送过来的回应报文。因此，如果遇到物理口Up、协议Down 的情况，建议在确认两端设备的配置没有问题之后，用“display interface + 端口”的命令查看一下该端口的收、发报文情况。在CE设备上，“display interface”命令的显示结果有XXXX packets input 和XXXX汇报packets output 两项，分别代表该端口上收到和发送的报文数量。正如刚才所阐述的，如果这两个数字相差很大（为了不致让以往累计的历史统计数据对问题的分析、判断造成干扰，建议先在CE设备的特权用户模式下使用“clear port”命令将端口的统计信息清空，再用“display interface + 端口”命令进行查看），则大致可以说明在协商的过程中出了问题，造成协议不能Up起来。

2) 在很多情况下，物理口Up、协议Down，用“display interface”命令查看端口的收发报文情况，发现只有送出去的报文，收到的报文数量为零，而且连续使用“display interface”命令进行查看，进一步发现送出去的报文数量在不断增长，但是收到的报文数量始终为零。这说明了CE与网元之间的链路层协议处于Down 状态的原因：（1）在CE与网元之间的传输链路、线缆出了问题，导致本端CE设备收不到对端网元送过来的回应报文；（2）对端网元本身出了问题，无法给本端CE设备发送回应报文。

3) 除最常用的收发报文数量比较的方法外，在“display interface”命令的显示信息中，还有一项很重要的内容，那就是端口所收到的错误报文数量。在CE设备上的“display interface”命令显示结果的倒数第二行，有如下的信息：

0 input errors, 0 CRC, 0 frame errors

如果由于传输误码、物理线路质量比较差或者是中间的中继架位链路出了问题，则容易导致CE设备收到的IP 报文中，很多是错误的报文。特别地，如果通过连续“display interface”查看会发现错误的报文在不断增长，则可以判断此时网络线路质量比较差、传输有误码，或者中间的中继架位、某段电缆出了问题，导致送给本端CE设备的报文绝大部分是错误包，这样链路层协议也肯定是不能变Up 的。

4) 另外，如果通过“display interface”命令发现收、发报文的数量基本相等，而且也没有错误包，但协议还是Down，这个时候可以在CE设备上打开该端口的链路层协议Debug 开关，通过Debug 调试信息完整地分析一下协议的协商过程，看看到底问题出在什么地方，是出在协商的哪个阶段。不过，这种情况在实际中很少碰到。

5) 最后，正如前面提到的，在CE设备中，物理口Up、链路协议Down，可能的原因非常多，不同类型的端口、不同的协议，可能的原因都不尽相同。前面所阐述的只是常见的故障情况，具体问题还是需要具体分析。另外很重要的一点是，协议的功能是用于互连、通信，在实际的软交换维护中，协议问题的排查同样需要各个相关部门、相关人员的通力配合，孤立、静止地去分析问题，很难取得比较好的效果。

2、第二种情况处理：

此种情况表示设备端口的物理层和链路层都已经变down的情况（见图二）：

图二

对于这种情况的端口变down的处理步骤：

1) 检查该端口是否已经被手动shutdown，用命令“display interface”查看端口状况，如果这个显示为端口administratively down 即表示已经手动shutdown，物理层都已经关闭，当然链路层就变down了。

2) 如果端口看到物理层显示不是administratively down，即有可能由于对端网元的端口已经变down或者链路不通。此时可以联系机房现场的维护人员协助查看设备的物理端口连接及线路状态。

二、链路断开故障处理

链路断开顾名思义是指CE设备所连接的网元间的链路断开、线路不通的故障。遇到这种故障处理步骤：

1、请机房现场维护人员查看CE设备端口是否松动？如果有松动即拨插一下，同时在远程终端登陆设备查看链路是否恢复正常。

2、电话联系传输室报障（020-86321169），请传输室人员协助对链路做自环测试，查看CE设备跟对端网元的链路状况up/down情况，查清楚到底是哪一端线路出现问题。

3、从远程终端登陆CE设备查看出现故障的端口，初步判断故障的原因所在，并持续用ping和tracert命令测试链路传输是否恢复正常。

4、在远程终端查看日志信息，搜索有关出现故障的端口日志信息。

例如：9月18日花都CE11的端口GigabitEthernet 5/0/0出现ping包不通的现象，从远程终端登陆设备CE11，查看到端口GigabitEthernet 5/0/0连接的网元为GZGM16，再查知GZGM16跟CE相连的IP地址如下表：

GDGZ-NGN-CE11-HWNE40E	Vlanif1410(10.132.19.66/28 )	10.132.19.68(2-19-PL) 10.132.19.70(3-19-PL)	GZGM16
GDGZ-NGN-CE11-HWNE40E	Vlanif1411(10.125.19.73/29)	10.125.19.74(2-19-SIG-ITU) 10.125.19.75(2-19-SIG-MPT)
GDGZ-NGN-CE11-HWNE40E	Vlanif1415(10.132.19.194/28)	10.132.19.196(2-20-PL) 10.132.19.198(3-20-PL)

在CE11上使用 ping命令来ping对端的网元：

<GDGZ-NGN-CE11-HWNE40E>ping -s 1000 -c 100 -vpn-instance ChinaMobile_NGN_Media -m 30 -a 10.132.19.66 10.132.19.68

目的端口IP地址

PING 10.132.19.68: 1000 data bytes, press CTRL_C to break

Reply from 10.132.19.68: bytes=1000 Sequence=1 ttl=255 time=1 ms

源端口IP地址

.................................

Reply from 10.132.19.68: bytes=1000 Sequence=99 ttl=255 time=1 ms

Reply from 10.132.19.68: bytes=1000 Sequence=100 ttl=255 time=1 ms

--- 10.132.19.68 ping statistics ---

没有数据包丢失

100 packet(s) transmitted

100 packet(s) received

0.00% packet loss

round-trip min/avg/max = 1/1/2 ms

用短数据包去ping（-s 1000数据）可以发现是可以ping得通的，如果用长数据包（-s 3000）去ping呢？

<GDGZ-NGN-CE11-HWNE40E>ping -s 3000 -c 100 -vpn-instance ChinaMobile_NGN_Media -m 30 -a 10.132.19.66 10.132.19.68

PING 10.132.19.68: 3000 data bytes, press CTRL_C to break

Request time out

………………………..

……………………….

Request time out

全部数据包丢失

--- 10.132.19.68 ping statistics ---

100 packet(s) transmitted

0 packet(s) received

100.00% packet loss

可以看到如果用长数据包去ping对端网元时显示超时，故障可以初步判断是网元端的板卡接口有问题，可能出现连接松动或者接触不良等问题。

再查看一下CE设备的有关端口GigabitEthernet 5/0/0的日志信息：

GDGZ-NGN-CE11-HWNE40E>dis log | include 5/0/0

Logging buffer configuration and contents:enabled

Allowed max buffer size : 1024

Actual buffer size : 512

Channel number : 4 , Channel name : logbuffer

Dropped messages : 0

Overwritten messages : 47928

Current messages : 512

Sep 18 2009 16:41:14 GDGZ-NGN-CE11-HWNE40E %%01SHELL/5/CMDRECORD(l): task: vt0 ip: 10.201.62.48 user: huawei command: interface GigabitEthernet 5/0/0.

Sep 18 2009 16:27:32 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.

GigabitEthernet5/0/0

断开过

Sep 18 2009 16:27:30 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5; GigabitEthernet5/0/0: change status to down.

Sep 18 2009 16:23:26 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.

GigabitEthernet5/0/0

断开过

Sep 18 2009 16:23:24 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5; GigabitEthernet5/0/0: change status to down.

Sep 18 2009 16:23:23 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.

Sep 18 2009 16:22:54 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5;

Sep 18 2009 01:26:26 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.

Sep 18 2009 01:20:51 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5; GigabitEthernet5/0/0: change status to down.

Sep 17 2009 18:20:57 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.

Sep 17 2009 18:20:23 GDGZ-NGN-CE11-HWNE40E %%01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5; GigabitEthernet5/0/0: change status to down.

注意观察可以发现端口GigabitEthernet5/0/0曾经出现连续的闪断现象，联系机房现场维护人员的核查，进一步证实GZM16到CE出现闪断故障，通过对ETMFG-ECF之间的连接头的检查，发现ETMFG背板连接头有松散的现象。至此，只需把ETMFG背板连接头重新拨插一下，固定好就行了。

三、 IP NET网管系统登陆不上CE设备

由于CE设备是通过IP NET网管平台集中连接管理的，即通过IP NET网管系统集中控制管理。

通常在IP NET网管系统登陆不上CE设备通常会显现这样的结果：

Console>>open GDGZ-NGN-CE07-HWNE40E

Deivce info not found in core !%ERROR% -- connect to device failure

这时可以通过电话直接联系IP NET网管的负责方---东信公司的负责人协助解决。

例如：10月29日西华爱立信CE19、CE20及下带的两台交换机一直登陆不上去。

1) 首先联系机房现场的维护人员，核查四台CE设备是否已下电；

2) 联系东信协助解决，通过利用traceroute命令进行检测，根据我们向东信负责人提供的CE设备管理接口地址, IP NET网管负责人使用tracert命令对数据包的传输路径进行跟踪，发现数据包至132.97.19.48地址时截止（具体见附表二）：

设备名称

Management Interafce

Management Interafce Trace

结果显示

GDGZ-NGN-CE19-JUM7I

10.201.75.2

traceroute to 10.201.75.2 (10.201.75.2), 30 hops max, 46 byte packets

1 10.201.1.90 (10.201.1.90) 1.977 ms 1.864 ms 2.113 ms

2 10.201.4.162 (10.201.4.162) 2.555 ms 2.068 ms 2.091 ms

3 10.201.4.157 (10.201.4.157) 0.215 ms 0.183 ms 0.179 ms

4 10.201.4.133 (10.201.4.133) 5.447 ms 1.343 ms 1.352 ms

5 10.201.5.1 (10.201.5.1) 1.586 ms 1.530 ms 4.797 ms

6 10.201.5.6 (10.201.5.6) 2.240 ms 2.190 ms 6.089 ms

7 132.97.33.174 (132.97.33.174) 3.687 ms 1.460 ms 1.234 ms

8 132.97.19.48 (132.97.19.48) 6.272 ms 7.425 ms 10.352 ms

在

132.97.19.48

处断开

9 * * *
10 *

GDGZ-NGN-CE20-JUM7I

10.201.75.3

在

132.97.19.48

处断开

traceroute to 10.201.75.3 (10.201.75.3), 30 hops max, 46 byte packets
1  10.201.1.90 (10.201.1.90)  3.338 ms  1.860 ms  3.480 ms
2  10.201.4.162 (10.201.4.162)  2.133 ms  2.018 ms  5.807 ms
3  10.201.4.157 (10.201.4.157)  0.216 ms  0.170 ms  0.185 ms
4  10.201.4.133 (10.201.4.133)  1.397 ms  1.349 ms  1.347 ms
5  10.201.5.1 (10.201.5.1)  4.461 ms  1.676 ms  1.550 ms
6  10.201.5.6 (10.201.5.6)  6.565 ms  2.429 ms  2.306 ms
7  132.97.33.174 (132.97.33.174)  1.628 ms  1.183 ms  1.846 ms
8  132.97.19.48 (132.97.19.48)  4.496 ms  6.156 ms  3.194 ms
9  * * *

GDGZ-NGN-CE19-LS01EXAlpine3804

10.201.75.4

traceroute to 10.201.75.4 (10.201.75.4), 30 hops max, 46 byte packets
1  10.201.1.90 (10.201.1.90)  1.917 ms  5.250 ms  2.046 ms
2  10.201.4.162 (10.201.4.162)  1.903 ms  1.959 ms  6.127 ms
3  10.201.4.157 (10.201.4.157)  0.233 ms  0.171 ms  0.169 ms
4  10.201.4.133 (10.201.4.133)  1.366 ms  1.350 ms  1.346 ms
5  10.201.5.1 (10.201.5.1)  1.564 ms  2.981 ms  2.899 ms
6  10.201.5.6 (10.201.5.6)  2.281 ms  2.186 ms  6.126 ms
7  132.97.33.174 (132.97.33.174)  26.056 ms  4.698 ms  3.144 ms
8  132.97.19.48 (132.97.19.48)  7.495 ms  2.909 ms  1.995 ms
9  * * *
10  * * *
11  * *

附表二

可推测问题出现在网管的传输链路上，在数业室同事的协助下，发现是这四台设备的网管vlan设置出了问题，重新设置后解决问题。

另外，据数业室同事的反馈，由于在这四台设备上用于网管的vlan数据配置被丢失，造成网管登陆不上设备，这一故障虽然不是出现在CE设备上，但对CE维护造成的隐患也是一个很大警惕。

四、小结

目前CE设备尚在努力建设中，每一对CE都互为备份承载着逐渐增加的话务量，可靠性比较强，单CE设备本身故障影响话务的情况很少。故障主要是出现在网元跟CE相连的链路上，经常会由于网元端的板卡、接口出现问题。所以在日常处理CE设备的故障时，须特别留意CE设备所连接的网元状况。

参考文献：

1. 中国移动广东公司软交换CE维护管理细则（草稿）

2. CE常见告警预处理

3. 广东移动软交换CE告警列表

本文转自独钩寒江雪 51CTO博客，原文链接：http://blog.51cto.com/bennie/225868，如需转载请自行联系原作者