想象一下,在某个阳光明媚的上午你正在有条不紊的忙着手头上的事情,突然接到电话:“xxx客户那里有个PoE问题,过去定位一下”。紧接着收到一封加急邮件,内容里关于故障现象的描述也只有寥寥几笔、语焉不详。还没等你捋清整个事情的来龙去脉,又分别收到代理商/办事处老大关爱的声音:“xxx是重点客户,要尽快解决”如此等等。
这阵势不禁让人手忙脚乱、大脑还有点眩晕。不过少年不要慌,我看你骨骼精奇,是万中无一的IT奇才,维护客户网络稳定的重任就靠你了。我这有本秘籍,见与你有缘,就十块钱卖给你了!
言归正传,虽然PoE交换机使用方便、部署灵活,但也不乏有客户认为PoE交换机使用不够稳定。之所以会这样,究其原因还是因为PoE交换机供电能否成功与诸多因素有关。而在实际应用中客户碰到问题不知其所以然,也不会考虑太多,往往都倾向于是PoE交换机的问题。
下面就通过现网中存在的两个高频故障现象,来阐述一下当客户又向你抱怨PoE交换机“故障”时,如何从多种角度去分析问题并确认真正原因,以及向客户有理有据的解释。
注意,下文均以SMB盒式交换机为例来示范定位操作。
乍一看此类问题现象比较复杂有很大的迷惑性,怎么看都像是PoE交换机问题。比较典型的问题有:“某某学校反馈若干台S3110-10TP-PWR 下联某某型号的AP,运行一段时间后出现了部分AP掉线的情况,查看交换机上存在大量相关端口Up/Down的日志”。
透过现象看本质,只要迅速确认如下两点信息,就能快速预判问题之所在。
1. 确认端口Up/Down是否是因为交换机对PD供/去电引起的,简单说就是看交换机有无对PD断电。 直观的方法就是同时观察PD的工作指示灯和交换机的PoE端口指示灯是否正常,不过一般情况下交换机和PD都不在一处,实施比较困难。
另外可观察交换机是否有打印PoE供/去电的告警(如上图),如果交换机打印端口Up/Down日志同时还有PoE去/供电的告警,可以确认是因为交换机对PD去电从而出现端口Up/Down现象。
注意,PoE供/去电告警要在Trapbuffer里进行查询。
2. 了解现场其他同型号的PoE交换机是否存在相同的现象。如果确认只是单台或少数节点存在此现象的话,那么大概率是单台故障/环境问题的范畴;否则倾向与认为是设备兼容性方面的问题。(兼容性问题不在本文阐述的范畴内,可联系H3C技术支持工程师了解问题排查方法)
根据上述两项操作,一般情况下会有以下三种确认结果:
(1). AP的工作指示灯以及PoE交换机端口PoE指示灯均是常亮状态,并且交换机的没有端口停止PoE供电的告警。如果确认现场是此情形的话,说明现场交换机PoE供电没问题,恭喜你可以松一口气了!那么重点是弄清楚为什么会出现端口Up/Down及不通现象:
☞端口协商/链路不稳定而出现的单纯的端口up/ down现象。
因为链路工作不稳定而出现频繁的LinkUp/LinkDown,并导致AP/摄像头无法正常通信。
此情况下端口Up/Down的次数非常频繁,端口Up与Down之间的间隔时间较短,甚至是闪断闪连。若是此现象建议对布线、设备接地等环境因素进行排查。
☞AP自身实现问题。
因为AP自身缺陷或者与AC/管理平台交互出现问题,譬如AP相关进程挂死,导致与远端管理平台交互失败后重启/进入节能、低功耗模式而出现端口Up/Down现象。
该情况的外在表现为:端口Up/Down的次数相对较少,每次Up/Down可能有规律/周期可言,并且Up与Down的间隔时间较长而且固定。
(2). 交换机的端口PoE指示灯常亮,也没有打印相关去/供电的日志,但AP的工作指示灯状态变化显示AP有重启。如果是此现象,可能是AP在不断电的情况下自行重启,也属于AP自身问题的范畴。
(3). PD的工作指示灯或者PoE交换机端口PoE指示灯有亮/灭,同时交换机侧有PoE停止供电的日志。说明交换机PoE供电有问题,此情况可联系H3C的技术支持工程师,了解相关命令来查看交换机记录的AP掉电原因,并以此进行定位。
当然,有客户运维贴心小棉袄之称的你,是不仅仅满足于洗脱PoE交换机“故障”嫌疑的,该如何帮助客户解决实实在在的问题了?
如果确认只是链路不稳定出现的单纯的端口Up/Down, 需要对以下几方面进行排查:
1. 排除网线故障的可能,用一根已确认可正常使用的网线(建议使用其他没有Up/Down现象端口的网线)在原接口重新连接该AP,如果Up/Down现象消失则说明原网线故障。
2. 强制端口速率,确认是否为端口协商不稳定导致。将原端口速率强制为10M再观察是否还存在up/down情况。若现象消失则可能是交换机与AP之间距离过远,导致协商不稳定导致。
3. 保证PoE交换机正确接地,防止漏电流通过网线串扰到设备造成网口工作不正常。另外,PoE供电时进行信号检测和分级都是以低电压方式进行,PoE交换机正确接地可有效防止环境中的静电干扰。
可联系H3C技术工程师对接地情况进行确认,或对设备接地工作进行指导。
从个人汇总的数据来看,大部分PoE“问题”都可归咎于工程安装不当或者网线品质过于低劣等环境因素导致的,而在施工时网线往往是最受忽视的环节。建议客户使用标准的以太网线,避免出现各种古怪问题。
如果怀疑是AP自身问题可从以下两方面确认。然后将收集的信息以及设备的配置、诊断信息反馈给对应厂家的技术支持工程师进行处理。
1. 在AC上通过相关命令查看AP掉线原因,一般AC上都会记录有AP下线原因。
2. 登陆AP查看设备的运行时间,如果设备运行时间过短,明显不符合预期的话则说明AP肯定有重启过,使用相关命令查看设备重启原因。
此类问题也是很常见,典型现象如:某某科技公司反馈一台S2626-PWR设备的9~11端口无法给AP供电,直接将故障端口下的网线和AP移到其他端口可以正常供电。
此现象出现上述情况时时,可按如下思路排查:
1. 设备是整机全部端口,还是只有部分端口无法给该PD供电;
☞ 如果只是设备部分端口无法给该PD供电,换到其他端口正常的话,那么极大可能是交换机端口故障。因为设备所有PoE端口都是通过PoE供电模块来集中供电的,其他端口可以给该PD供电说明交换机供电模块以及PD都是正常的,那么设备端口损坏的可能性很大;
损坏的端口对所有PD设备都无法供电,不存在随机供上电的情况,而且断电重启现象依旧。如果现场以上现象都能匹配,可直接联系H3C技术支持工程师进行处理。
☞如果设备所有端口都无法给该PD供电,那么存在三种可能原因:
①交换机故障
②PD故障
③交换机与PD存在兼容性问题
注意,不要通过查看端口能否Linkup的方式来判断端口是否故障,上文中提到的“端口故障”指的是供电模块的端口故障,此时交换机端口还是可以正常协商并Linkup的。
2. 确认其他同型号交换机能否给该PD供电;
☞如果同型号设备能够给该PD供电,则能确定为问题原因为①,请安排客户替换交换机设备;
☞否则原因①被排除,剩余②、③两种可能;
3. 该交换机能否给其他同型号的PD正常供电;
☞如果设备能够给同型号PD供电,则能确定为原因②;请安排客户替换PD设备后重新测试;
☞否则基本能确定为原因③;若确定为兼容性问题,请联系H3C技术支持工程师进行支持;
以上两个典型问题只是现网中各种千奇百怪的PoE供电“故障”中的沧海一粟,实际处理问题时往往有或多或少的不同。希望大家看完此篇文章后,能运用上面介绍的一些逻辑关系来梳理问题现象,并灵活运用对比/替换法找出故障所在。
(0)
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论