1. 问题描述
某大型集团召开全集团安全大会,全部分子公司参加,在会议期间视频会议系统出现异常中断,大屏黑屏,所有分子公司全部掉线,造成会议中断十余分钟。影响非常严重,本次视频故障升级为网络事故级别。集团领导非常重视本次问题,要求信息中心在一天内找到故障根源。
网络管理人员在问题发生后,第一时间联系视频厂家工程师、网络工程师,组织进行排查工作:
l 详细排查网络状态,没有发现任何告警信息及异常情况;
l 进行长时间模拟测试,未能总结问题规律;
l 更换三台正常使用的MCU设备;依旧不定时出现视频中断现象;
l 由于故障不定式出现,排查难度大,未能在一天内找到问题原因。
2. 问题分析
故障发生后第二天上午联系科来厂家进行技术支持,工程师在三台MCU上联的3560交换机上部署科来网络回溯分析系统,采集3560交换机上联6509交换机链路和下联3条MCU的链路。
科来网络回溯分析系统能够长期保存原始通讯数据,可以对瞬时、不定时发生的疑难故障进行深入到数据包级的分析,我们定位到问题发生时段,进行如下分析:
在3560交换机上联接口进行抓包分析,发现快速问题发生时段出现的流量异常,如下图;
问题时段3560交换机上联链路趋势及参数
在3560交换机上联链路追踪问题的数据,发现问题时段只有视频终端向MCU发送的数据包,没有收到MCU任何的回应数据包。
同时,我们在3560交换机下联接口进行对比分析,同样发现了流量异常现象,如下图;
问题时段3560交换机下联链路趋势及参数
对比分析3560交换机下联链路相关数据,发现问题时段只有MCU向视频终端发送的数据包,没有收到视频终端任何的回应数据包。
3. 分析结论
通过上述分析不难看出,在故障发生时,MCU能够向3560交换机发送数据包,但收不到3560交换机的回应数据包;6509交换机能向3560交换机正常发送数据包,但收不到3560交换机的回应数据包。
可判断出问题发生时3560交换机出现只接受数据包,不发送数据包的情况,造成短时间内不能正常转发数据。怀疑3560交换机出现不转发数据造成本次视频闪断问题。
4. 科来价值
通过科来回溯分析系统对故障进行分析,半小时内定位问题根源为3560交换机出现不转发问题,网络工程师于中午休息时段更换全部相关交换机接口光模块,视频系统再没有出现故障。
科来网络回溯分析系统能够对视频流量进行实时抓取、长期保存、精细分析,捕获完整故障数据,帮助用户快速处理网络及应用的疑难故障,解决了网络、视频管理人员的燃眉之急,获得了领导的认可。