故障突发
2016年的5月某日下午
“喂,什么?!西藏国税局金税三期IT系统出现故障,整个业务停滞无法运行,怀疑是我们的CAS (服务器虚拟化)产品有问题?!”
一个电话,让新华三集团服务部门的小陈额头冒汗,气氛骤然紧张起来。
“金税三期省网优化项目是今年4月份才上线的,上线时我们针对CAS系统做了很多测试和优化,不可能出现这样的问题啊。”小陈回忆着系统上线、测试的整个过程,因为它承载着整个西藏纳税服务平台、外部信息交换平台,集成服务平台等各类业务,一旦发生故障,将导致整个西藏税务\税收事项受阻,因此小陈在实施时格外的小心谨慎。“不想了,拿好工具先到用户现场看看再说。”
优先保障
在紧急赶往用户现场的路上,小陈第一时间和新华三集团总部支持团队取得了联系,并初步沟通了应急解决和保障方案。
到达现场,小陈仔细地询问并查看故障现象,结合准备的应急方案,首先保障业务恢复正常不受影响,优先将故障业务迁移到其他主机上运行,保障业务通畅。
随后,小陈拿出准备好的工具对CAS系统进行了全面的巡检和排查。“通过定位,我判断应该不是我们产品的问题,原因可能涉及到整个系统的其他硬件,需要相关人员一起定位。”小陈如是说。
为保障业务正常运行,小陈暂时先将故障业务迁移至其他主机,同时持续进行故障跟踪并定期前来巡检保障。但是这也不是长久之计,故障随时可能发生。
完美解决
倒计时2天
时间在等待和保障中,慢慢走过……
“金税三期的故障必须尽快解决”正在和同事讨论之际,小陈的电话突然响起,是西藏国税局客户!“喂,是小陈吗?对于这次故障,国税总局的一致要求,各相关厂商都要派遣专家一起解决这些问题,你们也要协调专家过来配合我们工作。”
“肯定没问题……”放下电话,小陈第一时间向新华三总部反馈情况,总部领导非常重视,并积极响应,迅速成立了包括市场、售后、研发在内的服务专家小组,并协调研发专家放下手里的其余工作,连夜启程,从杭州紧急赶赴拉萨处理故障。
倒计时1天
研发小韩匆匆赶上从萧山飞往拉萨的飞机,在飞机上,小韩回忆起了昨天发生的一些事情:“有个紧急的事情需要你出差处理下,涉及到西藏国税业务系统的正常运行。手头的工作你先放放,先办这件事,明天你就出发去拉萨。”“好,保证完成任务”小韩说道。
上飞机前,小韩还与小陈通了几个电话,详细询问了目前遇到的问题以及采用的解决办法,一路上,一边分析了可能出现的情况,一边为故障处理做着准备…
倒计时0天
经过十几个小时的奔波,第二天一早,拖着朦胧的睡眼,小韩抵达了拉萨贡嘎机场。
恶心、胸闷、头晕……等一系列高原反应随之侵袭而来,小韩看起来一副摇摇欲坠的模样。前来接机的小陈看在眼里,心里着实为他捏了一把汗,赶忙吩咐司机道:“师傅,我们先到酒店休息一下,下午再去客户那里”。听到小陈这样说,小韩说道:“不用去酒店,我没事,时间紧迫,咱们直接去用户那里,我在车上休息一会儿就好,不用担心”。
小陈的敬意油然而生,一边感叹着研发人员高度负责、不畏艰难的精神,一边吩咐司机以最快的速度直奔用户处。经过两个小时的车程,到达用户处时,用户也很吃惊并表示“没想到你们这么快就赶到了,但是现在其他厂商人员还未到达,是否等待其他人一同抵达后再进行分析?”“我们可以先分析自己的产品情况,等其他人达到了再做联动分析。”小韩道。
问题解决
小韩努力克服着自身的高原反应,打起精神与用户展开了沟通。经过详细了解,小韩建议采用自查法,先从自身产品角度测试,检查自身的产品是否存在问题。经过2个多小时的认真排查发现,新华三CAS虚拟化产品在实现机制上没有任何问题,小韩表示,具体故障原因还需要等待其他厂商人员到达后一同联动排查。这和之前小陈的判断如出一辙。
第二天一早,其他厂商派遣的工程师陆续抵达拉萨。经过简单的商量后,小韩与他们在系统层面的配置配合方向进行分析排查,发现在配置配合方面的确存在一些问题。在排除自身产品问题的情况下,小韩积极了解询问其他厂商配置,协助他们共同制定相应的解决方案。
根据方案进行相应调整后,当天系统测试结果显示正常。但是第二天再度测试时,发现业务再次出现中断的故障。面对这样的情况,小韩顾不得吃饭,赶紧协助其他厂商核实检查。
经过多方力量排查,确定由其他厂商硬件系统故障引起。小韩协助用户完成硬件更换后,系统恢复正常。经过8天的反复测试与排查,其他厂商的硬件问题得到有效处理,西藏国税局业务稳定运行。
此时,拉萨已经渐入暮色,这个古老而神圣的城市在月光下散发着浮光掠影,小韩和工程师们脸上露出欣慰的笑容。
“温暖感、专业化”是新华三带给客户的关怀,这六个字背后承载的是所有工程师不忘初心的承诺与责任。这种传承的力量和精神伴随着华三人的每一个脚步,走的更加坚定和自若。