当时正好是公司ERP上线没多久,业务正在推行,系统极不稳定,每天的并发程序有一半是跑错的,系统还会动不动CRASH。我看完一本书后,在刚刚成为One Book Man时,问题单就来了,有一个重要的××引入程序有时候跑得出来,有时候跑不出来。说实话,那时候对ERP、ORALCE、操作系统一切几乎还是一头雾水,而问题却已经传过来了,只好硬着头皮,摸索了好半天,终于明白了有一批数据在倒的时候,系统准出错。几万条数据,一条条试是不可能的,我就想出了用二分法,一批一批的试,完全手工动作,笨拙、费时、费力,做了几十遍,花了整整一天中午饭都错过了,终于定位到了其中一条数据,而后发现是数据超长而数据库定义的长度不够并且校验程序有BUG没校验出来。经过又返回去重复验证,证明找到的原因是正确的。当时真是心中大喜,几乎在完全不懂系统、不懂这个程序是做什么的、不懂程序处理的逻辑、不懂数据库的设计的情况下,把这个BUG定位出来并交回给ORACLE处理了。这是我上班后解决的第一个问题,至今我对这个问题本身还并不明白,呵呵。这让我懂得了一个道理,工作和读书不是一回事,工作是要解决问题的,是要产生结果和输出的。不管怎么样,能找到方法解决问题、能够有好的输出结果那就是成功。读书才追求的是慢慢读,读懂为止。
那时的系统,真是岌岌而可危,公司的业务高速发展,业务也不断推行,系统的负荷越来越高,但系统却不是经常宕机,就是跑得如老牛般慢。我们的技术水平和管理水平,也是与现在不可同日而语。水平不行体力补,大家兢兢业业背负责任,闯过种种难关,终于还是挺过来了。现在想想,还真是有点后怕的,稍有不慎真有可能全线崩溃。我也能理解有些大企业,为什么倒起来那么快了。现代的组织,经常是高度复杂的组织,就象生物一样,低等的蚯蚓断成两段,照样生存。而高等的人,身上戳个小小的洞可能得毙命。高度复杂的组织,就象人体一样,内部小小一块地方如果出关键问题了,组织可能崩溃。要保证不崩溃只有两条路:1)组织本身的设计和流程的设计高度科学、冗余和足够的制度性反应机制,这是西方国家的强项,他们的公司历一百年不倒,是有强大的内在因素的。2)依靠组织内每一个最小单元的高度的负责、警觉。虽然我们多年来一直在强调第一种能力的培养,但我们天生缺少这样的土壤和基因,因此第二种能力变得十分重要,虽然这不是最好的办法。
头两年的工作中,我们水平很低,体力劳动很多,有一段时间,我一上班就得高度紧张地盯着系统,不停地干预,系统才能跑下去。一会儿系统进程死了,一会儿空闲进程多了要杀掉,一会儿表空间不够了要扩展,一会儿用户提交了不合理的并发程序要中止...有一段时间,我成了热线兼现场支持,一天接50-80个电话,接了电话到处跑。之后我们做了很多改进工作,升级了系统硬件、写了自动脚本,成立了专门的热线等等,这期间我慢慢懂得了一个道理,一个大的复杂系统要成功的管理好,没有绝招,依靠的只是一点一滴持续不断的改进和努力。
有一度由于压力过大,也使我精神高度紧张,到了比较神经质的地步,有一段时间,一听到CALL机响,甚至是电视广告里的“摩托罗拉寻呼机,随时随地传信息”中的BP声,我的心跳就不由自主加速,喉咙发干。有一次去香港出差,从出发开始就一直惴惴不安,生怕系统出问题,结果刚到香港住进酒店,一个电话就来了,说系统崩溃了。我立即打国际长途叫赵×赶紧去处理,过了几分钟,赵回电话绝望地说,他以最快速度赶到一号楼,进了电梯刚走到一半,喀嗒停电了,电梯卡在中间半个多小时,祸不单行,当时那种感觉真是“农夫内心如汤煮”啊。最后过度紧张使得我想逃避,导致我提出了辞职。所幸那时候的领导袁总和郭总,开导我多次,我逐渐有所缓解,然后慢慢开始理解了什么叫大将风度。做我们这一行,要如履薄冰、但也要有点临危不惧的精神。工作紧张,但心情要避免无谓的紧张。后来我们的ERP系统、IT数据中心,又出现过多次危险情况,淹过水、着过火,而我们最终都能够化险为夷。
工作并不只有艰苦和繁琐,有时候,乐趣也不期而至。当时我们的数据库总是出ORA-1555错误,严重影响系统的运行,我多天努力、百思而不得其解。现在的管理员可能会想,这不是一个小问题吗,但那时网络还没现在这么发达,什么东西一GOOGLE都出来了,我找了大量的资料,苦苦思索,最后终于灵光一现,象拼藏宝地图一样拼出了逻辑严密的解释和解决方案,我记得当时是深夜,内心偷着乐的感觉妙不可言,不需要别人知道、不需要别人理解,走出公司大门,仰望星空,深深吸一口气,内心偷着乐。还有另一次,当我们经过30多个小时的连续作战,解决种种问题,终于顺利升级成功ERP系统后,那种感觉也象打了胜仗的将军,充满胜利的喜悦。记得当时正是刚谈女朋友,给她写了第一封也是唯一一封情书,成为太太后,她有一次跟我说,你那玩意儿叫啥呀,那能叫情书吗?通篇都在讲你如何如何工作的,象工作汇报一样,简直可以跟鲁迅写给许广平的“情书”相媲美,尽是革命理想,没有点花前月下.....还有一次,我们的EMAIL系统突然出了故障,大量的来信收不到。那时是华为开拓海外市场的初期,海外还根本没有什么公司网络,所有的一切都是靠EMAIL和国际长途,天象塌下来一般,我们跟主管国际市场的徐直军汇报、最后向老板汇报请示是否应该报公安,因为当时的故障现象很象DDOS攻击。系统停了整整七天,我们请了各路专家,日夜攻关,试了N个方案,大家象大禹治水一样过家门而不入。最后还真找到了一个木马“冰河”的攻击,但却发现不是根本原因,故障依旧。最后一天晚上,我与阿韦坐在科技园一号楼冰冷的网络机房,看着系统一封一封的邮件,连接了,又中断了,一筹莫展,濒临崩溃。我抱着死马当活马医的心态,又祭出了我的“二分法”体力活,测试了一封空邮件,能成功;测试了一封大邮件,失败;取其中间值,又失败;再取中间值,成功;再取前两次的中间值,成功.....一直到深夜,试了N次,终于总结出了规律!再一验证,只要在某个大小的地方,比它大的统统收不到。重要发现!然后改用PING包,发现在一千四百多字节的地方,再大就PING不通了,现象可重复。再去想理论,如果按协议理解,这也不可能啊,即使MTU调小了,大包超过MTU也应该自动分片啊?除非是MTU在某个地方调小了,而协议又有异常。发现这个规律后,阿韦立刻跟电信联系,果然是一周前电信调整了路由器MTU并且CISCO的路由器有BUG引起。问题就此解决,当时吸了口气,那种舒坦啊!...没经受过类似极限考验的人可能不容易理解那种快乐!这种快乐是工作本身带来的,不需要别人来表扬,甚至不需要别人知道。能够有机会也能用心去体会这种快乐的人,怎么会不热爱工作?