互联网行业是大数据的正儿八经的“大客户”,无论是从海量、速度、实时、类型等任何角度都当之无愧。在成为用户最多的中国互联网公司后,腾讯这只专下“金蛋”的企鹅所掌握的用户数据量也日益丰富。
如果说阿里巴巴拥有90%以上的电商数据,百度拥有70%以上的搜索数据,腾讯的“金蛋”无疑是大量社交、游戏等领域积累的文本、音频、视频和关系类数据。这些数据是腾讯后来在多元业务扩展时屡试不爽的重型武器,有分析人士说,“数据挖掘”才是腾讯最具门槛性质的技术。
无论是云,通过网络随需调用的计算资源;大数据,关联的可分析在线数据;还是各种智能终端,都要依托互联网,同时这些工具又帮助互联网从中掘金。当然,在数据成为“金蛋”前还有个前提,就是获取数据,并有效的梳理与标签。
腾讯公司数据平台助理总经理蒋杰曾骄傲地表示,在国内互联网体系中,腾讯拥有的数据覆盖多个领域,总存储数据量经压缩处理以后在100PB左右。腾讯QQ目前拥有8亿用户,4亿移动用户,在数据仓库存储的数据量单机群数量已达到4400台,总存储数据量经压缩处理以后在100PB左右,并且这一数据还在以日新增200TB到300TB,月增加10%的数据量不断增长,现在腾讯的数据平台部们正在为1000个PB做准备。
如果对各种TP和PB还缺乏感性认识,可以用几个每天都会用到的业务说明腾讯目前数据量的庞大:仅QQ以及微信用户每天上传的照片,就是中国一个中型互联网公司一个月的数据量;2014年除夕夜的高峰时段,每分钟有1000万条微信、3270万条QQ信息发出;微信团队专门为一些高频祝福语设置了隐形的彩蛋功能,比如微信内容中出现“万事如意、大吉大利”,屏幕上就会乒乒乓乓掉落很多桔子……事后统计,除夕当天中国人的手机上共掉落了65亿多个桔子,如果榨成汁,足够灌满289个水立方。
“微模块”之路
要应对不断爆炸的业务数据需求,腾讯的数据中心部门一直处于“连跑带颠”的追赶状态。“业务部门对我们的要求经常以‘周’甚至‘天’为周期。”腾讯网络平台部数据中心架构师李典林表示,正是快速、灵活、可扩展、高能效的要求,让腾讯自然而然地走上了微模块数据中心的道路。
从2010年起,腾讯已经推出了几个版本的微模块数据中心;经过不断测试验证,目前已经形成了定型的版本。目前,腾讯对微模块数据中心的标准定义是,以若干机架为基本单位,包含制冷模块、供配电模块以及网络、布线、监控在内的独立的运行单元。“麻雀虽小,五脏俱全”,这是李典林对腾讯微模块数据中心的形象评价。
腾讯的模块化数据中心设计遵循“从小到大”的原则,即从机架、IT微模块、机房模块、建筑单体和园区逐层设计;而模块化数据中心建设遵循“从大到小”的原则,即从园区、建筑单体、机房模块、IT微模块到机架逐层实施。“如果把服务器看成标准砖头,机柜看成厨房/阳台/洗手间,微模块就是小户型套房。通过微模块,我们可以不断复制堆叠,形成机房楼,乃至整个园区。”
腾讯的微模块数据中心在制冷和供电方式实现了诸多创新。据李典林介绍,腾讯的微模块数据中心不再采用传统的架高地板制冷模式,而是采用了行级空调近距离送风以及冷通道密封技术,这大大减少了制冷的耗能和成本。
在供电方面,李典林表示,腾讯大多数数据中心已经不再采用传统的UPS,而是转而采用“高压直流(50%)+市电(50%)”的供电模式。“采用这种供电方案后,市电没有中间转换损耗,效率高达100%;高压直流侧可采用节能休眠模式,全负载范围内可以达到94%以上高效率。因此,综合供电效率高达97%。此外,未来还可以无缝升级成市电主供+高压直流后备的供电模式,达到99%以上供电效率。”