新科技讯 为提升全面风险意识,持续提升业务及技术架构的风险应对能力,从2016年开始,支付宝探索并建立了“红蓝对抗”机制,通过全栈级别的大型技术攻防演练,增强团队应急处理能力和系统防护水平。
支付宝技术蓝军正在布置“突袭”计划
“技术风险是所有蚂蚁技术人需要具备的最关键的能力”, 蚂蚁金服副CTO胡喜介绍,随着今年12月技术期末考周结束,支付宝技术团队正将风险从一个不确定的事变为确定性的事。
支付宝低调神秘部门SRE浮出水面
“红军重点防守,蓝军重点进攻,实现以演练促防御,以演练增强风险意识的长期目标”,蚂蚁金服技术风险部资深总监陈亮介绍,蓝军从属SRE部门,红军包括SRE及各业务部门技术团队。
SRE全拼为Site Reliability Engineer,是软件工程师和系统管理员的结合。据悉,目前全球只有少数几家顶级互联网公司拥有真正意义上的SRE团队,蚂蚁金服是其中之一。
支付宝这支技术蓝军的主要职能是寻找系统“软肋”,并随时攻击。陈亮介绍,除了每年12月第三个星期为年度技术“期末考试”周,日常中每周技术蓝军都会组织突袭攻击“测验”,通过实战中发掘出来的脆弱点牵引红军进行能力升级。
支付宝风险防控能力全面开放
除了每周“突袭”,每年还有期中考试和期末考试各一场。这样三年实践下来,支付宝的“红蓝对抗”演练已经沉淀为一整套成熟的风险防控体系,通过仿真环境模拟天灾人祸,以此考验技术架构的健壮性及技术人员的应急能力,从而全面地提升系统稳定,实现系统的高可靠性和高可用性。
“技术风险主要表现为天灾和人祸。天灾指的是,当出现台风、断网、火情等极端异常情况的时候,系统如何快速应对“。陈亮介绍,这有点类似于今年杭州云栖ATEC大会上,蚂蚁金服副CTO胡喜现场演练的异常断网情况下,“三地五中心”自动切换,保证支付服务不中断。人祸则是指因技术人员操作失误引发故障后,系统如何快速应。
据悉,这些技术风险相关的能力也通过蚂蚁金融科技官网(tech.antfin.com)正式对外开放。目前,包括容灾应急平台、全链路压测、资金安全监控、变更管控、巡检平台以及黑屏运维管控等产品。