做网站帮京东卖东西怎么合作,手机网站如何制作,网站后台图片模板,企业建站系统还有没有前景可言如果一个技术团队不干别的#xff0c;专门“搞破坏”#xff0c;这是一种怎样的存在#xff1f;这真的不是“天方夜谭”#xff0c;在支付宝确实有这么一支队伍——技术蓝军。蓝军的任务就是不断地攻击和进攻#xff0c;而防守方则是技术红军。在支付宝#xff0c;蓝军从…如果一个技术团队不干别的专门“搞破坏”这是一种怎样的存在这真的不是“天方夜谭”在支付宝确实有这么一支队伍——技术蓝军。蓝军的任务就是不断地攻击和进攻而防守方则是技术红军。在支付宝蓝军从属于蚂蚁金服技术风险部SRE而红军则包括SRE及各业务部门的技术团队。
说到SRE就需要科普一下了。SRE全拼为Site Reliability Engineer是软件工程师和系统管理员的结合是一种要求极高的技术工种。据说目前全球只有少数几家顶级互联网公司拥有真正意义上的SRE团队蚂蚁金服是其中之一。
由蓝军主导的技术攻防演练就是那个传说中的“疯起来连自己都打”的项目今天就来起底一下这个神秘的项目。
从“青铜”到强者
红蓝军技术攻防演练与蚂蚁金服技术风险部的发展息息相关而蚂蚁技术风险的演进轨迹和游戏中的不断打怪升级非常相像。
早期是质量运维架构师三角协同各司其职并自发性的开展一些技术风险相关的工作。2013年蚂蚁金服技术团队提出了质量2.0战略以统一的规章、统一的流程和统一的阵型开始体系化地沉淀故障检测等方面的平台化能力。
大概一年后也就是2014年专门成立了技术质量部从全域视角解决技术风险的问题。
2015年技术质量部正式升级成为技术风险部专注研发及架构的技术风险问题并完成相应解决方案和落地的平台。
2016年技术风险部再次升级为SRE团队。
SRE团队组建后就开始全面开展故障自动定位、自适应容灾、防抖、精细化高可用等工作。其中防抖这块要保证任何的网络或基础设施抖动用户都无感知而精细化高可用又叫单笔高可用其颗粒度可以精准到用户的每一笔交易远远优于行业内的机房级高可用。
同时那个热衷“找茬”的组织——技术蓝军也正式成立。这个专门的、拥有独立职能的团队不干别的主要职责是挖掘系统的弱点并发起“真实”的攻击红蓝军技术攻防演练也自此诞生。
牛X的是技术蓝军并不对各业务方负责只对应用架构及防御系统的稳定性和可靠性负责。在蓝军眼中故障的发生是必然的只是时间早晚而已。蓝军只有想尽办法去触发这些故障这样在故障真实发生的时候才有足够的应付能力。
所以蓝军发掘各类脆弱点并通过红蓝军技术攻防演练不断验证防御系统的可靠性。而故障防御系统及不断优化的高可用架构则是由SRE团队的红军与各业务深度合作沉淀、构建出来的。 技术蓝军正在进行作战部署
现在全栈级别的技术攻防演练每周都在进行蓝军似乎对“疯起来连自己都打”很上瘾。
利矛与坚盾不断升级
持续不断的攻防演练让蓝军和红军的技术能力得到了极大地提升同时双方“武器库”也在不断升级。
2017年秋天蓝军团队在成立后的两个月内自主研发了字节码级别的故障注入系统Awatch这个武器的厉害之处在于可以实时地对运行中的业务系统进行任意链路的编织侵入。这对于对于技术蓝军以及整个红蓝攻防体系具有里程碑式的意义。
蓝军研发出了厉害的武器红军也没闲着。
与此同时技术红军的防控体系建设也在如火如荼地进行着实时核对平台横空而出。该平台能够做到稳定的分钟级核对异常发现能力在某些场景下可以做到秒级发现并且平台提供了业务快速接入的能力红军还在实时核对平台的基础之上升级演化出一套智能核对平台(内部代号四道防线)引入AI技术自动识别业务问题目前这套防线已经覆盖蚂蚁80%以上的业务。另外各个业务域针对自身业务的一些特殊性也研发了相应的核对系统。
尽管蓝军制造故障的能力有很大的提高但大部分的故障场景主要是各个业务方提供的只有极少数是蓝军人工梳理业务或者分析代码产出。此时蓝军团队认为日常演练常态化在故障场景发现方面不能再依赖业务必须建立自主发现故障场景的能力。 用“可乐山”明志是程序员常见的套路
2018年3月蓝军推出故障场景挖掘平台基于Awatch探针探测应用内数据流以此进行“弱点挖掘”。这套弱点挖掘体系能够自动发现故障场景最高能够在5分钟内产生500的故障场景红蓝攻防的日常演练的最为重要一块拼图终于完成
然而新的问题来了。
蓝军的故障挖掘平台能力毋庸置疑但有攻击就需要应急高频攻防实施亦会给红军带来大量的人力消耗。持续应急压力驱动红军开展““故障自愈”架构体系升级及能力建设以效能为目标结合仿真红蓝军一起研发了“无损”攻防体系并且推出与之匹配的度量平台自动度量攻防结果数据可视化。
目前常态红蓝技术对抗保持每周200个故障场景的节奏在持续运作。
常态化的红蓝 “互怼”
在线、实时、随地、无差别……这是支付宝技术蓝军实施攻击行为的几大标签。
2017年年底的红蓝技术攻防周技术蓝军发起攻击但由于故障组件一处隐藏bug导致故障命中数量远远大于预期给红军增添了不少麻烦业务线的技术同学投入大量的人力和资源进行善后。此情此景之下红军方面不仅没有抱怨反而给予蓝军鼓励“这次预期外的故障攻击是最真实的应急锻炼”
2018年年中的一次红蓝技术攻防中蓝军在周末发起突袭而刚好红军的相关同学正在举办婚礼。于是一群程序员赶紧拿出吃饭的家伙噼里啪啦敲着键盘进行应急那画面简直不要太美了。
还是在2018年的一次对抗中红军祭出了“尖端武器”——自适应防灾、防抖等这让蓝军吃尽苦头几乎每次攻击都无功而返。挫败感飙升的蓝军最终放出大招让红军接受了非常猛烈的炮火洗礼。
有意思的是似乎蓝军攻击得越欢红军的同学越高兴……虽然看上去很受虐但却没毛病因为蓝军攻击得越狠越深入被挖掘和发现出来的技术风险就会越确定防御系统的能力也会因此而得到提升。 除了设计缜密的防御措施防止袭击程序员拜关公求庇佑也是“习俗”
令人震惊的是为了防止蓝军的“袭击”红军除了在防御系统方面下十足的功夫每年期中和期末的红蓝技术攻防演练红军都要举办一个仪式——那就是拜关公除了叩拜还得给驱邪镇恶的关公献礼礼品包括旺仔牛奶、格子衬衫、键盘、香烟等。
风险防控技术全面开放
蚂蚁金服技术风险部门经过不断地升级并将红蓝技术攻防演练形成常态化。除了每周进行全栈级别的演练每年还会举行规模极大的“期中考试”和“期末考试”。这意味着支付宝的风险防控体系持续地经受打磨与锤炼。
目前支付宝的“红蓝对抗”演练已经沉淀出一整套成熟的风险防控体系通过仿真环境模拟天灾人祸去考验技术架构的健壮性及技术人员的应急能力从而全面地提升系统稳定实现系统的高可靠性和高可用性。
所谓的天灾和人祸。天灾指的是当出现台风、断网、火情等极端异常情况的时候系统如何快速应对。这有点类似于今年杭州云栖ATEC大会上蚂蚁金服副CTO胡喜现场演练的异常断网情况下“三地五中心”自动切换保证支付服务不中断。人祸则是指因技术人员操作失误引发故障后系统如何快速应。
在蚂蚁金融科技官网上可以看到这些技术风险相关的能力已经对外开放目前共有3款产品包括容灾应急平台、全链路压测和资金安全监控另外还有3款产品变更管控、巡检平台和黑屏运维管控即将上线对外开放。 原文链接 本文为云栖社区原创内容未经允许不得转载。