移动网站 图片优化,开发商和物业的关系,dw可以做网站吗,人是用什么做的视频网站关键应用服务中断引发一系列连锁反应#xff0c;起因仅是一块磁盘被写满#xff1f;为什么这么巧#xff0c;两个小概率的问题偏偏一起发生#xff0c;造成保护失效#xff1f;为什么我们做了测试演练#xff0c;然而真正发生问题依然踩坑#xff1f;”2018杭州云栖大会…关键应用服务中断引发一系列连锁反应起因仅是一块磁盘被写满为什么这么巧两个小概率的问题偏偏一起发生造成保护失效为什么我们做了测试演练然而真正发生问题依然踩坑”2018杭州云栖大会主论坛演示现场阿里云专有云事业部兼企业应用事业部总经理马劲一连发出让技术人员感同身受的三连问。
百种异常现场随机注入破坏系统 继去年跑了分、断了电在9月19日下午的杭州云栖大会技术主论坛现场专有云现场演示稳定性升级版在现场搭建的专有云“企业号”数据中心系统上随机注入异常搞破坏。该数据中心由8大品牌服务器搭建模拟了客户真实的复杂生产环境同时现场直播应用便搭载在该数据中心的系统上在注入异常后将直观的通过观察直播是否卡顿来判断专有云系统是否真的稳定。 现场马劲让助手向观众席中扔出两只猴子玩偶抢到的观众可以在现场呈现的1-100个异常中随机选取一个异常注入两位观众分别选择了19号和66号分别代表的是“ECS云产品网络传输包乱序比例陡增”模拟ECS网络不稳定网络急速恶化传输包乱序陡增的场景以及“SLB云产品网络传输时延陡增”模拟SLB所在网络不稳定传输出现严重恶化时延陡增的场景。在分别注入这两个异常场景后直播视频仍然保持顺畅毫无卡顿。这是因为专有云系统日常就是在通过注入这类异常收集反馈进行调整从而不断打磨系统构建出“专有云免疫系统”。
似乎是现场观众随机挑选的异常“破坏力”不足马劲一狠心演示了极端环境下的超级异常——核心ECS集群局部网络异常且另一台ECS计算资源饱和。“这模拟了业务高峰期服务器已经超高负载时的网络故障这类情况极易引发系统雪崩一旦雪崩恢复时间很长。”马劲解释道。演示现场阿里云负载均衡的快速隔离及弹性伸缩服务智能资源分配及时发挥了作用现场应用却快速恢复正常观众席响起热烈的掌声。 打磨产品稳定性阿里云没有好办法只有“笨办法”
阿里云专有云承载着众多企业的关键业务深知肩责任之重也深知稳定性对客户业务意味着什么因此打磨稳定性是专有云不渝的追求。然而过去大部分系统都搭建在DIY系统上不具备全系统演练的条件而今天在阿里云这个“云计算机”上可以在准生产环境下进行全方位立体化的演练。
混沌工程是专有云针对理论科学搭建系统同时利用实践科学不断打磨系统的最佳组合。阿里云异常库中拥有高达12600种的异常场景一年365天都在全方位立体化的不断注入打磨系统以提前帮助客户排除系统中80%的故障。当别人还困扰于硬件层级的异常发生该如何处理时阿里云专有云已经在用更深层级的组合异常打磨系统。这一切的投入和执着锤炼稳定性都只为持续给客户提供更稳定更可靠的产品。
现实往往不按照故事的剧本走阿里云没有“好办法”只有笨办法那就是引入‘混沌工程’理念在仿真的生产环境中做千倍高频的异常注入对不符合预期的系统反馈不断优化从而持续打磨稳定性助力客户业务稳定性提升。
原文链接 本文为云栖社区原创内容未经允许不得转载。