做网站商城需要多少钱,有哪些专业做饰品的网站app,如何做网站访百度联盟,网站建设网页制作教程背景
私有云/公有云/混合云等具有复杂#xff0c;分布式#xff0c;环境多样性等特点#xff0c;许多特殊场景引发的线上问题很难被有效发现。所以需要引入混沌工程#xff0c;建立对系统抵御生产环境中失控条件的能力以及信心#xff0c;提高系统面对未知风险得能力。
…背景
私有云/公有云/混合云等具有复杂分布式环境多样性等特点许多特殊场景引发的线上问题很难被有效发现。所以需要引入混沌工程建立对系统抵御生产环境中失控条件的能力以及信心提高系统面对未知风险得能力。
目标
帮助测试/研发/运维工程师提前发现各种异常场景引发的问题持续进行故障演练暴露系统问题提升产研对质量的信心全场景便捷的故障注入方式使其与研发流程更紧密结合发挥更大价值
什么是混沌工程
混沌工程是一种通过主动制造故障场景并根据系统在各种压力下的行为表现确定优化策略的系统稳定性保障手段。简单来说混沌工程通过主动注入故障的方式提前发现问题并解决问题从而规避风险
混沌工程的核心概念
混沌工程的核心在于通过模拟生产环境中的各种极端情况如硬件故障、网络延迟、资源耗尽等来测试系统的稳定性和可靠性。通过这些实验可以暴露系统中的薄弱环节并采取措施进行优化。
原则
建立一个围绕稳定状态行为的假说
“稳定状态”是指系统正常运行时的状态。具体来说系统的稳定状态可以通过一些指标来定义当系统指标在测试完成后无法快速恢复稳态要求可以认为这个系统是不稳定的。
系统指标CPU 负载、内存使用情况、网络 I/O等业务指标吞吐率错误率p99延迟数据一致性消息触达准确性时效性等 因此需要建立稳定状态行为模型
复杂多变的系统运行环境
只要运行时间足够长都会受到不可预测的事件和条件的影响。
基于这些情况:
需要建立业务系统的故障模型
故障分级
故障等级P0P1P2 故障等级故障发生概率*故障发生影响 在生产环境中运行实验 越接近生产环境对实验结果的信心就越足。
持续自动化运行实验
系统不断变化越来越复杂手动执行难以长久持续。需要通过自动化来降低实验成本并定期执行。
固化典型混沌场景自动化进行结果分析降低创建新实验的门槛
怎么做:
混沌场景梳理自动化工具平台调研
最小化爆炸半径
暴露薄弱环节而不会意外造成更大规模的故障。
范围可控随时停止实验并消除影响
步骤
选择一个假设选择试验的范围明确需要观察的 metric 指标通知相关的团队执行试验分析结果增大试验的范围自动化成熟度
复杂度 接受度 分产品混沌场景
梳理产品维度混沌场景多用于多业务线合作的方式开放自己的组件或基础服务时需要先保障自己服务依赖的其他服务/系统/服务器得一些异常尽可能对自身造成最低的影响以及当依赖服务/资源恢复时自身可以主动进行服务恢复/数据同步/数据校验等
自动化平台方案
chaosblade 自研命令行工具自动化
企业内部演进 常见混沌场景
混沌异常场景来源于两类梳理了常见异常只做举例大家参考
资源类组件服务类
资源类 组件服务类