网站设计网站开发,ps软件是干什么用的,如何更改网站标签logo,烟台高新区建设局网站如果你的产品出现了一个线上问题#xff0c;你会是怎么样的反应#xff1f;
也许会跟下面这张图一样。 哇#xff01;有一个线上bug#xff0c;好慌呀#xff01;#xff01;
咦#xff0c;问题似乎自动解决了#xff1f;渐渐冷静。
不对#xff01;#xff01;你会是怎么样的反应
也许会跟下面这张图一样。 哇有一个线上bug好慌呀
咦问题似乎自动解决了渐渐冷静。
不对这个问题竟然突然自己就好了更慌了
很多测试同学应该有上面这样的心路历程。线上bug不经意间出现却又突然消失无踪这会让我们精神紧张心里各种没底寝食难安。
这时候可能就需要做一些线上监控和告警了。
其实我之前有分享过监控可以分为3个层次。
基础监控。线上机器的内存cpu硬盘网卡等核心指标的监控和告警。服务监控。服务监控程度的监控比如接口的调用成功率相应时间错误码分布等。业务监控。定义核心的业务指标比如电商的核心指标就是订单数对业务指标进行监控和告警一旦业务指标有异常立即告警。
基础监控和服务监控大家都比较好理解。这里稍微具体讲一下业务监控。
以电商的核心业务指标订单为例假设我们通过各种方式计算出在每天下午2点的时候大概一小时会有1万单那么如果哪天下午2点左右订单数掉到5000了那么可能是下单链路上某个环节出问题了就需要立即排查。
另外业务监控也可以用自动化的方式辅助去做这样监控的路径会更长一些排查问题也能迅速一点。
还是以下单为例我们可以在线上用一个特殊用户不停的买一些特殊商品当然了有影子库和特殊策略就更好了如果下单流程失败另外数据又监控到订单数环比确实有异常那么就可以根据自动化用例的报错迅速定位到问题。
最近我们线上出了一次比较严重的事故当然导致事故的核心原因是开发流程没有正确进行不过没有线上监控而放肆裸奔也是求生欲不够强的表现如果一些核心数据可以被监控和告警的话我们可能在上线之后就能迅速定位到问题而不会等到用户投诉再去处理了。
我们在线上监控很多时候都是通过阈值去感知变化的离散程度的合理的阈值会让告警更加精准。不过由于一些突发性的原因这些阈值可能会在短时间被突破但是过完一个时间周期之后自动恢复正常在这种情况下为了减少误报我们可能不仅要报异常情况还要报问题自动恢复的情况。
关于监控工具目前市面上有很多开源免费的监控工具都非常好用比如
prometheus。普罗米修斯github star超30k部署简单功能强大小白入坑无脑选择的最佳推荐open-falcon。小米开源的企业级监控平台国内很多企业都在使用。高可用易扩展可以分布式部署自带dashboard最关键的是有中文文档英文拙计的同学可以试试
现在我也找了很多测试的朋友做了一个分享技术的交流群共享了很多我们收集的技术文档和视频教程。
如果你不想再体验自学时找不到资源没人解答问题坚持几天便放弃的感受
可以加入我们一起交流。而且还有很多在自动化性能安全测试开发等等方面有一定建树的技术大牛
分享他们的经验还会分享很多直播讲座和技术沙龙
可以免费学习划重点开源的
qq群号485187702【暗号csdn11】
最后感谢每一个认真阅读我文章的人看着粉丝一路的上涨和关注礼尚往来总是要有的虽然不是什么很值钱的东西如果你用得到的话可以直接拿走 希望能帮助到你【100%无套路免费领取】