漳平网站编辑价格,查看网站备案信息,广州天河网站建设,企业综合信息服务平台对于运维的日常工作来说#xff0c;服务器监控是必须且最基础的一项内容。在企业基础设施运维过程中#xff0c;管理员必须能够掌握所有服务器的运行状况#xff0c;以便及时发现问题#xff0c;尽可能减少故障的发生。通常我们会借助一些监控的软件来获取每个服务器的基础…对于运维的日常工作来说服务器监控是必须且最基础的一项内容。在企业基础设施运维过程中管理员必须能够掌握所有服务器的运行状况以便及时发现问题尽可能减少故障的发生。通常我们会借助一些监控的软件来获取每个服务器的基础指标并进行集中的查看、分析、监控。市面上开源、收费的服务器监控系统非常多例如老牌的zabbix、nagios、NewRelic、CollectD等近期开始流行的Telegraf、Prometheus。各类系统都有其出彩的点例如Zabbix强大的生态、NewRelic的服务、Prometheus的云原生友好等。服务器监控相对中间件、业务监控更加基础关注点主要集中在监控的易用性、稳定性、实时性、报警丰富度、报表使用便捷度等。本期为大家介绍如何使用阿里云SLS来快速构建一套完整的服务器/主机基础指标实时监控方案。SLS时序存储简介SLS的日志存储引擎在2016年对外发布目前承接阿里内部以及众多企业的日志数据存储每天有数十PB的日志类数据写入。其中有很大一部分属于时序类数据或者用来计算时序指标为了让用户能够一站式完成整个DevOps生命周期的数据接入、清洗、加工、提取、存储、可视化、监控、问题分析等过程我们专门推出了时序存储的功能与日志存储一道为大家解决各类机器数据的存储问题。SLS时序存储从设计之初就是为了解决阿里内部与众多头部企业客户的时序存储需求并借助于阿里内部多年的技术积累使之可以适应绝大部分企业级时序监控/分析诉求。SLS时序存储的特点主要有丰富上下游数据接入上SLS支持众多采集方式包括各类开源Agent以及阿里云内部的监控数据通道同时存储的时序数据支持对接各类的流计算、离线计算引擎数据完全开放高性能SLS存储计算分离架构充分发挥集群能力尤其在大量数据下端对端的速度提升显著免运维SLS的时序存储完全是服务化无需用户自己去运维实例而且所有数据都是3副本高可靠存储不用担心数据的可靠性问题开源友好SLS的时序存储原生支持Prometheus的写入和查询并支持SQL92的分析方法可以原生对接Grafana等可视化方案智能SLS提供了各种AIOps算法例如多周期估算、预测、异常检测、时序分类等各类时序算法可以基于这些算法快速构建适应于公司业务的智能报警、诊断平台。服务器监控方案概述SLS的主机监控方案非常简单只需要安装一个Logtail就可以采集各个主机的基础指标服务端都是云化无需运维默认SLS提供了可视化的仪表盘也可以通过Grafana来进行更加专业的可视化。目前Logtail采集了主机常用的基础指标包括CPU、内存、网络、磁盘等其中对较为关键的指标都做了可视化便于直接查看。数据接入数据接入的流程非常简单只需要在SLS控制台上操作即可完成(对于非阿里云的服务器需要在服务器上额外执行2条命令)具体接入的方法可参见采集主机监控数据。接入过程中最核心的就是给每台主机的Logtail增加一个采集配置Logtail的采集配置可以完全云化管理无需登录每台服务器手动配置。{ inputs: [ { detail: { IntervalMs: 30000 }, type: metric_system_v2 } ]}可视化在运维可视化领域Grafana是当前大家接受度最高的可视化方案SLS为主机监控专门增加了2个Dashboard模板包括一张集群级别的监控大盘和单机的详细指标大盘。这些大盘可以一键导入到Grafana中。Grafana的配置流程如下在Grafana中把SLS的时序库作为Prometheus的数据源设置方式可参考Grafana可视化配置。导入Grafana模板市场中的SLS模板主机监控集群指标、主机监控单机指标。监控数据分析与告警配置作为一个合格的运维人员仅仅配置完炫酷的监控仪表盘还不够还需要对集群设置好足够的告警项并能在需要排查问题的时候利用监控数据分析的语法快速定位问题。这些本质上都是对集群的指标进行一些计算和统计。SLS时序数据支持SQL、PromQL以及SQLPromQL等多种查询方式PromQL查询语言相对更加简洁SQL能够实现的语义更加强大。而主机的监控数据相对比较简单建议使用PromQL或SQLPromQL的方式。下面介绍几个在告警、分析中经常会用到的几个统计方式计算所有机器的某个指标平均值例如平均CPU查找某个指标最高的N台机器比如查找内存占用最高的5台机器查找某个指标超过X的机器比如找到1分钟网络流量超过10M的机器计算某台机器的某个指标相对某个时间点的变化比如计算某台机器磁盘使用率相比1天前的变化这些用PromQL实现起来非常容易可以在Grafana的Explore页面直接调试平均CPU avg(cpu_util)查找内存占用最高的5台机器topk(5, mem_util)找出1分钟网络流量超过10M的机器(sum_over_time(net_in[1m]) sum_over_time(net_out[1m])) (10*1024*1024)计算某台机器磁盘使用率相比1天前的变化disk_util{hostnameiZ2ze06ibdlxtgebgtu4xdZ} - disk_util{hostnameiZ2ze06ibdlxtgebgtu4xdZ} offset 1d而告警也可以直接在Grafana上配置可以在集群监控的Dashboard上直接配置告警例如下面是配置CPU集群平均CPU超限的告警告警规则是每分钟计算最近5分钟内的集群CPU平均利用率如果连续5分钟超过80%则触发告警。总结服务的基础指标监控是我们监控运维领域最基础的工作之一构造公司IT的全方位监控还有很多工作要做例如中间件监控、云产品监控、应用监控、业务监控等而这些利用SLS的日志和时序存储功能都可以很容易的实现其他相关的实现我们会在后续文章中给大家呈现。大家在使用SLS中遇到的任何问题请加钉钉群我们有专门的日志女仆24小时在线答疑还有火锅哥和烧烤哥专业支持~ SLS微信公众号定期会发布各类日志、监控领域的技术分享文章并定期举行抽奖欢迎小伙伴们关注~另外欢迎对大数据、分布式、机器学习等有兴趣的同学加入转岗、内推来者不拒请用简历狠狠的砸我联系邮箱 davidzhang.zcalibaba-inc.com ~