html5期末大作业个人网站制作,企业网络营销案例,近期的新新闻,网站建设书籍下载本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》#xff1a;python零基础入门学习 《python运维脚本》#xff1a; python运维脚本实践 《shell》#xff1a;shell学习 《terraform》持续更新中#xff1a;terraform_Aws学习零基础入门到最佳实战 《k8… 本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》python零基础入门学习 《python运维脚本》 python运维脚本实践 《shell》shell学习 《terraform》持续更新中terraform_Aws学习零基础入门到最佳实战 《k8》暂未更新 《docker学习》暂未更新 《ceph学习》ceph日常问题解决分享 《日志收集》ELK各种中间件 《运维日常》运维日常 《linux》运维面试100问 【监控zabbix】zabbix监控误报-参数优化
背景
agent容易出现数据上传失败导致server误报机器挂了。 解决思路
1.检查server机器的性能有没有出现负载过高的情况
2.检查server的日志是否出现不合理的信息
3.进行server的参数优化 过程
前面两种都进行排查没有太好的信息可以进行调整
所以只能进行第三种解决思路对server的优化参数进行调研
StartPollers50
StartIPMIPollers5
StartPollersUnreachable15
StartTrappers20
StartPingers10
StartHTTPPollers10
StartSNMPTrapper0
CacheSize8192M
TrendCacheSize1024M
StartDBSyncers40
Timeout15
CacheUpdateFrequency60StartPollers同时运行的轮询进程数量用于处理监控数据的收集和处理。
StartIPMIPollers同时运行的 IPMI 轮询进程数量用于处理 IPMI 监控数据的收集和处理。
StartPollersUnreachable同时运行的不可达主机轮询进程数量用于处理不可达主机的监控数据。
StartTrappers同时运行的数据接收进程数量用于接收来自 Zabbix Agent 或其他外部程序的数据。
StartPingers同时运行的 ICMP Pinger 进程数量用于执行主机的连通性检查。
StartHTTPPollers同时运行的 HTTP Poller 进程数量用于执行 HTTP 监控项的数据收集。
StartSNMPTrapper同时运行的 SNMP Trapper 进程数量用于接收来自 SNMP 设备的数据。
CacheSizeZabbix Server 的缓存大小用于存储监控数据和历史数据。
TrendCacheSizeZabbix Server 的趋势缓存大小用于存储趋势数据。
StartDBSyncers同时运行的数据库同步进程数量用于将缓存中的数据写入数据库。
TimeoutZabbix Server 等待 Agent 响应的超时时间。
CacheUpdateFrequency缓存更新频率用于控制缓存中的数据更新频率。
这里可以看到有些参数还是可以优化的根据自身的server和agent之间进行配合不让误报轻易产生。
Timeout参数优化尽可能都调大一些以及一致相差不多。
StartPollers参数优化根据自身机器的性能开多点进行可以提高处理速度。
StartPollersUnreachable参数优化这个尽量大一些不要过小除非你是具有proxy可以按照proxy的个数进行调整否则尽量大一些避免idc自身网络不好导致过多也会出现误报。
还有一点就是进程数调太多的时候需要去把数据库的连接数限制给去除了。
其他的参数就不一一介绍了可以结合自己的机器性能进行调整。