网站开发语言为wap,wordpress 不显示中文图片,专用车网站建设多少钱,好大学网站设计案例与解决方案汇总页#xff1a;阿里云实时计算产品案例解决方案汇总 1. 概述
异常检测#xff08;anomaly detection#xff09;指的是对不符合预期模式或数据集#xff08;英语#xff1a;dataset#xff09;中其他项目的项目、事件或观测值的识别。实际应用包括… 案例与解决方案汇总页阿里云实时计算产品案例解决方案汇总 1. 概述
异常检测anomaly detection指的是对不符合预期模式或数据集英语dataset中其他项目的项目、事件或观测值的识别。实际应用包括入侵检测、欺诈检测、故障检测、系统健康监测、传感器网络事件检测和生态系统干扰检测等。
之前我曾经介绍过一种异常检测的解决方案《准实时异常检测系统》但那个架构中Flink主要承担的还是检测后的分析真正的异常检测被前置到了业务系统中。
在本文中我将介绍一种直接使用Flink做实时异常检测的方案。
2. 异常检测算法
2.1 异常的种类
异常离群点分为三种类型
全局离群点最基本的异常即一个单独的远离群体的点情境或条件离群点该点在全局不算异常但在某个上下文中却是异常的比如人的性别为男性不是异常但如果选定范围为女厕所那么这个就是异常的集体离群点单个点不算异常但一系列组合起来却是异常。比如偶尔的服务延迟不是异常但如果整个系统大部分服务都延迟那就是异常。
本文以说明基本原理为主所以使用最简单的全局离群点做例子即只关注检测某个单独的事件是否偏离正常。
完成的异常分类可参考这里
2.2 异常监测算法
关于异常检测有大量的算法详细理论可参考scikit-learn的《 Novelty and Outlier Detection》一章。
本文选取最简单的一种算法基于高斯分布分布的异常检测算法。
假设我们已经有了一组正常数据x(1),x(2),..,x(m)那么针对新的数据x我们判断这个x是否正常可以计算x在正常数据中出现的概率如何如果x出现的概率大于某个阈值则为正常否则即为异常这种方法叫做密度估计。 那么我们可以假设这些数据遵循高斯分布正态分布那么对某个特定的值来说其在高斯分布的中间部分是比较正常的在两端可能是异常的。 通常如果我们认为变量 x 符合高斯分布 x~N(μ,σ2)则其概率密度函数为 异常检测算法的步骤为
对于给定的数据集 x(1),x(2),...,x(m)针对每一个特征计算 μ 和 σ2 的估计值计算方法如下。一旦我们获得了每个特征的平均值和方差的估计值给定新的一个训练实例根据模型计算每一特征的概率再相乘得到整体的概率注可能你要检测的事件只有一个特征那么很显然就不用再乘了。
选择一个阈值 ε将 p(x)ε 作为判定边界当 p(x)ε 时预测数据为正常数据否则为异常这样就完成了整个异常检测过程。注阈值ε的选择可以直接估算一个也可以简单训练得出具体训练方式这里不再赘述可参考这里。
总结一下其实整个模型我们只需要计算正常数据中每个特征的平均值和方差再加上最终整体阈值所以模型是非常小的完全可以把这些数据计算出来后随代码一起发布。当然从解耦性来说最好能够独立存储通过注册或配置的方式来发布
3. 基于Flink和高斯分布的实时异常检测系统
前面介绍了异常检测的基本算法那么本小节我们就基于Flink和高斯分布设计一个实时异常检测系统。
假设你是一个公司的运维人员负责管理全公司的IT资源为了保证公司IT稳定性提前发现主机或者系统的问题你设计了这样一个实时异常检测系统。
系统采用Kapp架构关于Kappa架构的说明可参考数据仓库介绍与实时数仓案例。
系统架构与所选软件如下图所示 数据源包括两个部分主机运行信息与系统的运行日志主机运行信息通过collectd 收集系统运行日志通过Filebeat收集二者均将数据推送到Kafka。
数据通过Kafka流转支持Flink计算过程中的实时分层。
最终数据存储到Elastic Search中并通过KIBANA可视化。
异常检测由实时计算Flink完成计算过程很简单 数据清洗把原始数据格式化计算特征值计算所选事件的特征比如某个服务打印日志的频率就是一个特征假如系统调用失败则会打印一条失败记录那么当系统打印失败记录的频率变高时系统可能出现了问题计算特征统计值即找到该特征的高斯分布确定平均值和方差即可确定高斯分布这里高斯分布直接在线计算好处是随时可更新没有显式的训练过程缺点是可能受异常数据影响。另外一种方式是离线选取一些正常数据然后计算高斯分布。 检测异常值利用2.2节中的算法原理检测异常事件输出最后把检测出的异常数据写到下游
好了一个简单的实时异常检测系统就完成了。
4. 总结
在本文中在Kappa架构上添加简单的异常检测算法即可完成一个简单有效的实时异常检测系统。
该架构具备良好的可扩展性基于Flink的Kappa架构让系统能够应对超大规模数据流并且能够在数据流转的过程中完成处理。
此外虽然本文中直接把异常检测算法内置到了Flink的逻辑中但实际的应用中很容易把通过算法API的方式让系统解耦算法团队训练并提供一个用以判别某个事件或特征是否异常的算法服务在Flink的处理过程中计算好特征值之后调用这个算法服务进行检测。 原文链接 本文为云栖社区原创内容未经允许不得转载。