专业的网站制作正规公司,京东云 wordpress,广东省农业农村厅江毅,wordpress站点如何添加百度分享代码导语#xff1a;在2018年开放数据中心峰会#xff08;Open Data Center Summit 2018#xff09;开幕式上阿里巴巴研究员刘国华发表了《阿里巴巴智能运维体系建设》的主题演讲。演讲中#xff0c;刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值#xff1a;数据驱…导语在2018年开放数据中心峰会Open Data Center Summit 2018开幕式上阿里巴巴研究员刘国华发表了《阿里巴巴智能运维体系建设》的主题演讲。演讲中刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值数据驱动决策、全局优化和变革。基于智能化阿里巴巴重塑了运维体系。通过智能化建设基础设施的交付效率提升了247%需求预测准确率达到了每个月至少85%物理机集群实现了100%全自动化运维。以下是他的演讲内容实录。 大家好很荣幸可以跟大家分享一下阿里巴巴在智能化领域的建设。
在开始智能化运维之前先跟大家分享一下过往两年内阿里巴巴在专业领域- 里做的大量创新
我们已经开始大规模使用液冷集群来支持高密度计算我们在FPGA建设了统一的编译平台可以提升研发效率接近30倍以上网络端我们也开始做大量的创新总的带宽从25G到100G到400G
这些创新支持了现有所有AI业务的发展同时我们也把AI融入到基础设施领域让AI重塑现有的基础设施。
智能化可以给未来的基础设施带来什么
我们把智能化带来的价值分为三层 最底层是数据驱动决策。当我们所有的专业领域业务、所有的数据逐步实现在线化带来的第一层价值是保证演进是围绕着数据展开的。第二层价值是逐步透明化可以帮我们发现基础设施层可以突破的技术点每家公司的业务都是不同的对底层也会有不同的诉求这是最下层数据驱动决策层的价值。
第二层是全局优化。我们把所有的业务在线化、全面数字化之后我们才有机会看到每个专业领域里核心的突破点在什么地方。我们都知道数据中心内部会规划上架密度怎样的上架密度是更合理的方式传统的方式是先对服务器的功耗提出一个评估然后对IDC机架做评估而现在的方式是把优化变成实时动态的方式来提升数据中心的利用率。
最后一层是变革。当我们把智能化的能力运用到平台就有能力把特殊的点转化为极大的优势。以前所有的硬件故障发生的时候所有的数据中心的运维模式都是属于被动式响应。当智能化后使用预测算法就可以提前预估到所有故障将所有故障的响应方式从被动响应转化为主动服务。
阿里巴巴运维体系重塑
智能化建设最关键的三件事情
第一 要把基础设施全面数字化让所有东西都变成可衡量的体系。 第二 建设端到端、从业务到基础设施全链条的自动化平台保证你的决策规划和响应速度。 第三 建立TCO模型实现很好的反馈机制利用反馈不断优化我们的模型。
在智能化领域我们采用的是横跨专业、机器学习以及优化算法的跨界思考逻辑基于这样的思路阿里巴巴重新规划建设了基础设施领域的三大平台——基础设施规划与交付平台、集群自动化运维平台和数据中心智能运营平台。 通过为这三大平台引入智能化我们重新创造出了与原来三大功能平台不一样的业务形态。下面我将具体分享智能化时代里我们对这3大平台的改进与思考。
一、 基础设施规划与交付平台
首先分享一下阿里巴巴的基础设施规划与交付平台。这个平台的主要职责从业务需求规划到基础设施规划再到硬件研发、IDC建设、生产供应链以及OS交付、自动化交付平台。这个平台负责阿里巴巴所有基础设施的规划、建设与交付。最主要的两个职责第一是提升整体交付效率第二是保证在不断供的情况下实现成本最优。
我们在很多领域里引入算法后做了很多大的改造。第一个改造是基于机器学习的方式建立业务规划驱动。这种方式可以让业务具有更强的规划性在平台可以快速把业务的规划转化成基础设施的规划提升整体的基础设施交付链路。通过这种方式我们提升的效率接近247%。
第二个改造是在链路已经全面在线化的时候引入智能预测/预警系统可以实时感知到业务的任何变化并且做出实时决策。通过这种方式来提升运营效率保证全面响应完全是围绕业务的驱动去建设的。
第三个改造我们为所有专业建设了供需模拟沙盘以及上架策略模拟通过这种方式可以在线不断模拟以及优化阿里巴巴内部供应链的策略以及上架策略实时反馈到在线系统持续优化供应链。
我们在做需求预测业务端的数据包括前端的数据比如阿里云的销售数据以及下沉的基础设施的库存体系结合机器学习的方式解决需求预测的模式。目前我们的准确率最少会达到每个月85%左右。我们现在已经推动所有的业务按这种方式运作从而让基础设施的建设具有极强的规划性。
二、集群自动化运维平台
集群自动化运维平台解决的核心问题是
一、 怎样提升服务器规模化后的运维效率问题以及基于业务视角的成本最优的解决方案。 二、 怎么保证业务的稳定性。基础设施下面的任何故障不会影响上面所有业务的发展。
但是当你业务发展规模到一定阶段的时候故障一定是不可避免的我们怎么做
第一阿里巴巴集群运维平台建设了一个全自动化的运维方式这种运维方式最大的优势在于我们跟所有业务调度的方式用了一种高标准的协议交互模式可以把所有物理机的运维跟上层运维相互解耦实现无人化的运维。阿里巴巴现在物理机集群已经100%运用全自动化运维方式这是第一层在工程上的建设结果。
在智能化领域我们还为所有的业务的提供基于业务视角的数据决策支撑的平台。平台最大的价值在于第一基于我们的数据平台可以把我们所有基础设施的成本、利用率融入到业务调度里实现成本最优化第二通过对不同类型业务的专业优化来提升整体业务的成本竞争力。
第二我们引入了一些算法去做智能异常检测包含两部分第一部分是我们在基础设施领域在硬件领域做了大量的故障预测通过故障预测去提前发现故障第二部分是业务变更预测我们会把所有业务的变更通过这个平台进行预测来看它变更后带来的业务的影响。通过这样预测的方式结合刚才介绍的集群运维的主动服务能力可以把集群运维的方式从原来被动的响应式逐步转到现在做的主动服务式的模式。我们在硬盘故障上的预测结果在万分之八的误报率条件下召回率比业界最新进展提升20%以上我们还在做宕机、网络故障预测以内层故障预测会坚持用这种方式逐步把我们运维的模式从原来被动响应转成主动服务。
三、数据中心智能运营平台
最后一个平台是阿里巴巴的数据中心运营平台这个平台的目标是提升数据中心内部运营效率以及实现能耗最优。
怎么解决运维效率的问题通过智能的方式建设一个自主运维平台通过很多算法的决策来尽可能提升自主运维的成功率。目前为止通过这种方式我们可以把阿里巴巴每个人运维的服务器台数提升接近60%。 我们会建设一个全局能耗平台来做全局动态节能体系我们会在每个领域做深度能耗优化把能耗的数字化逐步跟上层业务结合起来提升机柜利用率。对于最核心的业务我们最大可以提升接近20%的机柜密度。
同时我们在做专业领域的弹性机柜电力的创新未来会把利用率提升更高希望未来在数据中心可以把电力利用率和设计利用率相符。这是基于机器学习的算法做PUE的优化目前通过深度学习的方式在现在的机房实测可以优化接近20%的PUE。未来数据中心的优化联动会全自动化实现动态优化PUE。
除了刚才介绍的供应链、服务器、数据中心外我们在应用层、监控、集群运维都会大量投入智能化实现全方位的智能化建设。
我今天分享就到这里谢谢大家
原文链接 本文为云栖社区原创内容未经允许不得转载。