网站建设夬金手指花总,wordpress 前台登录插件,建设工程知识类网站,深圳企业招聘误删50节点K8s集群为何3小时才能复原#xff1f;Spotify揭自家事故幕后经验线上音乐串流服务Spotify一位基础架构工程师David Xia#xff0c;在今年欧洲KubeCon大会上分享了自家Kubernetes集群一次意外事件。拥有上亿用户的Spotify#xff0c;旗下开发者高达1千人#xff0… 误删50节点K8s集群为何3小时才能复原Spotify揭自家事故幕后经验线上音乐串流服务Spotify一位基础架构工程师David Xia在今年欧洲KubeCon大会上分享了自家Kubernetes集群一次意外事件。拥有上亿用户的Spotify旗下开发者高达1千人经常要在上万台VM上部署程序码。Spotify主要使用了GCP云端服务在云端容器服务GKE上拥有3套生产集群分别负责欧洲、亚洲和美国每小时会自动备份一次。2018年11月时有一次工程师为了测试GKE的新功能新增了一个测试用的集群完成测试后工程师要删除这个测试集群来节省资源却不小心删除了负责美国区用户的一个50节点的集群。David眼看着删除指令关闭了一个又一个节点问遍同事如何紧急停止这个删除指令「完全没办法阻止只能重建集群。」他坦言后来Spotify足足花了3.25小时才重建了这个集群。为何这么久重建过程中他才发现集群建立Scrips有臭虫参考文件的内容不完整也不尽正确导致他们设计的集群建立程序无法反覆使用。一个月Spotify试图将防止误删集群的做法列入自家的开发管理规范中并采用了基础架构管理工具Terraform来避免集群部署的意外但是这又引发了另一起事故。这次是要将两个现成集群合并成一个新的集群时建立新集群时因为权限不够而失败工程师后来扩充了权限后才能执行。儘管合并工作顺利完成后却导致Terraform误判集群需要异动而删除了整个亚洲区集群甚至连美国区集群也一起删除。David表示出错难免但失败也要有因应计画。后来Spotify采取了3个因应对策第一是执行K8s服务合并时分批进行。第二是改变在K8s上登录服务的作法第三是建立K8s实例出错时可以快速由非K8s实例接手的备援机制。SRE注意要小心Kubernetes常见十大类问题监控工具服务商Datadog两位工程师Laurent Bernaille和Robert Boll在今年欧洲KubeCon分享了自家经验中管理Kubernetes常遇到的十种问题。Datadog投入Kubernetes项目超过2年多自家服务也大力拥抱最大规模的一个K8s集群高达2千个节点平均K8s集群节点数也多有10001500之多。第一类问题是DNS管理问题而且最常造成K8s事故的问题也多半是DNS问题。第二类常见问题则是任务启动失败而导致映像档抓取失效。第三是kubectl命令列工具操作出错。再者应用程序Pod排程没有考虑到新节点Log档10倍速度暴增塞满储存空间、大量副本和重製导致Pod失踪、Cassandra集群内有鬼未预期的操作、部署程序越来越慢、容器化过程出包、关超慢的Pod关闭过程Termination。他们提醒要避免出错得特别留意4件事使用管理Pod的DaemonSet要小心认清DNS管理向来很难云端基础架构不见得很透明最后则是容器不一定真的顺利容器化了。Google正式推出云端排程工作服务GKE也能自动派工Google正式推出其云端託管的排程工作Cron Job服务Cloud Scheduler使用者可以用Cloud Scheduler来触发任何批次、大资料或是云端基础设施操作而且这个功能不只可以在GCP上使用还能从用户本地端或是第三方资料中心来触发目标工作。包括GCP容器服务GKE、Compute Engine、Cloud Run以及Cloud Functions等多项GCP服务甚至可以是在本机端应用程序都可以透过Cloud Scheduler来自动派工。Pulumi开源基础架构即程序码框架Crosswalk能简化AWS各类部署工作基础架构即程序码供应商Pulumi开源了一个可用于部署AWS工作负载的框架Pulumi Crosswalk for AWS提供基础架构即程序码元件并内建AWS最佳实践帮助用户根据需求将应用程序部署到AWS上。可支援多种AWS服务包括无伺服器服务Lambda和API Gateway还有容器服务ECS以及Fargate以及像是热门的Kubernetes服务EKS、跨网路的VPC和SecurityGroups而监控服务Cloudwatch Dashboards与Alarms等都有支援。由于Crosswalk的模块建构在AWS的塬生功能模组之上用户可以自由地使用高阶元件或是使用低阶平台塬语也能根据需求混合使用。强化Azure DevOps程序码提交机制微软释出Multi-Cherry-Pick扩充套件为了让Azure DevOps开发者可以更简单地同时对多分支的应用提交微软释出了PR Multi-Cherry-Pick扩充套件该套件是使用git Cherry-Pick指令能够自动应用程序码变更到多个分支上。扩充套件Multi-Cherry-Pick的名称来自git指令Cherry-Pick这是用来接受一个或多个现有的提交Commit并将每个提交的更改当作新的提交应用到不同的分支上的操作。IBM花2年改用K8s重新打造自家云端平台部署上万内部应用的现代化IT新架构首度公开2年前IBM展开了旗下云端平台产品的大整顿不光只是重整品牌还找来了20年前开发出IBM第一代SOA和Web产品的IBM Watson和云端平台首席架构师Andrew Hately大力采用Docker、Kubernetes、Linux和Cloud Foundry设计出全新的现代化IT架构。3年前IBM开始研究跨云管理架构决定大力投入Kubernetes开源项目2年前IBM悄悄地展开了自家内部平台的架构改造任务甚至不惜重构自家云端平台要将大部分的IBM软体和云端平台都搬上Kubernetes。IBM先从资料库平台开始着手改造例如将天气预测应用改部署到IBM云上的Kubernetes环境中后来更进一步扩大到所有的分析和AI产品都转而部署到Kubernetes环境上。Andrew Hately表示去年终于完成了这个庞大的平台重构计画除了用来管理基础架构上运算、储存和网路的控制台程序以及基础架构的虚拟机器VM不是采用KubernetesIBM其余的云端服务甚至内部所用的上万支应用程序几乎全都搬上了Kubernetes。—完—