吕梁推广型网站开发,广告设计公司有什么岗位,开发公司空置房拨款合同,会员卡充值管理系统云栖号案例库#xff1a;【点击查看更多上云案例】 不知道怎么上云#xff1f;看云栖号案例库#xff0c;了解不同行业不同发展阶段的上云方案#xff0c;助力你上云决策#xff01; 案例背景
2019杭州云栖大会大数据企业级服务专场#xff0c;由斗鱼大数据高级专家张龙… 云栖号案例库【点击查看更多上云案例】 不知道怎么上云看云栖号案例库了解不同行业不同发展阶段的上云方案助力你上云决策 案例背景
2019杭州云栖大会大数据企业级服务专场由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxComputeHadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。
斗鱼大数据架构发展历程 在2014年中期斗鱼就开始使用大数据最开始使用的是简单的HBase和Hadoop。在2015年开始使用CDH运维大数据集群主要针对可视化运维。在2017年的下半年斗鱼开始接触阿里云大数据的一些产品并且与其他产品做了对比。最终选择了阿里云的MaxCompute。
Apache Hadoop阶段
由于业务场景比较简单组件较少并且使用的人也少但可以灵活的操作同时集群规模较小运维要求低可以自由的利用开源培养了许多人才。但在发展过程中也遇到了一些阻碍例如组件增多运维成本高业务增长快集群扩容操作繁琐人员增加数据安全要求高物理机操作环境安全难保障。
Cloudera CDH阶段
斗鱼为何选择Cloudera CDH原因主要有首先它能满足业务发展需要多组件运维成本低集群扩容操作简单数据安全及环境安全有保障。其次CDH在国内被广泛使用。最主要的一点是斗鱼的团队内部有CDH人才。
Cloudera CDH给斗鱼带来了许多便利包括支持丰富的组件不用考虑兼容性可以通过CM统一管理进行Web化管理同时支持中文。另外支持安全管理以及对Kerberos安全认证。
自建集群遇到了发展瓶颈涉及到资源效率问题和资源成本问题。资源效率问题包括资源预算审批慢、机器采购周期长以及机房部署效率低。资源成本问题包括机器资源成本高、机房成本高还不稳定以及闲时资源空置较多。 大数据上云的挑战
上云面临的挑战主要是如何保证数据安全因为数据是企业核心的资源安全性是非常关键的。其次是如何保持数据同步是因为云上云下存在着海量数据。最后因为云下存在大量的历史业务那该如何将业务安全迁移到云上也是一个问题。
如何保证数据安全
对于数据丢失的问题阿里使用原始数据进行备份这是很关键的。对于核心数据泄露问题几率是很小的因为泄露数据之后所要承担的风险远大于打败竞争对手所提供的收益。对于云环境面向外网如何保证安全访问的问题可以增加账号访问IP白名单及审计设置公司内部才可访问。
如何保持数据同步
由于每天会产生PB级历史数据和TB级数据增量。如何快速准确同步数据问题可以使用数据同步工具主要是基于DataX的改造。同时提高网络专线能力增加多根专线自动地进行异常切换与云上平台业务进行隔离。利用数据校验工具校验数据同步任务以及数据量。
如何安全迁移业务
业务的安全迁移需要做到三个要求1.不能引起故障保证迁移可行性验证。2.迁移成本不能太高业务侧尽量少改动。3.能上云也要能下云尽量保证云上云下操作一致性。 为了做到不引起故障要做到三个需要需要做业务场景测试保证业务场景全部覆盖到并且能够识别能够迁移的业务场景。需要数据质量检验确保相同业务云上云下产出数据的一致性。需要数据效率验证确保云上任务数据产出时间同时不影响业务。
如何保证较低的迁移成本
斗鱼在IDC中运行的任务主要分两部分第一部分是Java任务占比很小特点是基于封装的HiveClient工具进行查询计算。第二部分是XML配置化任务特点是基于自定义XML文件支持HiveSQL统计后导入其他存储。针对这些任务的特点斗鱼也做了相应的改造。针对封装OdpsClient可以将HiveClient改成OdpsClient并且改Hive URL为云环境。针对加模板改URL可以引入MaxCompute参数模型改Hive URL为云环境。
为了保证能上云也能下云第一需要数据能上能下就是前面提到的数据同步中心。 第二需要完善的配套工具云上云下环境尽量透明化使用。第三多使用通用功能通过SQLUDF能覆盖大部分场景。
混合云模式带来的变化 混合云模式带来的变化主要针对资源效率低难以跟上业务发展以及资源成本高企业财务压力大两方面。在资源效率方面从自建集群到MaxCompute有一些变化包括提前半年或一年提预算变成按量付费采购耗时1到3个月变成资源可以无限使用机房上架1周以上变为无机房概念。相比于IDC自建集群MaxCompute每年大概节约1000w成本保障集群零故障。同时也有一些附加的收益包括阿里云的专业服务当遇到技术问题时可以请教阿里的专家来帮助解决以及计算资源可以量化可以知道钱花在哪些业务了以及与阿里专家交流帮助解决业务难题。 在自建机房时斗鱼也做了一些开发下图所示为数据开发包括基于Hue的查询计算和云上的DataStudio数据开发然后将Hue的API和DataStudio的API集中起来形成斗鱼的大数据开放平台作用是可以提供给数据部门的人使用也可以提供给业务部门的分析人员使用。 此外斗鱼也做了一些实践称为多活数据中心如下图所示。斗鱼通过确立自建机房的数据和阿里云数据在这两个数据中心的角色保证可以在多活数据中心的状态下支撑更多的业务。 混合云带来的变化总结起来资源成本和资源效率是最大的两个变化还有可量化的成本、增值服务、额外的专业服务等不仅可以给我们自己部门人员用还可以给其他业务部门的人来用并且他们对使用成本也是直接可见的。 云栖号案例库【点击查看更多上云案例】 不知道怎么上云看云栖号案例库了解不同行业不同发展阶段的上云方案助力你上云决策 原文链接 本文为云栖社区原创内容未经允许不得转载。