长沙做公司网站,东莞最近有什么新闻,房地产市场形势分析,网站封装https://space.bilibili.com/405479587 文章内容来源b站up主#xff0c;语兴呀
数据治理内容 一.模型#xff1a; 由于早期业务快速扩张#xff0c;对元数据把控不到位#xff0c;导致成熟期出现大量不合规模型 解决#xff1a;数据标准#xff1a;元数据补充 建设管控语兴呀
数据治理内容 一.模型 由于早期业务快速扩张对元数据把控不到位导致成熟期出现大量不合规模型 解决数据标准元数据补充 建设管控大的需求进行模型评审 定期扫描不规范的模型分层引用、模型跨ods层依赖空表、未更新表等 烟囱模型及时下线烟囱表及时切换/下线提升核心数据模型复用率
二、资源 存储 业务发展中存在大量无用待下线的数据表及生命周期设定过长的数据表未做整治梳理出长期未被使用/引用模型及生命周期不符合当前标准模型未分区空表文件数文件格式等通过数据血缘模型或平台捞出 方案设置合理的表周期长期未引用、使用表下线压缩、存储格式优化ods使用zlib压缩、dwd 使用parquetsnappy dm准备由parquetsnappy 转为parquetzstd定期扫描空表表格式、未设置生命周期、未设置分区切换数据格式计算梳理出数据倾斜消耗大运行时间过长空跑等任务通过meta模型或平台捞出1.根据梳理的存储下线相对应的计算任务2.运行时长过长、资源消耗大任务找原因3.针对任务调度时间规划不合理导致凌晨时间段资源消耗较高任务提前/延后任务调度时间做到资源合理分配利用4、对于数据价值较低/烟囱开发/无效监控项任务需要及时下线或将字段迁移至核心表5、规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行6、小文件治理 spark3、定期扫描、合并如何评价一个数仓的好坏 从技术方面数据仓库应该具有成本、质量、效率要求安全方向方面的能力从业务方面数据仓库应该支撑业务建设覆盖尽可能多的业务场景需要数据时能够及时取到能满足业务数据化需求
1.数据质量评估方法准确性、及时性、一致性、流程完整性流程事前预防监控。事后复盘完善dqc规则和告警
2.模型建设评估方法规范度、元数据完善度、复用度、稳定性、扩展性、合理性
3.数据安全评估方法角色权限是否划分、权限管控、数据表是否分级、对外数据是否脱敏
4.成本、性能评估方法无用表、任务是否及时下线、表生命周期是否合理、数据倾斜任务数、运行时长过长任务数、空跑任务、小文件过多数据表、成本管理
5.用户用数体验
6.数据资产覆盖