建设网站的服务费是指什么,湖南建设监理协会网站,潍坊网站定制模板建站,颜色搭配的网站目录
1、什么是数据治理
2、数据治理的目的
3、数据治理的方法
4、数据质量8个衡量标准
5、数据治理流程 1、什么是数据治理
数据治理#xff08;Data Governance#xff09;是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行#xff0c;关于如何制…目录
1、什么是数据治理
2、数据治理的目的
3、数据治理的方法
4、数据质量8个衡量标准
5、数据治理流程 1、什么是数据治理
数据治理Data Governance是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
数据的质量直接影响着数据的价值并且直接影响着数据分析的结果以及我们以此做出的决策的质量。我们常说用数据说话用数据支撑决策管理但低质量的数据、甚至存在错误的数据必然会说假话 数据治理即提高数据的质量发挥数据资产价值。
2、数据治理的目的 降低风险建立数据使用内部规则实施合规要求改善内部和外部沟通增加数据价值方便数据管理降低成本通过风险管理和优化来帮助确保公司的持续生存
3、数据治理的方法
从技术实施角度看数据治理包含“理”“采”“存”“管”“用”这五个步骤即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单包含组织机构、业务事项、信息系统以及以数据库、网页、文件和 API 接口形式存在的数据项资源本步骤的输出物为分门别类的数据资源清单。
数据采集清洗通过可视化的 ETL 工具例如阿里的 DataXPentaho Data Integration将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程目的是将散落和零乱的数据集中存储起来。
基础库主题库建设一般情况下可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据或称主数据例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上基于易存储、易管理、易使用的原则抽像数据存储结构说白了就是基于一定的原则设计数据库表结构然后再根据数据资源清单设计数据采集清洗流程将整洁干净的数据存储到数据库或数据仓库中。
元数据管理元数据管理是对基础库和主题库中的数据项属性的管理同时将数据项的业务含义与数据项进行了关联便于业务人员也能够理解数据库中的数据字段含义并且元数据是后面提到的自动化数据共享、数据交换和商业智能BI的基础。需要注意的是元数据管理一般是对基础库和主题库中即核心数据资产的数据项属性的管理而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪数据被业务场景使用时发现数据错误数据治理团队需要快速定位数据来源修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系且业务团队使用的数据项由元数据组合配置而来这样就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录数据资源目录一般应用于数据共享的场景例如政府部门之间的数据共享数据资源目录是基于业务场景和行业规范而创建同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理数据价值的成功发掘必须依托于高质量的数据唯有准确、完整、一致的数据才有使用价值。因此需要从多维度来分析数据的质量例如偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是优秀的数据质量模型的设计必须依赖于对业务的深刻理解在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响例如 HadoopMapReduceHBase 等。
商业智能BI数据治理的目的是使用对于一个大型的数据仓库来说数据使用的场景和需求是多变的那么可以使用 BI 类的产品快速获取需要的数据并分析形成报表比较知名的产品有 Microsoft Power BIQlikViewTableau帆软等。
数据共享交换数据共享包括组织内部和组织之间的数据共享共享方式也分为库表、文件和 API 接口三种共享方式库表共享比较直接粗暴文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式在这种方式下能够让中心数据仓库保留数据所有权把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
4、数据质量8个衡量标准 数据的准确性
数据采集值或者观测值和真实值之间的接近程度也叫做误差值误差越大准确度越低。 数据的精确性
指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度。 数据的真实性 数据的及时性
数据能否在需要的时候得到保证比如月初的财务对账能不能在月初就完成 数据的即时性
指数据采集时间节点和数据传输的时间节点一个数据在数据源头采集后立即存储并立即加工呈现就是即时数据而经过一段时间之后再传输到信息系统中则数据即时性就稍差。 数据的完整性
是应采集和实际采集到数据之间的比例。 数据的全面性
完整性衡量的是应采集和实际采集的差异。而全面性指的是数据采集点的遗漏情况。 数据的关联性
指各个数据集之间的关联关系。比如员工工资数据和员工绩效考核数据是通过员工这个资源关联在一起来的。
5、数据治理流程 基本流程发现数据质量问题 定义数据质量规则 质量控制 质量评估 质量优化 参考文献数据治理国际通行标准ISO38505
小编有话数据治理的课题实在太大小编准备找几个点入手细写如前期的规范设计元数据管理等详见数仓系列 https://blog.csdn.net/weixin_39032019/category_8871528.html