0%

数据仓库-数据质量

本文主要包括:

  • 数据质量基本概念
  • 影响因素
  • 评估维度
  • 实施流程

数据质量基本概念

  • 数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高
  • 数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益

影响因素

数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。

评估维度

  • 完整性
    数据完整性问题包含数据条目不完整,数据属性不完整等
  • 一致性
    多源数据的数据模型不一致,如命名不一致,数据编码不一致,含义不一致,生命周期不一致等
  • 准确性
    准确性也叫可靠性,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策
  • 唯一性
    用于识别和度量重复数据,冗余数据,重复数据是导致业务无法协同,流程无法追溯的重要因素,也是数据治理需要解 决的最基本的数据问题
  • 关联性
    数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
  • 真实性
    数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂
  • 及时性
    数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
  • 逻辑检查
    不同表字段之间可能会有逻辑关联,需要稽核
  • 离群值检查
    部分数据可能会偏离其他数据,比如同一个商品金额大家都是100元,而有一条数据是1W
  • 自定义规则
    由需求方自定义相关规则
  • 波动稽核
    与上周环比稽核波动情况
  • 强弱规则
    每个规则的权重应该是不一样的,需要配置优先级,这对后续的告警方式是有帮助的