1.1.1数据质量管理架构数据质量问题一直是困扰数据仓库发挥积极作用的重要因素,在数据仓库建设之初就应当从战略角度对数据质量体系进行规划。1.1.1.1 数据质量基础定义1.1.1.1.1 完整性数据的完整性:为实现业务目的而设计组织的数据模型是否完全,是否覆盖各个方面。例如:对一个业务,一个客户,一个产品,一个营销活动,一个客户的性质等进行缺失考察。例如,客户名称有姓无名等,客户档案是否齐全,是否客户所有业务都包含在等。完整性破缺主要发生在实体或对象的属性上和整个数据缺失两种情况。完整性列表:数据完整性,例如属性数据是否残缺,数值类型数据是否有空数据业务完整性,例如是否有些业务没有包含在,是否涵盖所有生产系统和必要的外部数据(例如竞争数据,保监会数据),是否覆盖所有客户(例如是否覆盖全部客户)设计完备性, 设计是否完善模型的完备性数据字典完备性映射关系完备性业务规则是否完备元数据完备性加工层次完整性,加工过程中重要的中间数据是否保存,例如,有月统计数据,考察日数据是否存在?粒度完整性,重要经营指标各个粒度数据应该完善1.1.1.1.2 有效性指数据包含了一个有效的数据格式或值1.1.1.1.3 一致性数据的一致性是一个长期的困难。建立数据仓库的核心目的之一也是争取解决这个问题。一致性定义为各个系统数据的统一,定义为数据仓库系统数据定义的统一。一致性还表现在定义和口径的一致性。数据库一致性,设计上是否有多种存储并存,各类统计口径是否统一冗余和星型模型以与非第三式一致性保证措施和源数据一致性 1.1.1.1.4 唯一性唯一性定义为系统数据定义的唯一性。由于数据仓库技术不一定受第三式约束,可能具有相当的冗余,但数据冗余不能违反定义的唯一性原则。对于哪些既存在于关系数据库又在多维数据库中表现的数据和指标要特别注意,因为极容易由于生成的时间差造成不一致。唯一性至少应当向系统的用户说明最终的数据评判标准,数据的冗余和评判应当是元数据管理的重要容。1.1.1.1.5 正确性数据正确是决策的关键,数据不正确,数据仓库项目就等于失败。但数据的正确性难以通过自身检查。应该对重要数据和重要统计设立正确性检查。主要方法是:数据自身统计检验纵向对比检验数据间按逻辑交叉检验横向对比校验主要检查的容:ETL 过程正确性加工过程正确性数据整合正确性模型正确性展现正确性查询正确性核对过程是否充分1.1.1.1.6 准确性数据的正确性基础上才有意义讨论准确...