- 行业动态 >
- 资讯详情
数据质量管理(lǐ)的一些思考
数据质量问题
什么是质量
关于质量是有(yǒu)个一个标准定义的:一组固有(yǒu)特性满足明示的、通常隐含的或必须履行的需求或期望(要求)的程度。这里面包含了两层意思,一个是说质量其实是一组特性,另一个是说质量需要满足需求或期望。所以如果从数据分(fēn)析的角度来说数据质量,就是看当前数据的特性能(néng)否满足我们做数据分(fēn)析或挖掘这个需求。
质量问题的来源
数据问题的来源可(kě)能(néng)产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有(yǒu)可(kě)能(néng)涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理(lǐ)等多(duō)方面的因素都有(yǒu)可(kě)能(néng)会影响到数据质量。
在企业中,随着企业业務(wù)的增長(cháng),数据也是一个增量积累的过程。随着数据类型、数据来源的不断丰富以及数据数量的快速增長(cháng),企业在数据管理(lǐ)工作和数据流程中面临越来越多(duō)的数据质量问题。而且数据质量的管理(lǐ)并没有(yǒu)被企业重视起来,其根本原因还是ROI并没有(yǒu)那么明显。
数据质量管理(lǐ)相对来说成本比较高。因為(wèi)它涉及到企业数据标准的制定、规范的落地、生命周期的管理(lǐ)等多(duō)个环节。从收益上来说,数据质量的效益和结果并不是十分(fēn)明显,大部分(fēn)企业不会把数据质量作為(wèi)KPI。在企业的不同系统中,业務(wù)领域的关键指标不一致,数据无法共享导致出现数据孤岛,大量数据无法关联,并且有(yǒu)明显的数据冗余等问题,还有(yǒu)数据的维护需要投入大量的人员、时间、软硬件成本。所以数据的质量管理(lǐ)往往被会边缘化甚至趋向于无。
数据质量评估
那么我们如何对一份数据进行质量评估呢(ne)?这是一个比较难以回答(dá)的问题。因為(wèi)数据质量本身有(yǒu)这么几个问题。首先是数据质量定义不一致,人们对数据质量的理(lǐ)解并没有(yǒu)一个参考标准或者标准的定义,所以人们理(lǐ)解的数据质量就会呈现出多(duō)样性,而无论是数据评估體(tǐ)系还是数据质量控制體(tǐ)系,都离不开关于数据质量的清晰定义。其次,没有(yǒu)权威性的数据质量标准模型或参考模型。再者,没有(yǒu)系统化的数据质量评估指标,也没有(yǒu)对数据质量评估的指标形成一个量化的标准。所以现在多(duō)数对于数据质量的研究都是针对特定领域或特定问题的研究,并不具有(yǒu)普适性,很(hěn)难推广成為(wèi)标准化的體(tǐ)系或模型。
那我们能(néng)不能(néng)像CMMI(能(néng)力成熟度模型, Capability Maturity Model Integration)和 AMM(敏捷成熟度模型,Agile Maturity Model)一样对数据质量建立一个模型,我们暂且称之為(wèi)DQAM(数据质量评估模型,Data Quality Assessment Model)。
首先思考一下,在进行数据质量评估时我们会选取多(duō)个指标,所以很(hěn)自然会想到借用(yòng)一下模糊综合评价理(lǐ)论。搜集了一下资料,这里选取以下若干个指标来作為(wèi)我们的数据质量评价指标(当然,可(kě)以根据实际需要选取其他(tā)指标,指标的数量也可(kě)多(duō)可(kě)少):
l Completeness:完整性,用(yòng)于度量哪些数据丢失了或者哪些数据不可(kě)用(yòng)
l Conformity:规范性,用(yòng)于度量哪些数据未按统一格式存储
l Consistency:一致性,用(yòng)于度量哪些数据的值在信息含义上是冲突的
l Accuracy:准确性,用(yòng)于度量哪些数据和信息是不正确的,或者数据是超期的
l Uniqueness:唯一性,用(yòng)于度量哪些数据是重复数据或者数据的哪些属性是重复的
l Integration:关联性,用(yòng)于度量哪些关联的数据缺失或者未建立索引
l 那么评估模型应该有(yǒu)这么几个要素:
l Dataset:被评估的数据集,对于关系型数据库来说就是一张表
l Indicators:评估指标,就是上面列出来的6个指标
l Rule:评估规则,与上面的评估指标对应,后续会根据规则的描述来编写脚本。
l Weight:权重,此处的权重是每一条评估规则在全部规则的所占比重
l Expectation:期望,根据每个评估规则给出一个评估前的期望值(0-100)
l Score:结果,每个评估规则应用(yòng)到数据集后计算出来的结果值(0-100)
那么构造整个模型的过程基本就可(kě)以确定下来,首先根据需要选取数据集当中要进行评估的数据视图,再选取所需要的评估指标。下一步需要制定规则集,根据所选的评估指标来制定相应的数据质量评估规则,并确定它们相应的权值和期望值。最后一步就是根据规则集来计算结果得分(fēn)。
对于数据集的N个规则计算出来的得分(fēn),最后计算其加权平均值,得到质量评估的绝对量化值。用(yòng)该量化值和期望进行差值比较,可(kě)以得出该数据集是比预期的好,还是不如预期。
以上是一个简单的评估模型,目前并没有(yǒu)在实际的场景中应用(yòng),当然这个模型的精度并不会很(hěn)高,也没有(yǒu)处理(lǐ)误差。仅仅提供一个思路,或许质量的评估可(kě)以朝着这个方向来进行。
数据质量管理(lǐ)
数据工作流质量管理(lǐ)
下面来谈谈数据质量管理(lǐ)。质量管理(lǐ)前面提到了,涉及到数据工作流的各个环节。数据的工作流可(kě)以分(fēn)為(wèi)以下几部分(fēn):数据产生、加工处理(lǐ)、存储、挖掘和应用(yòng)。质量管理(lǐ)的前提是在每一个环节建立质量标准。数据的来源包括:业務(wù)系统产生的数据、外部系统的数据、手动录入的数据等,从这些源头采集数据,然后经过数据通道进行加工处理(lǐ)(ETL,Extract-Transform-Load),数据进入到数据仓库或数据集市当中。然后业務(wù)人员、数据科(kē)學(xué)家、数据工程师等,会在数据平台对数据进行探索和挖掘,这个过程可(kě)能(néng)发生在数据仓库,也可(kě)能(néng)是在数据沙箱中进行,最后对数据探索分(fēn)析挖掘的产出结果,会以数据应用(yòng)的方式发布出来,具體(tǐ)的形式包括:数据报表、数据门户、OLAP、数据产品、数据服務(wù)、智能(néng)模型等等。
数据质量监督
除了制定质量标准外,还需要对系统中的数据本身和数据工作流进行监督管理(lǐ)。
对数据系统进行实时监控,监测数据工作环境的服務(wù)器软硬件运行状态、性能(néng)、磁盘空间、数据库事務(wù)、锁、缓冲、会话量、备份等等一系列指标,实施预警机制,并监测一些异常情况的发生。
对数据进行定期校验,除了对数据系统进行实施监控外,还需要对数据进行校验:日常校验、数据抽检、全面校验等。
审核制度也是保证质量的一个重要措施,特别是对于敏感数据和敏感操作。建立数据变更时候的分(fēn)级审核制度,尤其是一些影响较大或者权限较高的操作。建立审批制度,对于数据的读取,如果涉及到敏感数据,必要时,也需要数据审批或者是数据脱敏。
数据生命周期管理(lǐ)
数据的生命周期从数据规划开始,中间是一个包括产生、处理(lǐ)、部署、应用(yòng)、监控、存档、销毁这几个步骤并不断循环的过程。随着业務(wù)的发展,系统的业務(wù)数据类型和业務(wù)规范不断变化,一个完备的数据生命周期管理(lǐ)方案还应当包括对系统的优化调整,根据业務(wù)系统实际运行情况、新(xīn)的业務(wù)类型和规范、技术改进等调整原有(yǒu)的数据存储迁移策略和访问方式,以满足业務(wù)系统发展及新(xīn)的业務(wù)规范需求。
数据生命周期管理(lǐ)的目的是对不同阶段的数据采取不同的管理(lǐ)策略用(yòng)来降低数据管理(lǐ)运营成本,并提高数据质量度,实现数据价值最大化的终极目的。
总结
数据质量在任何系统当中都是十分(fēn)重要却容易被忽视的一部分(fēn)。构建完整的数据质量管理(lǐ)體(tǐ)系,既是支持企业系统稳定运行的基本保障,同时也是企业进行数字化转型、创新(xīn)的必备条件。