企业如何提升数据质量,实现业務(wù)增長(cháng)?

2019/07/29      2132 文(wén)章来源:知乎 原作者:DataHunter

一、数据质量是什么

國(guó)际数据管理(lǐ)协会的《数据管理(lǐ)知识手册》中规定:数据质量(DQ)是“既指与数据有(yǒu)关的特征,也指用(yòng)于衡量或改进数据质量的过程。”

具體(tǐ)可(kě)以从以下几个方面来定义数据质量:

从用(yòng)户层级定义数据质量:即满足特定用(yòng)户预期需要的程度

从数据本身定义数据质量:即从数据质量的指示器和参数指标等方面来衡量

从数据约束关系定义数据质量:即从数据的原子性、数据的关联性及对数据的约束规则来度量数据质量

从数据过程定义数据质量:即从数据能(néng)被正确使用(yòng)、存储、传输等方面定义质量

二、数据质量问题有(yǒu)哪些危害

当前越来越多(duō)的企业认识到了数据的重要性,但数据是一把双刃剑,它能(néng)给企业带来业務(wù)价值的同时也是企业最大的风险来源。据IBM统计:

● 错误或不完整数据导致BICRM系统不能(néng)正常发挥优势甚至失效

● 数据分(fēn)析员每天有(yǒu)30%的时间浪费在了辨别数据是否是“坏数据”上

● 低劣的数据质量严重降低了全球企业的年收入

由此可(kě)见,低质量的数据将直接导致分(fēn)析结果的不准确,从而為(wèi)业務(wù)发展和企业决策带来严重影响。

三、影响数据质量的因素

数据质量问题产生的原因有(yǒu)很(hěn)多(duō)方面,比如在技术、管理(lǐ)、流程方面都会碰到。一般情况下,企业都有(yǒu)多(duō)套的业務(wù)系统,这些业務(wù)在不同时期由不同的团队开发完成。因此,这些业務(wù)系统都参考着不同的标准生产各自数据。滥用(yòng)缩写词、惯用(yòng)语,数据输入错误,重复记录,丢失值,拼写变化,不同计量单位的使用(yòng)等导致系统产生了大量的脏数据。这就是数据质量问题的由来。


影响数据质量的主要因素有(yǒu):

1、管理(lǐ)因素

是指由于人员素质及管理(lǐ)机制方面的原因造成的数据质量问题。表现為(wèi):数据来源渠道多(duō),责任不明确;业務(wù)需求不清晰,数据填报缺失;数据指标不统一等。

2、技术因素

主要是指由于具體(tǐ)数据处理(lǐ)的各技术环节异常造成的数据质量问题。数据质量问题的产生主要来源于数据创建、数据获取、数据传输、数据装载、数据使用(yòng)、数据维护等环节。

3、流程因素

是指由于系统作业流程和人工操作流程设置不当而造成的数据质量问题。其实,流程因素也属于企业管理(lǐ)范畴。

很(hěn)多(duō)企业认识不到数据质量问题的根本原因,只从技术单方面来解决数据问题,没有(yǒu)形成管理(lǐ)机制,导致效果大打折扣。所以,要改进数据质量问题,要从企业管理(lǐ)和技术两方面入手,才能(néng)从根本上,最佳地解决数据质量问题。





四、数据质量标准

数据质量通常具有(yǒu)以下维度:

1、完整性

完整性指的是数据信息是否存在缺失,数据缺失可(kě)能(néng)是整个数据记录缺失,也可(kě)能(néng)是数据中某个字段信息的记录缺失。不完整的数据所能(néng)借鉴的价值就会大大降低,也是数据质量更為(wèi)基础的一项评估标准。

数据质量的完整性比较容易去评估,一般我们可(kě)以通过数据统计中的记录值和值进行评估。例如,网站日志(zhì)日访问量就是一个记录值,平时的日访问量在 1000 左右,突然某一天降到100了,需要检查一下数据是否存在缺失了。再例如,网站统计地域分(fēn)布情况的每一个地區(qū)名就是一个值,我國(guó)包括了32个省和直辖市,如果统计得到的值小(xiǎo)于32,则可(kě)以判断数据有(yǒu)可(kě)能(néng)存在缺失。

2、一致性

一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。

数据质量的一致性主要體(tǐ)现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在特定的格式,例如手机号码一定是13位的数字,IP地址一定 是由 40255间的数字加上”.”组成的。逻辑指的是,多(duō)项数据间存在着固定的逻辑关系,例如PV一定是大于等于UV的,跳出率一定是在01之间的。

一般的数据都有(yǒu)着标准的编码规则,对于数据记录的一致性检验是较為(wèi)简单的,只要符合标准编码规则即可(kě),例如地區(qū)类的标准编码格式為(wèi)“北京”而不是“北京市”,我们只需将相应的值映射到标准的值上就可(kě)以了。


3、准确性

准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。更為(wèi)常见的数据准确性错误就如乱码。其次,异常的大或者小(xiǎo)的数据也是不符合条件的数据。

数据质量的准确性可(kě)能(néng)存在于个别记录,也可(kě)能(néng)存在于整个数据集,例如数量级记录错误。这类错误则可(kě)以使用(yòng)较大值和最小(xiǎo)值的统计量去审核。

一般数据都符合正态分(fēn)布的规律,如果一些占比少的数据存在问题,则可(kě)以通过比较其他(tā)数量少的数据比例,来做出判断。

当然如果统计的数据异常并不显著,但依然存在着错误,这类值的检查是更為(wèi)困难的,需要通过复杂的统计分(fēn)析对比找到蛛丝马迹,这里可(kě)以借助一些数据分(fēn)析工具,那么具體(tǐ)的数据修正方法就不在这里介绍了。

4、及时性

及时性是指数据从产生到可(kě)以查看的时间间隔,也叫数据的延时时長(cháng)。及时性对于数据分(fēn)析本身要求并不高,但如果数据分(fēn)析周期加上数据建立的时间过長(cháng),就可(kě)能(néng)导致分(fēn)析得出的结论失去了借鉴意义。




五、数据质量评估

评估步骤如下:

● 确定需要做数据质量监控的数据指标项,通常会对数据运营和相关管理(lǐ)报告至关重要的数据项。

● 评估需要使用(yòng)的数据质量维度及其权重值。

● 对于每个数据质量维度,定义表示标准质量和质量差数据的值和范围。特别需要注意的是:同一个指标名称,可(kě)能(néng)会有(yǒu)不同的度量规则,因此需要执行许多(duō)不同的数据质量评估。

● 反复查看并确认数据质量是否可(kě)以被接受。

● 在适当数据流转中采取纠正措施,例如:清理(lǐ)数据并改进数据处理(lǐ)流程,以防止问题再次发生。

● 定期重复上述步骤,以监控数据质量趋势。



六、提高数据质量的方法

1、明确业務(wù)需求并从需求开始控制数据质量

要想真正解决数据质量问题,应该从需求开始,企业往往在定义清楚业務(wù)需求后忽略对数据质量的控制,而只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能(néng)从根本上解决问题。

企业需要将数据质量的控制从需求开始集成到分(fēn)析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。

2、建立数据质量管理(lǐ)机制

从业務(wù)出发做问题定义,由工具自动、及时发现问题,明确问题责任人,通过邮件、短信等方式进行通知,保证问题及时通知到责任人。跟踪问题整改进度,保证数据质量问题全过程的管理(lǐ)。



1)探查数据内容、结构和异常

通过探查,可(kě)以识别数据的优势和弱势,帮助企业确定业務(wù)实施计划。一个关键目标就是明确指出数据错误和问题,例如将会给业務(wù)流程带来威胁的不一致和冗余。

2)建立数据质量度量并明确目标

企业需建立一个共同的平台并完善度量标准,用(yòng)户可(kě)以在数据质量记分(fēn)卡中跟踪度量标准的达标情况,并通过電(diàn)子邮件发送URL来与相关人员随时进行共享。

3)设计和实施数据质量业務(wù)规则

明确企业的数据质量规则,即可(kě)重复使用(yòng)的业務(wù)逻辑,管理(lǐ)如何清洗数据和解析用(yòng)于支持目标应用(yòng)字段和数据。业務(wù)部门和IT部门通过使用(yòng)基于角色的功能(néng),一同设计、测试、完善和实施数据质量业務(wù)规则,以达成最好的结果。



4)将数据质量规则构建到数据集成过程中

数据质量服務(wù)由可(kě)集中管理(lǐ)、独立于应用(yòng)程序并可(kě)重复使用(yòng)的业務(wù)规则构成,可(kě)用(yòng)来执行探查、清洗、标准化、名称与地址匹配以及监测。

在企业大数据治理(lǐ)过程中,对于大数据生产線(xiàn)中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分(fēn)析过程等等都需要做检查。

但在大数据环境中,每个集成点都会有(yǒu)海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用(yòng)抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量區(qū)间,再决定是否需要对这批数据做详细的检查。

5)检查异常并完善规则

在执行数据质量流程后,大多(duō)数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可(kě)避免,仍会存在一些没有(yǒu)被清洗的劣质数据,此时则需要完善控制数据质量的业務(wù)规则。

目前企业内的数据主要分(fēn)為(wèi)外部数据和内部数据,大数据时代到来让各企业广泛采購(gòu)第三方数据,第三方数据的质量逐渐成為(wèi)决定企业数据质量的关键因素。

对于企业的内部数据,可(kě)以通过业務(wù)梳理(lǐ)直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用(yòng)关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。



6)对照目标,监测数据质量

数据质量控制不应為(wèi)一次性的“边设边忘”活动。相对目标和在整个业務(wù)应用(yòng)中持续监测和管理(lǐ)数据质量对于保持和改进高水平的数据质量性能(néng)而言是至关重要的。可(kě)选择仪表板和报告进行监测。

3、对不同数据的数据问题分(fēn)类处理(lǐ)

在时间维度上分(fēn),企业数据主要有(yǒu)三类:未来数据、当前数据、历史数据。在解决不同种类的数据质量问题时,也要采取不同的处理(lǐ)方式。

1)历史数据

如果你拿(ná)着历史数据,找业務(wù)部门给你做整改,业務(wù)部门通常以“当前的数据问题都处理(lǐ)不过来,哪有(yǒu)时间帮你一起追查历史数据的问题”為(wèi)理(lǐ)由无情拒绝。这个时候即便是找领导协调,一般也起不到太大的作用(yòng)。对于历史数据问题的处理(lǐ),一般可(kě)以发挥IT技术人员的优势,用(yòng)数据清洗的办法来解决,清洗的过程要综合使用(yòng)各类数据源,提升历史数据的质量。

2)当前数据

当前数据的问题,需要通过从问题定义、问题发现、问题整改、问题跟踪、效果评估5个方面来解决。



3)未来数据

未来数据的处理(lǐ),一般要采用(yòng)做数据规划的方法来解决,从整个企业信息化的角度出发,规划统一企业数据架构,制定企业数据标准和数据模型。借业務(wù)系统改造或者重建的时机,来从根本上提高数据质量。当然这种机会是可(kě)遇而不可(kě)求的,在机会到来之前应该把企业数据标准和数据模型建立起来,一旦机会出现,就可(kě)以遵循这些标准。

通过对不同时期数据的分(fēn)类处理(lǐ),做到事前预防、事中监控、事后改善,有(yǒu)助于从根源上解决数据质量问题,為(wèi)企业的发展带来突破和创新(xīn)。

随着互联网时代的来临,企业面对的数据已经遠(yuǎn)遠(yuǎn)不是简单的业務(wù)数据,而是来自网络和各种设备的大量结构化和非结构化数据。企业需要严格控制数据质量才能(néng)最终实现数据的价值以及业務(wù)的发展。