发挥元数据的价值支撑数据质量提升

2019/10/29      3537 文(wén)章来源:御数坊


用(yòng)数据说话、凭数据管理(lǐ)、靠数据决策

这是当前各大企业对数据管理(lǐ)、数据运营的共同目标。但是在企业信息化建设的进程中,因系统建设缺乏统一规划、数据规范意识不强、执行人员手工填报错漏等原因,企业的数据存在质量参差不齐的通病。

為(wèi)快速體(tǐ)现数据治理(lǐ)的效用(yòng),大部分(fēn)公司采用(yòng)小(xiǎo)步快跑的方式,选取重点业務(wù)场景,通过对指标数据的实用(yòng)化,识别数据质量问题,通过对指标数据从业務(wù)源头、责任源头、技术源头追根溯源,定位数据质量问题产生的根因,对指标数据的业務(wù)要求规范、数据责任归属、数据技术流向进行溯源,实现快速归因和及时治理(lǐ);為(wèi)数据资产运营奠定基础。

元数据是定义、描述数据的数据,是定义及说明数据建设要求、数据运行要求、数据安全要求、数据间关系的信息。

通过对元数据的有(yǒu)效管理(lǐ),明确数据质量要求、落实数据质量责任、实现数据追根溯源、前置数据质量管控关口。在持续推动数据质量有(yǒu)效提升的同时,加强源头预防,过程中管控工作,為(wèi)企业实现数字化转型打好基础,做好保障。


【不完善元数据管理(lǐ)内容,让数据质量提升"有(yǒu)规可(kě)循、有(yǒu)法可(kě)依"

元数据的管理(lǐ)内容包含的内容较多(duō),从高维度上可(kě)以划分(fēn)為(wèi)业務(wù)元数据、技术元数据、管理(lǐ)元数据,其中的管理(lǐ)元数据进一步细分(fēn)又(yòu)可(kě)以划分(fēn)出认责元数据、稽核元数据、安全元数据、操作元数据、存储元数据等分(fēn)类。

不管分(fēn)类如何变化,实质性内容都是围绕数据的统一定义、数据的标准规范、数据的处理(lǐ)过程、数据的存储要求、数据的安全管理(lǐ)要求等等内容进行规范管理(lǐ)。

1、业務(wù)术语和数据标准是数据质量的

业務(wù)术语和数据标准的管理(lǐ)在数据治理(lǐ)领域内的实施有(yǒu)两种不同的模式,其一是分(fēn)别管理(lǐ),通过对业務(wù)术语和数据标准分(fēn)别管理(lǐ)对数据业務(wù)定义、技术定义的内容;

其二是融合管理(lǐ),将业務(wù)术语内容与技术标准内容结合在一起。不管采用(yòng)哪种方式,都会覆盖到数据的业務(wù)定义、命名规范、存储形态、计算规则等内容,如数据项代表的业務(wù)含义、编码要求、存储类型、長(cháng)度精度、计算公式等内容。

做好业務(wù)术语和数据标准管理(lǐ),一是能(néng)為(wèi)数据规划、数据设计开发提供支撑依据,通过数据标准的分(fēn)布,了解数据资产分(fēn)布,识别数据交互关系,进而指导信息化建设初期时对数据的建设规划;二是基于对数据的明确定义,支撑数据模型的设计、数据功能(néng)的开发及校验要求;三是在后期的数据质量治理(lǐ)工作中,数据标准為(wèi)数据质量校验规则提供可(kě)靠的参考依据,提高数据质量工作的效率。



2、认责元数据是数据质量的“法”

数据认责是识别数据管理(lǐ)中各项职能(néng),并结合企业组织架构,将数据管理(lǐ)职能(néng)的各项权责与相关利益方进行划分(fēn)、认定和管理(lǐ)。

数据认责的重点在于贯彻“业務(wù)对数据负责”的理(lǐ)念,健全和落实数据管理(lǐ)专员责任制,明确各级部门、岗位人员的责任类型和内容。

通过对认责元数据的有(yǒu)效管理(lǐ),一是对数据资产的权责进行了明确界定,有(yǒu)助于推动数据质量提升工作的协同、有(yǒu)序开展;二是基于认责元数据可(kě)以快速定位数据问题责任方,有(yǒu)助于推动数据质量提升的高效开展;三是基于认责元数据梳理(lǐ)、采集过程,有(yǒu)助于推进企业数据治理(lǐ)文(wén)化的宣贯,建立数据质量、人人有(yǒu)责的数据管理(lǐ)氛围。



【建设元数据支撑能(néng)力,让数据质量提升更高效、更全面】

在日常数据质量治理(lǐ)工作中,元数据的追根溯源能(néng)力是被高频次提及到的。企业中数据具备内容多(duō),量大、关系复杂等特点,人工开展溯源是及其不现实的。这时候就会要通过管理(lǐ)手段结合工具的方式建立数据溯源支撑能(néng)力。

大多(duō)数时候,企业的数据溯源都是追溯数据流向,从数据应用(yòng)前端中的图表指标数据,追溯到数据产生源头的基础数据项,进而对基础数据项进行数据质量治理(lǐ)。

筆(bǐ)者认為(wèi)企业的数据溯源能(néng)力建设应该从以下三个方面进行考虑:

1、建设数据标准分(fēn)布支撑能(néng)力

在管理(lǐ)好数据标准之后,通过在数据标准与数据项之间建立起标准映射关系,当数据出现质量问题时,及时溯源数据项对应的数据标准要求,识别数据是否符合业務(wù)、技术标准要求;同时通过数据标准分(fēn)布支撑能(néng)力,识别可(kě)能(néng)存在同类数据质量问题的数据项,全面解决同一性问题。

2、建设数据责任追溯支撑能(néng)力

通过对开展数据认责管理(lǐ),完善认责元数据,支持数据对问题产生责任归属、整治责任归属的快速定位,有(yǒu)效提高数据质量治理(lǐ)的效率;同时根据数据责溯源,可(kě)以精细化数据质量工作的评价考核;



3、建设指标溯源支撑能(néng)力

通过ETL元数据的识别和采集,解析数据血缘关系,自动化构建起企业数据地图,支持数据在技术层面上的数据链路溯源,快速定位数据质量问题出现原因和质量问题出现的节点位置,為(wèi)快速定位数据质量问题及问题原因提供有(yǒu)效支撑。



【推进"标本兼治",强化元数据技术支撑能(néng)力】

大多(duō)数企业的数据质量提升的工作聚焦在事后治理(lǐ),即识别了数据质量问题后,通过业務(wù)溯源修正、技术变更等方式对以有(yǒu)数据质量问题进行修正。

显然这是不够的,我们可(kě)以通过在以后元数据管理(lǐ)的基础上,强化对信息化建设过程的管控手段,前置数据质量管控关口。

一是健全事前预防,在系统建设生命周期中,通过数据标准落实管控,强化数据标准在模型设计、数据设计、前台功能(néng)设计上的落地,确保数据在规划、设计、产生阶段的可(kě)靠;

二是健全事中管控,通过数据作业调度关系、数据链路关系等元数据内容,分(fēn)析数据作业关键节点,前置数据校核、数据治理(lǐ)工作,在后续数据作业执行前及时识别数据质量问题,修正数据,及时截断因质量问题给后续数据决策分(fēn)析、数据运维带来的风险;同时在日常系统功能(néng)投产运维中,通过元数据变更管控,及时识别因变更带来的影响,避免出现上下游协同不及时、不一致的情况。

【综述】

数据质量提升是一场任重道遠(yuǎn)的“持久攻坚战”,作為(wèi)数据质量提升工作的基石,元数据管理(lǐ)的重要性不容忽视。

企业在自身开展数据治理(lǐ)的各项工作中,应确立了以做好元数据管理(lǐ)為(wèi)基础,為(wèi)数据质量提升工作提供有(yǒu)效的支撑的思路。

通过元数据标准的管理(lǐ)和应用(yòng),及时获取数据的规范定义,指导新(xīn)建系统应用(yòng)的数据规范性设计、开发,通过数据标准与数据项的映射,為(wèi)数据质量校验提供有(yǒu)效依据;通过认责元数据的梳理(lǐ),為(wèi)数据问题的业務(wù)归属溯源提供快速的定位及考核凭证,推进企业数据治理(lǐ),人人有(yǒu)责的数据文(wén)化宣贯,前置新(xīn)建系统数据质量管控关口,提高数据质量问题解决的效率。