一组图详解元数据、主数据与参考数据

2020/06/02      2414 文(wén)章来源:中國(guó)数据架构师联盟 原作者:梁铭图

一、假设场景

我们的假设场景先是这样的,现在正在為(wèi)中國(guó)地理(lǐ)协会设计一个中國(guó)地理(lǐ)信息系统(当然真实的地理(lǐ)信息系统不会是这样,都说只是假设一下)。我现在正设计到“地市”这个对象。常说“千言万语不及一图”,这三者的关系咱们先上图。

二、元数据--数据的数据

元数据(meta-data)是描述企业数据的相关数据,指在IT系统建设过程中所产生的有(yǒu)关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业務(wù)、结构、定义、存储、安全等各方面对数据的描述。

例如在假设场景中,我们设计了地市表的数据模型(如上图红色框里面表示),地市表这个实體(tǐ)的数据模型如何进行定义正是元数据所关心的范畴。

元数据可(kě)以说是企业的数据地图,它直接反映了企业中有(yǒu)什么样的数据,数据是如何存放的,例如,数据结构是什么样子,数据与业務(wù)之间的关系是怎么样,数据与数据之间的关系是怎么样,数据有(yǒu)什么样的安全需求,数据有(yǒu)什么样的存储需求。

针对元数据的管理(lǐ),对于传统企业数据而言是非常重要的一项管理(lǐ)挑战。因為(wèi)传统企业技术和管理(lǐ)观念上有(yǒu)所缺失,从而导致了许多(duō)问题。因此,我们在进行许多(duō)传统企业数据治理(lǐ)或者数据管理(lǐ)项目,也就是元数据管理(lǐ)方面时,常常会先从数据模型梳理(lǐ)着手。

三、主数据--企业黄金数据记录

还是回到我们的假设场景,我们在上面设计完成数据模型设计的“城市表”中填写了相应的城市数据,例如,北京、上海、广州、南宁等等。这些在城市表中填充的数据,正是组织中國(guó)地理(lǐ)协会的主数据,因為(wèi)这些数据是中國(guó)地理(lǐ)协会这个组织的关键业務(wù)实體(tǐ),它為(wèi)组织的业務(wù)开展提供关联环境,而且它可(kě)能(néng)在企业业務(wù)开展过程中被反复引用(yòng)。针对这些核心关键数据,组织和企业无论从数据的质量、一致性、可(kě)用(yòng)性、管理(lǐ)规范等方面都应该有(yǒu)着最严格的数据要求。

那么一般而言,以下涉及企业经营的人、财、物(wù)的数据最有(yǒu)可(kě)能(néng)纳入企业主数据管理(lǐ)的范畴,例如:

n企业产品及其相关信息:包括企业相关产品、服務(wù)、版本、价格、标准操作等等;

n企业财務(wù)信息:包括业務(wù)、预算、利润、合同、财務(wù)科(kē)目等等;

n企业相关利益相关者:如客户、供应商(shāng)、合作伙伴、竞争对手等;

n企业组织架构:如员工、部门等;

可(kě)见,主数据就是企业被不同运营场合反复引用(yòng)关键的状态数据,它需要在企业范围内保持高度一致。它可(kě)以随着企业的经营活动而改变,例如,客户的增加,组织架构的调整,产品下線(xiàn)等;但是,主数据的变化频率应该是较低的。所以,企业运营过程产生过程数据,如生产过程产生各种如订購(gòu)记录、消费记录等,一般不会纳入主数据的范围。当然,在不同行业,不同企业对主数据有(yǒu)不同的看法和做法,正如我们与國(guó)内大型航空企业的实施相关数据项目时,也在為(wèi)航班动态是不是主数据而纠结不已。

因此,有(yǒu)鉴于主数据对于企业的重要性,企业和组织需要对其主数据进行有(yǒu)效的管理(lǐ):包括理(lǐ)解主数据应用(yòng)需求,识别主数据来源及源头,梳理(lǐ)主数据上下游关系,数据整合和发布,提升主数据的数据质量等。

四、参考数据--数据的字典

在本文(wén)引用(yòng)的假设案例中,我们将会注意到刚才填写的地市这类数据有(yǒu)些列,如省份、城市类型等。如果没有(yǒu)缺少上下文(wén)的环境,我们是无法理(lǐ)解其具體(tǐ)含义,这时候我们往往引入参考数据(reference data)加以解释和理(lǐ)解,如下图红色标注所示。

参考数据是增加数据可(kě)读性、可(kě)维护性以及后续应用(yòng)的重要数据。例如,你看到“性别”的这个字段,很(hěn)可(kě)能(néng)是1代表男性、2代表女性。在许多(duō)企业中有(yǒu)这样的约定俗成,而更多(duō)的参考数据可(kě)能(néng)记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,您系统里面的数据就成了一堆没有(yǒu)注释的天书。

大家可(kě)能(néng)觉得,这所谓参考数据不就是数据字典吗?对,我们在很(hěn)多(duō)系统里面都会有(yǒu)这样和那样的数据字典。但是正是由于这些数据字典局仅限于个别系统而没有(yǒu)统一标准,从一个侧面间接造就了大量的数据孤岛。企业為(wèi)了进行更有(yǒu)效率的数据整合、数据共享和数据分(fēn)析应用(yòng),开始尝试对参考数据进行企业或者部门层面的整合和管理(lǐ),利用(yòng)参考数据集记录系统尝试為(wèi)范围内的IT系统中的数据库提供统一的参考数据。

五、小(xiǎo)结

主数据则是真实的企业业務(wù)数据,是企业的关键业務(wù)数据。

参考数据则是对数据的解释,针对一些数据范围和取值的数据解释,让人们容易读取相关的数据。

元数据是对数据的描述,用(yòng)于描述企业数据的所有(yǒu)信息和数据,如结构、关系、安全需求等,除增加数据可(kě)读性外,也是后续数据管理(lǐ)的基础。

一般而言,企业中这三类数据与其它数据的数据量、质量需求,更新(xīn)频率、数据生命周期的关系大致如下图: