基于数据质量管理(lǐ)处理(lǐ)疑似重复数据

优百发布 >
资讯详情

2019/11/26

3227 文(wén)章来源：优百丨作者：耿渭宾

MDM主数据系统物(wù)料唯一性管理(lǐ)

唯一性管理(lǐ)為(wèi)主数据管理(lǐ)的重点之一，MDM主数据系统通过物(wù)料分(fēn)类、物(wù)料模板及特征量取值校验，从系统层面进行提示和控制，尽可(kě)能(néng)降低申请相同物(wù)料的概率。

图1 MDM主数据系统物(wù)料管理(lǐ)功能(néng)示例

通过物(wù)料主数据标准體(tǐ)系的建立及系统的卡控，可(kě)以杜绝企业大量重复信息参数的物(wù)料产生，进而降低企业物(wù)料采購(gòu)、库存管理(lǐ)的成本（筆(bǐ)者曾参与深圳一家大型重资产制造企业，主数据项目為(wèi)公司节约备品耗材库存金额2000万，收益非常明显）。

一、现实问题与主流MDM主数据系统管理(lǐ)的问题

MDM主数据系统的上線(xiàn)解决了企业重复物(wù)料问题，随着企业的发展，物(wù)料数据持续的进行新(xīn)增、变更，系统用(yòng)户（采購(gòu)、财務(wù)等业務(wù)人员）不时会反馈系统中存在参数不一、格式略微差异的不同物(wù)料编码，但实际為(wèi)同一物(wù)料。因其唯一性参数值不同，系统唯一性校验无法卡控。

究其原因，一是，受限于系统使用(yòng)人员的物(wù)料知识储备、物(wù)料审核的严谨性；二是，物(wù)料本身名称叫法、特征量、型号规格来源多(duō)样性，存在格式近似而实际相同的物(wù)料。对于此类数据，在确认前本文(wén)统称為(wèi)疑似重复物(wù)料。

二、疑似重复物(wù)料产生原因分(fēn)析

MDM主数据系统使用(yòng)过程中产生疑似重复物(wù)料的原因有(yǒu)多(duō)种，主要原因归纳如下：

(1) 物(wù)料申请人员专业性不足并且对数据填报没有(yǒu)足够的重视。究其根源就在于大中型制造企业的部门众多(duō)、流程复杂、分(fēn)工细致，其申请物(wù)料的目的就是“有(yǒu)可(kě)以进行采購(gòu)下单的物(wù)料编码”即可(kě)，而对于物(wù)料是否存在一物(wù)多(duō)码，并不重视。

(2) 各单位物(wù)料相关部门/科(kē)室应由专人（熟悉物(wù)料的工程师）负责申请物(wù)料，但此项工作常常被交予新(xīn)人来操作，因对物(wù)料规格型号等参数的不熟悉，会导致错误参数的填报。

(3) 物(wù)料型号参数来源不同，如：设备供应商(shāng)对原始物(wù)料供应商(shāng)的型号参数进行过格式转化，以满足企业内部物(wù)料管理(lǐ)，造成同一物(wù)料编码由于来源企业不同而规格/型号略有(yǒu)不同的情况，进而导致下游客户产生重复物(wù)料，物(wù)料申请人员在系统中填写的物(wù)料型号参数与原始数据不一致。

根据筆(bǐ)者遇到的实际情况及统计分(fēn)析，唯一性参数不同而有(yǒu)可(kě)能(néng)為(wèi)重复数据的物(wù)料情况归纳為(wèi)如下四点：

图2 重复物(wù)料数据示例

三、数据质量管理(lǐ)模块

数据质量管理(lǐ)基于数据相似度算法功能(néng)，模块子功能(néng)分(fēn)為(wèi)：数据质量检测申请、数据质量检测审核、数据质量检测执行、数据质量查询、检测数据展示优化。

图3 相似数据效果展示

1. 数据质量检测申请

申请人首先填写标题，再选择需要进行清理(lǐ)数据的类型：如员工主数据、物(wù)料主数据；选择清洗范围：如物(wù)料主数据清洗哪些大类或小(xiǎo)类；选择清洗的特征量范围：如物(wù)料特征量有(yǒu)名称、長(cháng)度、宽度、厚度、材质、标准，自定义质量检测需要的特征量，可(kě)全部或部分(fēn)；最后设定阈值：如取值80%。

2. 数据质量检测审核

进行通过或驳回操作，申请通过后，生成序号码。

3. 数据质量检测执行

选定此申请通过的质量检测序号，点击“执行”，根据数据量的大小(xiǎo)运行时间不同。

4. 数据质量查询

可(kě)点击查看原数据与符合设置阈值的相似数据，并出具图形化及表格，如检测5000条数据，阈值為(wèi)80%，检测后有(yǒu)3000条数据有(yǒu)符合阈值的相似数据，则数据质量结果為(wèi)60%存在相似数据、40%不存在相似数据。

图4 数据质量检测查询结果

5. 检测数据展示优化

将此原始数据表导入如上所述的二次开发数据排列表，具體(tǐ)如下：

(1) 相似计算有(yǒu)如下特点，如下图例，原数据A存在相似度不低于80%的相似数据B、C、D，大概率情况下原数据B、C、D也分(fēn)别存在其他(tā)3个相似数据；但需特别说明的是实际会出现如下情况：原数据D仅有(yǒu)相似数据B、C，而无A，这是因為(wèi)以A為(wèi)基准，计算相似度D為(wèi)80%或略高于80%，而以D為(wèi)基准，计算A的相似度略低于80%，当设定阈值為(wèi)80%时，存在此临界相似度值状态下情况。后文(wén)中讲述导出按一定规则排列的大量原数据及其相似数据时，会出现少量单条数据的原因，在此特别说明下。

图5 相似数据阈值示例1

(2) 检测数据展示优化

导出全部或选定类别的物(wù)料的相似数据，排列规则如下：有(yǒu)最多(duō)相似数据（当有(yǒu)同样多(duō)相似数据时随机排列）的原数据排第2行（暂设第1行為(wèi)题头），其相似数据依此排列第3行、4行、5行...n行；此排列完后，有(yǒu)相似数据第二多(duō)（当有(yǒu)同样多(duō)相似数据时随机排列）的原数据续接如上排第n+1行，其相似数据依此排n+2、n+3...n+m行，有(yǒu)相似数据第三多(duō)（当有(yǒu)同样多(duō)相似数据时随机排列）的原数据排第n+m+1行，其相似数据依此排n+m+2、n+m+3......，按如上规则排列出所选范围数据。

举例：相似数据原始描述

图6 相似数据阈值示例2

按如上所述逻辑展示出批量原数据及其相似数据，以供挖掘疑似重复数据：

(3) 且每一个数据只出现一次，按如上规则系统排列时，当有(yǒu)数据第二次出现时自动删除掉（注：其原始数据的数据量与按此规则排序后的数据量一致），以此来避免各组数据循环、反复呈现。

按如上所述逻辑需求，展示出一定类别范围的原数据及其相似数据，如下图例：

图7 相似数据阈值排序列表示例

四、基于数据质量管理(lǐ)相似度功能(néng)挖掘疑似重复物(wù)料

数据质量管理(lǐ)功能(néng)，以相似度匹配算法為(wèi)基础，自定义主数据类型、数据范围、相似计算特征量范围、阈值设置等。以上分(fēn)析归纳的四类可(kě)通过物(wù)料数据质量管理(lǐ)模块，依据相似度功能(néng)挖掘识别、并展示出其相似数据，再与各业務(wù)相关方确定是否真的重复。

（1）成立物(wù)料清理(lǐ)小(xiǎo)组，确定参与部门及人员。

（2）讨论确定清理(lǐ)主数据类型、范围及阈值（一般建议取值70~90%之间，具體(tǐ)依据相似计算方式以及数据值特点来确定）。

（3）基于数据质量检测模板功能(néng)，系统申请、审核、执行，再进行数据检测数据展示处理(lǐ)。

五、疑似重复数据的确认与处理(lǐ)

企业制定疑似重复物(wù)料确定流程，一般為(wèi)用(yòng)户&采購(gòu)，如无法确定时，再沟通供应商(shāng)确认。重复数据的处理(lǐ)可(kě)依据物(wù)料单价、物(wù)料库存数量、流程单据量、数据规范性等方面进行综合评估，系统只保留其中1条物(wù)料编码，其他(tā)物(wù)料编码进行冻结，不再使用(yòng)。

1. 确认重复的各组物(wù)料

保留1条有(yǒu)效的物(wù)料编码，其他(tā)的物(wù)料编码在系统进行冻结（若有(yǒu)库存或采購(gòu)订单，需先进行限制操作“禁止下单”，待库存/采購(gòu)订单处理(lǐ)完成后再冻结）。

2. 非重复物(wù)料的处理(lǐ)

特征量参数不规范的需修改；特征量参数无误的，特征量值加入与近似物(wù)料异同点参数以區(qū)分(fēn)，避免下次清理(lǐ)时成為(wèi)干扰数据。

六、流程固化及持续改善

MDM主数据系统解决了企业绝大部分(fēn)的重复问题，很(hěn)多(duō)企业上線(xiàn)MDM主数据系统后就放松了对企业主数据的管理(lǐ)，主数据的唯一性管理(lǐ)是重中之重，需要企业在数据来源、数据流程、业務(wù)变化适应性等方面进行全方位系统性的贯彻执行，以符合PDCA可(kě)持续循环管理(lǐ)的理(lǐ)念。筆(bǐ)者曾参与主数据建设的某企业，在MDM主数据系统运行半年后，按照上述方案，对MDM主数据系统中备件、耗材类的两万多(duō)条物(wù)料编码进行了一次质量检查和清理(lǐ)，筛选识别出一百多(duō)组疑似重复物(wù)料编码，最终确认冻结重复物(wù)料编码80余条，降低了企业备品备件的库存金额，物(wù)料管理(lǐ)单位已建立了规范的组织和质量管理(lǐ)机制，每半年组织对系统数据进行清理(lǐ)，保证了主数据的高质量長(cháng)效运行。

图8 数据质量持续改善步骤

持续的改善，以MDM主数据系统和完善的管理(lǐ)运行机制服務(wù)于企业，支撑企业各项业務(wù)高效的开展，才能(néng)使企业行稳致遠(yuǎn)。