- 优百发布 >
- 资讯详情
基于数据质量管理(lǐ)处理(lǐ)疑似重复数据
MDM主数据系统物(wù)料唯一性管理(lǐ)
唯一性管理(lǐ)為(wèi)主数据管理(lǐ)的重点之一,MDM主数据系统通过物(wù)料分(fēn)类、物(wù)料模板及特征量取值校验,从系统层面进行提示和控制,尽可(kě)能(néng)降低申请相同物(wù)料的概率。
图1 MDM主数据系统物(wù)料管理(lǐ)功能(néng)示例
通过物(wù)料主数据标准體(tǐ)系的建立及系统的卡控,可(kě)以杜绝企业大量重复信息参数的物(wù)料产生,进而降低企业物(wù)料采購(gòu)、库存管理(lǐ)的成本(筆(bǐ)者曾参与深圳一家大型重资产制造企业,主数据项目為(wèi)公司节约备品耗材库存金额2000万,收益非常明显)。
一、现实问题与主流MDM主数据系统管理(lǐ)的问题
MDM主数据系统的上線(xiàn)解决了企业重复物(wù)料问题,随着企业的发展,物(wù)料数据持续的进行新(xīn)增、变更,系统用(yòng)户(采購(gòu)、财務(wù)等业務(wù)人员)不时会反馈系统中存在参数不一、格式略微差异的不同物(wù)料编码,但实际為(wèi)同一物(wù)料。因其唯一性参数值不同,系统唯一性校验无法卡控。
究其原因,一是,受限于系统使用(yòng)人员的物(wù)料知识储备、物(wù)料审核的严谨性;二是,物(wù)料本身名称叫法、特征量、型号规格来源多(duō)样性,存在格式近似而实际相同的物(wù)料。对于此类数据,在确认前本文(wén)统称為(wèi)疑似重复物(wù)料。
二、疑似重复物(wù)料产生原因分(fēn)析
MDM主数据系统使用(yòng)过程中产生疑似重复物(wù)料的原因有(yǒu)多(duō)种,主要原因归纳如下:
(1) 物(wù)料申请人员专业性不足并且对数据填报没有(yǒu)足够的重视。究其根源就在于大中型制造企业的部门众多(duō)、流程复杂、分(fēn)工细致,其申请物(wù)料的目的就是“有(yǒu)可(kě)以进行采購(gòu)下单的物(wù)料编码”即可(kě),而对于物(wù)料是否存在一物(wù)多(duō)码,并不重视。
(2) 各单位物(wù)料相关部门/科(kē)室应由专人(熟悉物(wù)料的工程师)负责申请物(wù)料,但此项工作常常被交予新(xīn)人来操作,因对物(wù)料规格型号等参数的不熟悉,会导致错误参数的填报。
(3) 物(wù)料型号参数来源不同,如:设备供应商(shāng)对原始物(wù)料供应商(shāng)的型号参数进行过格式转化,以满足企业内部物(wù)料管理(lǐ),造成同一物(wù)料编码由于来源企业不同而规格/型号略有(yǒu)不同的情况,进而导致下游客户产生重复物(wù)料,物(wù)料申请人员在系统中填写的物(wù)料型号参数与原始数据不一致。
根据筆(bǐ)者遇到的实际情况及统计分(fēn)析,唯一性参数不同而有(yǒu)可(kě)能(néng)為(wèi)重复数据的物(wù)料情况归纳為(wèi)如下四点:
图2 重复物(wù)料数据示例
三、数据质量管理(lǐ)模块
数据质量管理(lǐ)基于数据相似度算法功能(néng),模块子功能(néng)分(fēn)為(wèi):数据质量检测申请、数据质量检测审核、数据质量检测执行、数据质量查询、检测数据展示优化。
图3 相似数据效果展示
1. 数据质量检测申请
申请人首先填写标题,再选择需要进行清理(lǐ)数据的类型:如员工主数据、物(wù)料主数据;选择清洗范围:如物(wù)料主数据清洗哪些大类或小(xiǎo)类;选择清洗的特征量范围:如物(wù)料特征量有(yǒu)名称、長(cháng)度、宽度、厚度、材质、标准,自定义质量检测需要的特征量,可(kě)全部或部分(fēn);最后设定阈值:如取值80%。
2. 数据质量检测审核
进行通过或驳回操作,申请通过后,生成序号码。
3. 数据质量检测执行
选定此申请通过的质量检测序号,点击“执行”,根据数据量的大小(xiǎo)运行时间不同。
4. 数据质量查询
可(kě)点击查看原数据与符合设置阈值的相似数据,并出具图形化及表格,如检测5000条数据,阈值為(wèi)80%,检测后有(yǒu)3000条数据有(yǒu)符合阈值的相似数据,则数据质量结果為(wèi)60%存在相似数据、40%不存在相似数据。
图4 数据质量检测查询结果
5. 检测数据展示优化
将此原始数据表导入如上所述的二次开发数据排列表,具體(tǐ)如下:
(1) 相似计算有(yǒu)如下特点,如下图例,原数据A存在相似度不低于80%的相似数据B、C、D,大概率情况下原数据B、C、D也分(fēn)别存在其他(tā)3个相似数据;但需特别说明的是实际会出现如下情况:原数据D仅有(yǒu)相似数据B、C,而无A,这是因為(wèi)以A為(wèi)基准,计算相似度D為(wèi)80%或略高于80%,而以D為(wèi)基准,计算A的相似度略低于80%,当设定阈值為(wèi)80%时,存在此临界相似度值状态下情况。后文(wén)中讲述导出按一定规则排列的大量原数据及其相似数据时,会出现少量单条数据的原因,在此特别说明下。
图5 相似数据阈值示例1
(2) 检测数据展示优化
导出全部或选定类别的物(wù)料的相似数据,排列规则如下:有(yǒu)最多(duō)相似数据(当有(yǒu)同样多(duō)相似数据时随机排列)的原数据排第2行(暂设第1行為(wèi)题头),其相似数据依此排列第3行、4行、5行...n行;此排列完后,有(yǒu)相似数据第二多(duō)(当有(yǒu)同样多(duō)相似数据时随机排列)的原数据续接如上排第n+1行,其相似数据依此排n+2、n+3...n+m行,有(yǒu)相似数据第三多(duō)(当有(yǒu)同样多(duō)相似数据时随机排列)的原数据排第n+m+1行,其相似数据依此排n+m+2、n+m+3......,按如上规则排列出所选范围数据。
举例:相似数据原始描述
图6 相似数据阈值示例2
按如上所述逻辑展示出批量原数据及其相似数据,以供挖掘疑似重复数据:
(3) 且每一个数据只出现一次,按如上规则系统排列时,当有(yǒu)数据第二次出现时自动删除掉(注:其原始数据的数据量与按此规则排序后的数据量一致),以此来避免各组数据循环、反复呈现。
按如上所述逻辑需求,展示出一定类别范围的原数据及其相似数据,如下图例:
图7 相似数据阈值排序列表示例
四、基于数据质量管理(lǐ)相似度功能(néng)挖掘疑似重复物(wù)料
数据质量管理(lǐ)功能(néng),以相似度匹配算法為(wèi)基础,自定义主数据类型、数据范围、相似计算特征量范围、阈值设置等。以上分(fēn)析归纳的四类可(kě)通过物(wù)料数据质量管理(lǐ)模块,依据相似度功能(néng)挖掘识别、并展示出其相似数据,再与各业務(wù)相关方确定是否真的重复。
(1)成立物(wù)料清理(lǐ)小(xiǎo)组,确定参与部门及人员。
(2)讨论确定清理(lǐ)主数据类型、范围及阈值(一般建议取值70~90%之间,具體(tǐ)依据相似计算方式以及数据值特点来确定)。
(3)基于数据质量检测模板功能(néng),系统申请、审核、执行,再进行数据检测数据展示处理(lǐ)。
五、疑似重复数据的确认与处理(lǐ)
企业制定疑似重复物(wù)料确定流程,一般為(wèi)用(yòng)户&采購(gòu),如无法确定时,再沟通供应商(shāng)确认。重复数据的处理(lǐ)可(kě)依据物(wù)料单价、物(wù)料库存数量、流程单据量、数据规范性等方面进行综合评估,系统只保留其中1条物(wù)料编码,其他(tā)物(wù)料编码进行冻结,不再使用(yòng)。
1. 确认重复的各组物(wù)料
保留1条有(yǒu)效的物(wù)料编码,其他(tā)的物(wù)料编码在系统进行冻结(若有(yǒu)库存或采購(gòu)订单,需先进行限制操作“禁止下单”,待库存/采購(gòu)订单处理(lǐ)完成后再冻结)。
2. 非重复物(wù)料的处理(lǐ)
特征量参数不规范的需修改;特征量参数无误的,特征量值加入与近似物(wù)料异同点参数以區(qū)分(fēn),避免下次清理(lǐ)时成為(wèi)干扰数据。
六、流程固化及持续改善
MDM主数据系统解决了企业绝大部分(fēn)的重复问题,很(hěn)多(duō)企业上線(xiàn)MDM主数据系统后就放松了对企业主数据的管理(lǐ),主数据的唯一性管理(lǐ)是重中之重,需要企业在数据来源、数据流程、业務(wù)变化适应性等方面进行全方位系统性的贯彻执行,以符合PDCA可(kě)持续循环管理(lǐ)的理(lǐ)念。筆(bǐ)者曾参与主数据建设的某企业,在MDM主数据系统运行半年后,按照上述方案,对MDM主数据系统中备件、耗材类的两万多(duō)条物(wù)料编码进行了一次质量检查和清理(lǐ),筛选识别出一百多(duō)组疑似重复物(wù)料编码,最终确认冻结重复物(wù)料编码80余条,降低了企业备品备件的库存金额,物(wù)料管理(lǐ)单位已建立了规范的组织和质量管理(lǐ)机制,每半年组织对系统数据进行清理(lǐ),保证了主数据的高质量長(cháng)效运行。
图8 数据质量持续改善步骤
持续的改善,以MDM主数据系统和完善的管理(lǐ)运行机制服務(wù)于企业,支撑企业各项业務(wù)高效的开展,才能(néng)使企业行稳致遠(yuǎn)。