数据管理(lǐ)的未来发展趋势

2019/08/27      2038 文(wén)章来源:软件定义世界(SDX)

当前,数据驱动型业務(wù)战略与信息产品的潜力比以往任何时候都要大。对于多(duō)数企业机构而言,数据分(fēn)析与管理(lǐ)已成為(wèi)它们业務(wù)战略的重要驱动力。数据分(fēn)析与管理(lǐ)领导者正在通过挖掘数据价值来驱动数字化转型、创造盈利机会、改善客户體(tǐ)验和重塑行业格局。

随着云、本地、边缘间的界限逐渐消失,数据管理(lǐ)的未来可(kě)以用(yòng)四个关键词来描述。

首先是分(fēn)布式(Distributed),未来的数据管理(lǐ)将是分(fēn)布式的,因為(wèi)数据管理(lǐ)须随数据所在的位置而进行。

其次是无服務(wù)器(Serverless),此概念较特殊、并不是指未来的数据管理(lǐ)不再需要服務(wù)器,而是指未来将没有(yǒu)一个明确的集中式服務(wù)器。

再者是协调(Orchestrated),今天的数据会产生在不同的地方和设备上,所以须把它们协调管理(lǐ)。

最后就是元数据(Metadata),无论数据分(fēn)散在何处,元数据均能(néng)把它们协调在一起,因此元数据是未来数据管理(lǐ)中非常重要的一个元素。

总體(tǐ)而言,数据管理(lǐ)的未来发展趋势可(kě)从三个维度来看——架构的改变、技术的转变以及组织的衍化。

Gartner于2018年针对数据和分(fēn)析的采用(yòng)趋势进行了一项调查(多(duō)选题)。结果显示企业机构目前使用(yòng)最普遍的信息基础架构技术為(wèi)“基于云平台的数据存储”(63%)。

一些传统技术,例如数据仓库(Data Warehouse)和数据库管理(lǐ)系统(DBMS)仍然占着相当大的比重。这些传统技术在未来并不会消失。

举例而言,“数据仓库”是一个非常广泛的案例,未来数据的研究和分(fēn)析都将需要用(yòng)到该技术——主要配合在特定案例和场合中使用(yòng)。

此外,未来还将有(yǒu)诸如“数据目录”(Data Catalogs)这样的技术被广泛使用(yòng)。

“数据目录”是元数据的重要基础,以往“数据目录”主要用(yòng)于帮助企业机构了解数据的定义和来源,但现在的趋势是“数据目录”可(kě)以帮助企业机构了解数据的特性、使用(yòng)者以及使用(yòng)场景。

因此,在数据管理(lǐ)的未来趋势中,“数据目录”将具有(yǒu)举足轻重的地位。

此外,数据湖(hú)(Date Lake)已从此前放置在内部数据中心中转变為(wèi)目前可(kě)放在云端上,这是一个非常大的变化,未来诸如此类比较高端的技术均可(kě)以移至云平台之上。

1) 重“关联”、轻“采集”

从上述调查背景可(kě)以看出,未来的数据管理(lǐ)和集成将会变得更加“关联”(Connect),更少“采集”(Collect)。

当前,在数据管理(lǐ)上,企业机构通常重“采集”、轻“关联”,此情形在中國(guó)尤為(wèi)严重——即企业机构在采集和存储数据后,并不能(néng)立即挖掘其中的价值,失去其时效性。

原因在于,从数据被“采集”到应用(yòng)其价值,这中间有(yǒu)相当長(cháng)的流程(如上左图所示),包括描述、整理(lǐ)、集成、分(fēn)享、治理(lǐ)和实施。这一長(cháng)串流程对企业机构内部IT技术具有(yǒu)相当大的考验。

随着机器學(xué)习技术的引入和元数据的应用(yòng),目前数据管理(lǐ)和集成已开始呈现出一种新(xīn)趋势,即更加注重数据的“关联”(如上右图所示),也就是指无论数据是在本地、云端、某个设备感应器上或任何地方,我们都可(kě)以在数据保留在原地的情况下,将它们关联起来,而无须采集到特定地方。

在未来增强式的数据管理(lǐ)的环境中,自动发掘数据、透过机器自动意识识别数据中的价值、认定有(yǒu)价值的数据、分(fēn)析数据、自动采用(yòng)适合数据的安全措施、分(fēn)享数据、优化数据,最终实现在最短时间内将精准的数据发送给对的人,对于企业机构至关重要。

1) “移动性数据”成為(wèi)主要案例

数据管理(lǐ)与集成方面的另一个趋势是“移动性数据”(Data in Motion)。

以往,诸如交易产生后,企业机构便把数据存储进数据库或数据中心内,后续任務(wù)即制作报表等工作,这类的数据被称為(wèi)“静态型”。

“移动性数据”指的是在交易过程中,企业机构就可(kě)以看到实时的数据处理(lǐ)——无论数据处在边缘设备还是在数据中心内。数据始终是数据商(shāng)用(yòng)平台的核心所在。

2) 集中式、分(fēn)布式、随机式数据治理(lǐ)并存

与数据管理(lǐ)(Data Management)不同,数据治理(lǐ)(Data Governance)注重数据的使用(yòng)者、使用(yòng)方式、使用(yòng)权限的合规性制定。

未来的“数据治理(lǐ)”将会非常动态——可(kě)以是集中式、分(fēn)布式,亦可(kě)是随机式。“随机式”是指企业机构可(kě)以通过机器學(xué)习来增强数据内容以及评估用(yòng)例。

举例而言,某件物(wù)品在首次被海关征收关税时,海关可(kě)能(néng)不知如何“治理(lǐ)”它。但“机器學(xué)习”引擎可(kě)以自动分(fēn)辨该物(wù)品的属性,进而据此自动帮助海关生成此件物(wù)品应该遵循的“治理(lǐ)”规则。

3) 元数据是未来数据管理(lǐ)的关键

企业机构的数据来源不仅多(duō)种多(duō)样(包括ERP、CRM、SCM和HCM),且用(yòng)途极為(wèi)广泛(可(kě)用(yòng)于外部供应商(shāng)、客户与合作伙伴,呈现方式包括图表、报表和指示板)。

将这些来源与用(yòng)途连接起来——即连通无服務(wù)器进程(Serverless Processes)和物(wù)理(lǐ)合并(Physical Consolidation)的关键桥梁就是元数据。

Gartner预计,在2021年之前,能(néng)够采用(yòng)数据中心、数据湖(hú)或者数据仓库这种统一战略的企业机构,将比竞争对手多(duō)出30%的使用(yòng)案例。

此外,在2023年之前,75%的数据库将迁移至云平台上,此举意味着减少数据库管理(lǐ)系统供应商(shāng)的规模并且增加数据治理(lǐ)和集成的复杂性。

1)人工智能(néng)让数据管理(lǐ)软件的运行更加流畅

现在,人工智能(néng)可(kě)以帮助企业机构增强数据管理(lǐ)。事实上,数据管理(lǐ)技术的未来就是人工智能(néng)和机器學(xué)习的应用(yòng)。

具體(tǐ)而言,有(yǒu)以下四方面:

第一是数据质量(Data Quality)。目前市场上有(yǒu)很(hěn)多(duō)供应商(shāng)都是在用(yòng)机器學(xué)习的方式帮助企业机构扩展和增强数据的分(fēn)析、清理(lǐ)、连接、识别、语义协调和重组。企业机构在不同数据源中管理(lǐ)主数据质量以往需要人為(wèi)操作、费时费力,而机器學(xué)习可(kě)以使这一整串流程变得完全自动化,且准确率明显提高。

第二是主数据管理(lǐ)(Master Data Management)。机器學(xué)习可(kě)以帮助企业机构配置和优化主数据,尤其在记录匹配和算法融合方面,机器學(xué)习可(kě)以让企业机构对主数据的管理(lǐ)更加便利。

第三是数据集成(Data Integration)。人工智能(néng)可(kě)以通过升级多(duō)个相同模式并根据语义分(fēn)析,向企业机构告知数据源的相关性,推荐企业机构将相同的数据源进行连接,最终使得数据集成的流程更加简化。

第四是数据库管理(lǐ)系统(DataBase Management System)。人工智能(néng)技术的引入将使数据库从存储、索引、分(fēn)區(qū)到调整、优化、修补——这一系列繁琐的人工流程变得更加自动化。

2)动态元数据创造“自我驱动型”数据管理(lǐ)

机器學(xué)习和人工智能(néng)是一个后端底层技术,诸如性能(néng)分(fēn)析等更多(duō)数据管理(lǐ)工作的完成还需动态元数据的支持。元数据专门用(yòng)于描述数据的特质,帮助企业机构将不同的数据进行关联并做推荐。

以数据分(fēn)析為(wèi)例,企业机构在定义数据的相关性时,动态元数据就会起到中间凝合力的作用(yòng)。

3)开源软件收益与风险的平衡

提及开源,一般想到的是总拥有(yǒu)成本(TCO)很(hěn)低、企业机构的回本速度很(hěn)快。

虽然企业机构有(yǒu)时无法通过开源软件(OSS)得到所需支持,但目前市场上已有(yǒu)很(hěn)多(duō)商(shāng)业软件包可(kě)给予帮助。

其次,若企业机构需要研发创新(xīn)并保持灵活性,那么开源软件应是首要选择。

再者,据Gartner调查,全球90%的企业机构已把开源软件用(yòng)在任務(wù)关键型的IT流程中。

最后,企业机构应把服務(wù)水平协议与商(shāng)业供应商(shāng)的平衡性放入自身的数据管理(lǐ)策略考量中。

Gartner预测,到2022年之前,使用(yòng)动态元数据去连接、优化、自动化数据集成流程的企业机构将减少30%的数据交付的时间。

此外,到2023年之前,在数据管理(lǐ)中使用(yòng)人工智能(néng)技术能(néng)够帮助企业机构进行更多(duō)的自动化工作,因此这些企业机构对于IT专业人士的需求将减少20%。

1)自动化数据与分(fēn)析工作即将来临

Gartner就数据分(fēn)析工作的自动化优先级进行过一项调研。调研结果显示,数据集成(Data Integration)排名第一,因為(wèi)其最费时间也最易出错。

此外,机器學(xué)习相关技术的研发需要进行大量前期的数据准备(Data Preparation)。Gartner预计数据科(kē)學(xué)家大约需要花(huā)费70%到80%的时间进行数据准备。

因此,若数据准备无法进行自动化,那么项目交付的时间就会极其漫長(cháng)。

2)人机联盟:少花(huā)钱、多(duō)做事

未来,数据集成工作需要人与机器共同完成。数据存在不同的端口且数量庞大,因此单独的人力难以进行处理(lǐ)、需有(yǒu)工具进行支持。未来,这种工具将引入人工智能(néng)与机器學(xué)习技术,让人力做不到或短期内无法实现的工作变成现实。

与此同时,此前从事这类工作的IT工程师将可(kě)腾出时间去做更多(duō)、更重要的事情。

3)元数据与数据管理(lǐ)架构紧密贴合

元数据的管理(lǐ)平台上有(yǒu)很(hěn)多(duō)引擎,有(yǒu)些可(kě)以根据数据目录,即目前所存储的数据信息,自动地发现企业机构目前架构中有(yǒu)哪些数据源还未掌控,然后进行处理(lǐ)。

元数据有(yǒu)两种维度——度量(Metrics)与语义(Meaning)。

以往,企业机构做得更多(duō)的是语义,但在未来元数据的管理(lǐ)上,两者具有(yǒu)同等重要性,甚至“度量”的地位更高,因為(wèi)它可(kě)以根据此前类似数据的集成方式自动进行数据挖掘和规划。

4)数据管理(lǐ)新(xīn)角色不断涌现

Gartner针对“企业机构目前及2020前的数据管理(lǐ)职位”进行过调研,结果如上图所示。其中,需重点强调的是数据管家(Data Steward)。“数据管家”在未来的数据管理(lǐ)工作中占有(yǒu)极其重要的地位。

当前,企业机构已经意识到自己的数据源变得更多(duō)、数据使用(yòng)案例变得更為(wèi)复杂,在此情况下,它们需要新(xīn)的岗位去应对挑战。

但需强调的是,每个企业机构都有(yǒu)自己不同的战略,它们需要根据预测的业務(wù)结果来应用(yòng)不同的技能(néng)、设置不同的数据管理(lǐ)岗位。