- 行业动态 >
- 资讯详情
辨析BI、数据仓库、数据湖(hú)和数据中台内涵及差异点
一、数据仓库
数据仓库平台逐步从BI报表為(wèi)主到分(fēn)析為(wèi)主、到预测為(wèi)主、再到操作智能(néng)為(wèi)目标。
它利用(yòng)信息科(kē)技,将分(fēn)散于企业内、外部各种数据加以整合并转换成知识,并依据某些特定的主题需求,进行决策分(fēn)析和运算;
用(yòng)户则通过报表、图表、多(duō)维度分(fēn)析的方式,寻找解决业務(wù)问题所需要的方案;
这些结果将呈报给决策者,以支持策略性的决策和定义组织绩效,或者融入智能(néng)知识库自动向客户推送。
1.1数据仓库基本定义
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用(yòng)于支持管理(lǐ)决策和信息的全局共享。其主要功能(néng)是将组织透过资讯系统之联机事務(wù)处理(lǐ)(OLTP)经年累月所累积的大量资料,透过数据仓库理(lǐ)论所特有(yǒu)的资料储存架构,作一有(yǒu)系统的分(fēn)析整理(lǐ),以利各种分(fēn)析方法如联机分(fēn)析处理(lǐ)(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能(néng)快速有(yǒu)效的自大量资料中,分(fēn)析出有(yǒu)价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商(shāng)业智能(néng)(BI)。[1]:引自全球数据仓库之父 W.H.Inmon。
所谓主题:是指用(yòng)户使用(yòng)数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业務(wù)支撑系统那样是按照业務(wù)功能(néng)进行组织的。
所谓集成:是指数据仓库中的信息不是从各个业務(wù)系统中简单抽取出来的,而是经过一系列加工、整理(lǐ)和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可(kě)以对企业的发展历程和未来趋势做出定量分(fēn)析和预测。
1.2数据仓库系统作用(yòng)和定位
数据仓库系统的作用(yòng)能(néng)实现跨业務(wù)条線(xiàn)、跨系统的数据整合,為(wèi)管理(lǐ)分(fēn)析和业務(wù)决策提供统一的数据支持。数据仓库能(néng)够从根本上帮助你把公司的运营数据转化成為(wèi)高价值的可(kě)以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。
是面向企业中、高级管理(lǐ)进行业務(wù)分(fēn)析和绩效考核的数据整合、分(fēn)析和展现的工具;
是主要用(yòng)于历史性、综合性和深层次数据分(fēn)析;
数据来源是ERP(例:SAP)系统或其他(tā)业務(wù)系统;
能(néng)够提供灵活、直观、简洁和易于操作的多(duō)维查询分(fēn)析;
不是日常交易操作系统,不能(néng)直接产生交易数据;
数据仓库针对实时数据处理(lǐ),非结构化数据处理(lǐ)能(néng)力较弱,以及在业務(wù)在预警预测方面应用(yòng)相对有(yǒu)限。
1.3数据仓库能(néng)提供什么
1.4数据仓库系统构成
数据仓库系统除了包含分(fēn)析产品本身之外,还包含数据集成、数据存储、数据计算、门户展现、平台管理(lǐ)等其它一系列的产品。
二、 数据湖(hú)
数据湖(hú)(Data Lake)是Pentaho的CTO James Dixon提出来的(Pentaho作為(wèi)一家BI公司在理(lǐ)念上是挺先进的),是一种数据存储理(lǐ)念——即在系统或存储库中以自然格式存储数据的方法。
2.1维基百科(kē)对数据湖(hú)的定义
数据湖(hú)(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可(kě)供存取、处理(lǐ)、分(fēn)析及传输。数据湖(hú)是以其自然格式存储的数据的系统或存储库,通常是对象blob或文(wén)件。数据湖(hú)通常是企业所有(yǒu)数据的单一存储,包括源系统数据的原始副本,以及用(yòng)于报告、可(kě)视化、分(fēn)析和机器學(xué)习等任務(wù)的转换数据。数据湖(hú)可(kě)以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志(zhì),XML,JSON),非结构化数据(電(diàn)子邮件,文(wén)档,PDF)和二进制数据(图像,音频,视频)。来源:维基百科(kē)。
目前,Hadoop是最常用(yòng)的部署数据湖(hú)的技术,所以很(hěn)多(duō)人会觉得数据湖(hú)就是Hadoop集群。数据湖(hú)是一个概念,而Hadoop是用(yòng)于实现这个概念的技术。
2.2数据湖(hú)能(néng)给企业带来多(duō)种能(néng)力
数据湖(hú)能(néng)给企业带来多(duō)种能(néng)力,例如,能(néng)实现数据的集中式管理(lǐ),在此之上,企业能(néng)挖掘出很(hěn)多(duō)之前所不具备的能(néng)力。另外,数据湖(hú)结合先进的数据科(kē)學(xué)与机器學(xué)习技术,能(néng)帮助企业构建更多(duō)优化后的运营模型,也能(néng)為(wèi)企业提供其他(tā)能(néng)力,如预测分(fēn)析、推荐模型等,这些模型能(néng)刺激企业能(néng)力的后续增長(cháng)。数据湖(hú)能(néng)从以下方面帮助到企业:
实现数据治理(lǐ)(data governance)。
预测分(fēn)析,如领域特定的推荐引擎。
信息追踪与一致性保障。
根据对历史的分(fēn)析生成新(xīn)的数据维度。
有(yǒu)一个集中式的能(néng)存储所有(yǒu)企业数据的数据中心,有(yǒu)利于实现一个针对数据传输优化的数据服務(wù)。
帮助组织或企业做出更多(duō)灵活的关于企业增長(cháng)的决策。
2.3数据仓库与数据湖(hú)差异
在储存方面上,数据湖(hú)中数据為(wèi)非结构化的,所有(yǒu)数据都保持原始形式。存储所有(yǒu)数据,并且仅在分(fēn)析时再进行转换。数据仓库就是数据通常从事務(wù)系统中提取。
在将数据加载到数据仓库之前,会对数据进行清理(lǐ)与转换。在数据抓取中数据湖(hú)就是捕获半结构化和非结构化数据。而数据仓库则是捕获结构化数据并将其按模式组织。
数据湖(hú)的目的就是数据湖(hú)非常适合深入分(fēn)析的非结构化数据。数据科(kē)學(xué)家可(kě)能(néng)会用(yòng)具有(yǒu)预测建模和统计分(fēn)析等功能(néng)的高级分(fēn)析工具。而数据仓库就是数据仓库非常适用(yòng)于月度报告等操作用(yòng)途,因為(wèi)它具有(yǒu)高度结构化。
在架构中数据湖(hú)通常,在存储数据之后定义架构。使用(yòng)较少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前定义架构。
表1.数据仓库、数据湖(hú)和数据湖(hú)的區(qū)别如下:
三、数据中台
3.1产生的背景
企业在过去信息化的历程中形成了大量生产经营及专业业務(wù)应用(yòng)成果,同时也累积了大量的企业数据资产。限于传统的数据仓库技术手段,数据管理(lǐ)和分(fēn)析能(néng)力成為(wèi)信息化工作中的短板。企业信息系统众多(duō),系统管理(lǐ)独立,数据存储分(fēn)散,横向的数据共享和分(fēn)析应用(yòng)仅由具體(tǐ)业務(wù)驱动,难以对全局数据开展价值挖掘,从规模上和效果上都无法真正體(tǐ)现集团庞大数据资产的价值。市场竞争和产业链日益全球化,企业不只满足于内部数据的分(fēn)析,更要通过互联网、微信、APP等新(xīn)技术手段结合外部市场数据进行整體(tǐ)分(fēn)析。
(1)传统的数据仓库不能(néng)满足数据分(fēn)析需求。
企业在数据分(fēn)析应用(yòng)方面呈现“五大转变”(从统计分(fēn)析向预测分(fēn)析转变、从单领域分(fēn)析向跨领域转变、从被动分(fēn)析向主动分(fēn)析转变、从非实时向实时分(fēn)析转变、从结构化数据向多(duō)元化转变),并且对统一的数据中台平台诉求强烈,对数据中台的运算能(néng)力、核心算法、及数据全面性提出了更高的要求。
(2)数据中台的处理(lǐ)架构发生了变化。
一是以Hadoop、Spark等分(fēn)布式技术和组件為(wèi)核心的“计算&存储混搭”的数据处理(lǐ)架构,能(néng)够支持批量和实时的数据加载以及灵活的业務(wù)需求。二是数据的预处理(lǐ)流程正在从传统的ETL结构向ELT转变。传统的数据仓库集成处理(lǐ)架构是ETL结构,这是构建数据仓库的重要一环,即用(yòng)户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构體(tǐ)系是ELT结构,其根据上层的应用(yòng)需求,随时从数据中台中抽取想要的原始数据进行建模分(fēn)析。
3.2数据中台建设是数字化转型的关键支撑
数据中台成為(wèi)热点,“中台”这个概念,是相对于前台和后台而生,是前台和后台的链接点,将业務(wù)共同的工具和技术予以沉淀。数据中台是指数据采集交换、共享融合、组织处理(lǐ)、建模分(fēn)析、管理(lǐ)治理(lǐ)和服務(wù)应用(yòng)于一體(tǐ)的综合性数据能(néng)力平台,在大数据生态中处于承上启下的功能(néng),提供面向数据应用(yòng)支撑的底座能(néng)力。
广义上来给数据中台一个企业级的定义:“聚合和治理(lǐ)跨域数据,将数据抽象封装成服務(wù),提供给前台以业務(wù)价值的逻辑概念”。
中台战略核心是数据服務(wù)的共享。中台战略并不是搭建一个数据平台,但是中台的大部分(fēn)服務(wù)都是围绕数据而生,数据中台是围绕向上层应用(yòng)提供数据服務(wù)构建的,中台战略让数据在数据平台和业務(wù)系统之间形成了一个良性的闭环,也就是实现应用(yòng)与数据之间解藕,并实现紧密交互。
敏捷前台:一線(xiàn)作战单元,强调敏捷交互及稳定交付的组织能(néng)力建设。
业務(wù)中台:能(néng)力固化与赋能(néng),固化通用(yòng)能(néng)力,赋能(néng)前線(xiàn)部队,提升配置效率,加快前線(xiàn)响应,产品化业務(wù)化,开辟全新(xīn)生态。
数据中台:资产整合与共享,整合多(duō)维数据,统一资产管理(lǐ),连通数据孤岛,共享数据资源,深入挖掘数据,盘活资产价值。
稳定后台:以共享中心建设為(wèi)核心,為(wèi)前中台提供专业的内部服務(wù)支撑。
3.3数据中台定义及处理(lǐ)架构
数据中台是指通过企业内外部多(duō)源异构的数据采集、治理(lǐ)、建模、分(fēn)析,应用(yòng),使数据对内优化管理(lǐ)提高业務(wù),对外可(kě)以数据合作价值释放,成為(wèi)企业数据资产管理(lǐ)中枢。数据中台建立后,会形成数据API,為(wèi)企业和客户提供高效各种数据服務(wù)。
数据中台整體(tǐ)技术架构上采用(yòng)云计算架构模式,将数据资源、计算资源、存储资源充分(fēn)云化,并通过多(duō)租户技术进行资源打包整合,并进行开放,為(wèi)用(yòng)户提供“一站式”数据服務(wù)。
利用(yòng)大数据技术,对海量数据进行统一采集、计算、存储,并使用(yòng)统一的数据规范进行管理(lǐ),将企业内部所有(yǒu)数据统一处理(lǐ)形成标准化数据,挖掘出对企业最有(yǒu)价值的数据,构建企业数据资产库,提供一致的、高可(kě)用(yòng)大 数据服務(wù)。
数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业務(wù)特点对数据中台的能(néng)力进行定义,基于能(néng)力定义利用(yòng)数据组件搭建自己的数据中台。
3.4数据中台带来价值
数据中台对一个企业的数字化转型和可(kě)持续发展起着至关重要的作用(yòng)。数据中台為(wèi)解耦而生,企业建设数据中台的最大意义就是应用(yòng)与数据解藕。这样企业就可(kě)以不受限制地按需构建满足业務(wù)需求的数据应用(yòng)。
构建了开放、灵活、可(kě)扩展的企业级统一数据管理(lǐ)和分(fēn)析平台, 将企业内、外部数据随需关联,打破了数据的系统界限。
利用(yòng)大数据智能(néng)分(fēn)析、数据可(kě)视化等技术,实现了数据共享、日常报表自动生成、快速和智能(néng)分(fēn)析,满足集团总部和各分(fēn)子公司各级数据分(fēn)析应用(yòng)需求。
深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可(kě)视化、共享等管理(lǐ),实现数据集中存储、处理(lǐ)、分(fēn)类与管理(lǐ),建立大数据分(fēn)析工具库、算法服務(wù)库,实现报表生成自动化、数据分(fēn)析敏捷化、数据挖掘可(kě)视化,实现数据质量评估、落地管理(lǐ)流程。
四、传统数据仓库与数据中台的差异点
作為(wèi)工业企业,一般采用(yòng)混搭架构
【结论】
本文(wén)对数据仓库、数据湖(hú)、数据中台等内涵作了详细说明,便于读者更好的理(lǐ)解和掌握数据领域相关概念。
最后总结一点:数据中台更好的支撑数据预测分(fēn)析、跨领域分(fēn)析、主动分(fēn)析、实时分(fēn)析、多(duō)元化结构化数据分(fēn)析,数据中台建设是我们企业数据服務(wù)和共享奠定重要的基础,可(kě)以加速从数据到价值的过程,打造相应业務(wù)能(néng)力。