数据湖(hú)这个大坑,是怎么挖的?

2020/04/29      1954 文(wén)章来源:与数据同行 原作者:小(xiǎo)黑羊

从前,数据少的时候,人们拿(ná)脑子记就可(kě)以了,大不了采用(yòng)结绳记事:


后来,為(wèi)了更有(yǒu)效率的记事和工作,数据库出现了。数据库核心是满足快速的增删改查,应对联机事務(wù)。


比如你用(yòng)银卡消费了,后台数据库就要快速记下这筆(bǐ)交易,更新(xīn)你的卡余额。日子久了,人们发现,库里的数据越来越多(duō)了,不光要支持联机业務(wù),还有(yǒu)分(fēn)析的价值。但是,传统数据库要满足频繁、快速的读写需求,并不适合这种以读取大量数据為(wèi)特征的分(fēn)析业務(wù)。


于是,人们在现有(yǒu)的数据库基础上,对数据进行加工。这个加工过程,被称為(wèi):

ETL   抽取Extract、清洗转换Transform、加载


经过这三步,数据仓库就建好了。这个“仓库”,主要是為(wèi)了数据分(fēn)析用(yòng)途,比如用(yòng)于BI、出报表、做经营分(fēn)析等等。简要总结下,数据库用(yòng)于联机事務(wù),通常為(wèi)小(xiǎo)数据量高频读写。


数据库等原始数据,经过ETL加工以后,就被装进了数据仓库。数据仓库主要用(yòng)于联机分(fēn)析业務(wù),通常為(wèi)大数据量读取。


虽然应用(yòng)场景不一样,但他(tā)们都是结构化数据。在相当長(cháng)的一段时间内,他(tā)们联合起来,共同满足企业的实时“交易”型业務(wù)和联机“分(fēn)析性”的业務(wù)。随着时代的发展,数据的类型越来越多(duō),人们对数据的需求也越来越复杂。


企业越来越看重这些“大数据”的价值,希望把他(tā)们存好、用(yòng)好。这些数据,五花(huā)八门,又(yòu)多(duō)又(yòu)杂,怎么存呢(ne)?索性挖个大坑吧!


这就是数据湖(hú)的原型。

说白了,数据湖(hú)就像一个“大水坑”,是一种把各类异构数据进行集中存储的架构。

為(wèi)什么不是数据河Data River?

因為(wèi),数据要能(néng)存,而不是一江春水向东流。


為(wèi)什么不是数据池Data Pool

因為(wèi),要足够大,大数据太大,一池存不下。

為(wèi)什么不是数据海Data Sea

因為(wèi),企业的数据要有(yǒu)边界,可(kě)以流通和交换,但更注重隐私和安全,“海到无边天作岸”,那可(kě)不行。

so,数据湖(hú),Data Lake,刚刚好。

可(kě)是,概念虽好,把这个“水坑”用(yòng)好却不容易。

1、这个“坑”挖在哪儿?怎么挖?“挖掘机”贵不贵?

2、这“坑”挖好后,这么把各种水都引过来灌到坑里?

3、灌了半坑水,如何才能(néng)把他(tā)们利用(yòng)起来?

这些,就是当下数据湖(hú)面临的挑战:如何建湖(hú)?如何做数据ETL?如何使用(yòng)数据。

首先,数据湖(hú)是一种存储架构,本质上讲是存储,所以,AWS就用(yòng)了自己最经典的S3存储,来当数据湖(hú)的地基。


企业基于云服務(wù),可(kě)以快速挖出一个适合自己的“湖(hú)”,而且这个“湖(hú)”根据需求,可(kě)大可(kě)小(xiǎo),按“注水量”付费。

接下来,就是如何把企业的各种异构数据注入到湖(hú)里,也就是我们前面说过的“ETL”,看起来很(hěn)麻烦。

有(yǒu)个非常酷的产品叫AWS Glue,这简直就是个自动化数据分(fēn)拣机,可(kě)以快速完成复杂的ETL过程,处理(lǐ)完的数据,既可(kě)以注入数据湖(hú),也可(kě)以给数仓或数据库用(yòng)。


Glue神器有(yǒu)两个特色

①它能(néng)自动化的生成元数据目录,大大简化数据管理(lǐ)工作量;

②它是无服務(wù)器架构的,呼之则来,挥之则来,一次还可(kě)以整好多(duō)台,开足马力处理(lǐ)数据。

目前这个神器已经在AWS中國(guó)(宁夏)區(qū)域和(北京)區(qū)域正式上線(xiàn)了。

同时,还有(yǒu)一个工具,也同步上線(xiàn),叫做Amazon Athena


这个工具,让我们可(kě)以用(yòng)标准的SQL,对存储在S3里的数据进行查询,不管是结构化的还是非结构化的。

这就意味着,大家可(kě)以用(yòng)最熟悉的SQL,轻松在S3硬地里“吃土”,当然也能(néng)在湖(hú)里“划水”,轻松进行数据洞察。


数据入湖(hú)之后,并不是简单摸鱼划水就完事了,光有(yǒu)Athena做查询还很(hěn)不够。

AWS提供了一系列的工具,让企业能(néng)进行“湖(hú)底大开发”,满足各种各样的业務(wù)需求。


数据湖(hú)发展到现在,已经成為(wèi)企业数据體(tǐ)系的基础:数据库、数仓、大数据处理(lǐ)、机器學(xué)习等各种数据服務(wù),都可(kě)以“一湖(hú)尽收”。任何想构建“数据中台”的企业,都可(kě)以在AWS找到全面的解决方案。

在这个“上云用(yòng)数赋智”时代,很(hěn)多(duō)企业已经完成上云第一步,接下来,就是如何“用(yòng)数”和“赋智”。

AWS一起,挖个“坑”,建个“湖(hú)”,正当时!