一个资深数据人对数据挖掘解读

行业动态 >
资讯详情

2017/03/27

2053 文(wén)章来源：优百

在银行做了两年的数据分(fēn)析和挖掘工作，较少接触互联网的应用(yòng)场景，因此，一直都在思考一个问题，“互联网和金融，在数据挖掘上，究竟存在什么样的區(qū)别”。在对这个问题的摸索和理(lǐ)解过程中，发现数据挖掘本身包含很(hěn)多(duō)层次。并且模型本身也是存在传统和时髦之分(fēn)的。本文(wén)就想聊聊这些话题。

一、数据挖掘的层次

一直想整理(lǐ)下对数据挖掘不同层次的理(lǐ)解，这也是这两年多(duō)的时间里面，和很(hěn)多(duō)金融领域、互联网做数据相关工作的小(xiǎo)伙伴，聊天交流的一些整理(lǐ)和归纳。大概可(kě)以分(fēn)為(wèi)四类。

(一)纯粹的数据加工

侧重于变量加工和预处理(lǐ)，从源系统或数据仓库，对相关数据进行提取、加工、衍生处理(lǐ)，生成各种业務(wù)表。然后，以客户号為(wèi)主键，把这些业務(wù)表整合汇总，最终可(kě)以拉出一张大宽表，这张宽表就可(kě)以称之為(wèi)“客户画像”。即，有(yǒu)关客户的很(hěn)多(duō)变量和特征的集合。

在这个阶段，主要的数据加工工具為(wèi)SQL和SAS base。

(二)傻瓜式的挖掘工具

较為(wèi)典型的就是SAS EM和clementine，里面嵌入很(hěn)多(duō)较為(wèi)传统成熟的算法、模块和节点(例如逻辑回归、决策树、SVM、神经网络、KNN、聚类等)。通过鼠标的托拉拽，流程式的节点，基本上就可(kě)以实现你挖掘数据的需求。

傻瓜式操作的优点就是使得数据挖掘，入手非常快，较為(wèi)简单。但是，也存在一些缺陷，即，使得这个挖掘过程变得有(yǒu)点单调和无趣。没办法批量运算模型，也没办法开发一些个性化的算法和应用(yòng)。用(yòng)的比较熟练，并且想要进一步提升的时候，建议把这两者抛弃。

(三)较為(wèi)自由的挖掘工具

较為(wèi)典型的就是R语言和Python。这两个挖掘工具是开源的，前者是统计學(xué)家开发的，后者是计算机學(xué)家开发的。

一方面，可(kě)以有(yǒu)很(hěn)多(duō)成熟的、前沿的算法包调用(yòng)，另外一方面，还可(kě)以根据自己的需求，对既有(yǒu)的算法包进行修改调整，适应自己的分(fēn)析需求，较為(wèi)灵活。此外，Python在文(wén)本、非结构化数据、社会网络方面的处理(lǐ)，功能(néng)比较强大。

(四)算法拆解和自行开发

一般会利用(yòng)python、c、c++，自己重新(xīn)编写算法代码。例如，通过自己的代码实现逻辑回归运算过程。甚至，根据自己的业務(wù)需求和数据特点，更改其中一些假定和条件，以便提高模型运算的拟合效果。尤其，在生产系统上，通过C编写的代码，运行速度比较快，较易部署，能(néng)够满足实时的运算需求。

一般来说，从互联网的招聘和对技能(néng)的需求来说，一般JD里面要求了前三种，这样的职位会被称為(wèi)“建模分(fēn)析师”。但是如果增加上了最后一条，这样的职位或许就改称為(wèi)“算法工程师”。

二、模型的理(lǐ)解：传统的和时髦的

据理(lǐ)解，模型应该包括两种类型。一类是传统的较為(wèi)成熟的模型，另外一类是较為(wèi)时髦有(yǒu)趣的模型。对于后者，大家会表现出更多(duō)的兴趣，一般是代表着新(xīn)技术、新(xīn)方法和新(xīn)思路。

(一)传统的模型

传统的模型，主要就是為(wèi)了解决分(fēn)类(例如决策树、神经网络、逻辑回归等)、预测(例如回归分(fēn)析、时间序列等)、聚类(kmeans、系谱、密度聚类等)、关联(无序关联和有(yǒu)序关联)这四类问题。这些都是较為(wèi)常规和经典的。

(二)时髦有(yǒu)趣的模型

比较有(yǒu)趣、前沿的模型，大概包括以下几种类型，即社会网络分(fēn)析、文(wén)本分(fēn)析、基于位置的服務(wù)(Location-Based Service，LBS)、数据可(kě)视化等。

它们之所以比较时髦，可(kě)能(néng)的原因是，采用(yòng)比较新(xīn)颖前沿的分(fēn)析技术(社会网络、文(wén)本分(fēn)析)，非常贴近实际的应用(yòng)(LBS)，或者是能(néng)够带来更好的客户體(tǐ)验(数据可(kě)视化)。

(1)社会网络的应用(yòng)

传统的模型将客户视為(wèi)单一个體(tǐ)，忽视客户之间的关系，基于客户的特征建立模型。社会网络是基于群體(tǐ)的，侧重研究客户之间的关联，通过网络、中心度、联系强度、密度，得到一些非常有(yǒu)趣的结果。典型的应用(yòng)，例如，关键客户的识别、新(xīn)产品的渗透和扩散、微博的传播、风险的传染、保险或信用(yòng)卡网络团伙欺诈、基于社会网络的推荐引擎开发等。

(2)文(wén)本挖掘的应用(yòng)

文(wén)本作為(wèi)非结构化数据，加工分(fēn)析存在一定的难度，包括如何分(fēn)词、如何判断多(duō)义词、如何判断词性，如何判断情绪的强烈程度。典型的应用(yòng)，包括搜索引擎智能(néng)匹配、通过投诉文(wén)本判断客户情绪、通过舆情监控品牌声誉、通过涉诉文(wén)本判定企业经营风险、通过网络爬虫抓取产品评论、词云展示等。

文(wén)本和湿人。关于文(wén)本分(fēn)析，最近朋友圈有(yǒu)篇分(fēn)享，很(hěn)有(yǒu)意思，号称可(kě)以让你瞬间变成湿人。原理(lǐ)很(hěn)简单，就是先把《全宋词》分(fēn)词，然后统计频数前100的词语。然后你可(kě)以随机凑6个数(1-100)，这样就可(kě)以拼凑出两句诗。比如，随机写两组数字，(2,37,66)和(57,88,33)，对应的词语為(wèi)(东风、无人、黄花(huā))和(憔悴、今夜、风月)。组成两句诗，即“东风无人黄花(huā)落，憔悴今夜风月明”。还真像那么一回事，有(yǒu)兴趣可(kě)以玩一玩。

(3)LBS应用(yòng)

即基于位置的服務(wù)，即如何把服務(wù)和用(yòng)户的地理(lǐ)位置结合。当下的APP应用(yòng)，如果不能(néng)很(hěn)好地和地理(lǐ)位置结合，很(hěn)多(duō)时候很(hěn)难有(yǒu)旺盛的生命力。典型的APP，例如大众点评(餐饮位置)、百度地图(位置和路径)、滴滴打車(chē)、微信位置共享、时光网(電(diàn)影院位置)等服務(wù)。此外，银行其实也在研究，如何把線(xiàn)上客户推送到距离客户最近的网点，完成O2O的完美对接，从而带来更好的客户體(tǐ)验。

(4)可(kě)视化应用(yòng)

基于地图的一些可(kě)视化分(fēn)析，比较热门，例如，春节人口迁徙图、微信活跃地图、人流热力图、拥堵数据的可(kě)视化、社会网络扩散可(kě)视化等。

如果你想让你的分(fēn)析和挖掘比较吸引眼球，请尽量往以上四个方面靠拢。

三、互联网和金融数据挖掘的差异

博士后两年，对银行领域的数据挖掘有(yǒu)些基本的了解和认识，但是面对浩瀚的数据领域，也只能(néng)算刚刚入门。很(hěn)多(duō)时候，会很(hěn)好奇互联网领域，做数据挖掘究竟是什么样的形态。

很(hěn)早之前，就曾在知乎上提了个问题，“金融领域的数据挖掘和互联网中的数据挖掘，究竟有(yǒu)什么的差异和不同”。这个问题挂了几个月，虽有(yǒu)寥寥的回答(dá)，但是没有(yǒu)得到想要的答(dá)案。

既然没人能(néng)够提供想要的答(dá)案，那就，根据自己的理(lǐ)解、一些场合的碰壁、以及和一些互联网数据小(xiǎo)伙伴的接触，试图归纳和回答(dá)下。应该有(yǒu)以下几个方面的差异。

(一)“分(fēn)析”和“算法”

在互联网中，“分(fēn)析”和“算法”，分(fēn)得非常开，对应着“数据分(fēn)析师”和“算法工程师”两种角色。前者更多(duō)侧重数据提取、加工、处理(lǐ)、运用(yòng)成熟的算法包，开发模型，探索数据中的模式和规律。后者更多(duō)的是，自己写算法代码，通过C或python部署到生产系统，实时运算和应用(yòng)。

在银行领域，基本上，只能(néng)看到第一种角色。数据基本上来源于仓库系统，然后运用(yòng)SQL、SAS、R，提取、加工、建模和分(fēn)析。

(二)数据类型

数据类型，主要包括“结构化”和“非结构化”两类数据。前者就是传统的二维表结构。一行一条记录，一列一个变量。后者包括文(wén)本、图像、音频、视频等。

银行里面的数据，更多(duō)的是结构化数据，也有(yǒu)少量的非结构化数据(投诉文(wén)本、贷款审批文(wén)本等)。业務(wù)部门对非结构化数据的分(fēn)析需求比较少。因此，在非结构化数据的分(fēn)析建模方面，稍显不足。

互联网，更多(duō)的是网络日志(zhì)数据，以文(wén)本等非结构化数据為(wèi)主，然后通过一定的工具将非结构化数据转变為(wèi)结构化数据，进一步加工和分(fēn)析。

(三)工具、存储和架构

互联网，基本上是免费导向，所以常常选择开源的工具，例如MySql、R、Python等。常常是基于hadoop的分(fēn)布式数据采集、加工、存储和分(fēn)析。

商(shāng)业银行一般基于成熟的数据仓库，例如TD，以及一些成熟的数据挖掘工具，SAS EG和EM。

(四)应用(yòng)场景

在应用(yòng)场景上，两者之间也存在着非常大的差异。

(1)金融领域

金融领域的数据挖掘，不同的细分(fēn)行业(如银行和证券)，也是存在差别的。

银行领域的统计建模。银行内的数据挖掘，较為(wèi)侧重统计建模，数据分(fēn)析对象主要為(wèi)截面数据，一般包括客户智能(néng)(CI)、运营智能(néng)(OI)和风险智能(néng)(RI)。开发的模型以离線(xiàn)為(wèi)主，少量模型，例如反欺诈、申请评分(fēn)，对实时性的要求比较高。

证券领域的量化分(fēn)析。证券行业的挖掘工作，更加侧重量化分(fēn)析，分(fēn)析对象更多(duō)的是时间序列数据，旨在从大盘指数、波动特点、历史数据中发现趋势和机会，进行短期的套利操作。量化分(fēn)析的实时性要求也比较高，可(kě)能(néng)是离線(xiàn)运算模型，但是在交易系统部署后，实时运算，捕捉交易事件和交易机会。

(2)互联网

互联网的实时计算。互联网的应用(yòng)场景，例如推荐引擎、搜索引擎、广告优化、文(wén)本挖掘(NLP)、反欺诈分(fēn)析等，很(hěn)多(duō)时候需要将模型部署在生产系统，对实时响应要求比较高，需要保证比较好的客户體(tǐ)验。

四、数据挖掘在金融领域的典型应用(yòng)

别人常常会问，在银行里面，数据挖掘究竟是做什么的。也常常在思考如何从对方的角度回答(dá)这个问题。举几个常见的例子做个诠释。

(一)信用(yòng)评分(fēn)

申请评分(fēn)。当你申请信用(yòng)卡、消费贷款、经营贷款时，银行是否会审批通过，发放多(duō)大规模的额度?这个判断很(hěn)可(kě)能(néng)就是申请评分(fēn)模型运算的结果。通过模型计算你的还款能(néng)力和还款意愿，综合评定放款额度和利率水平。

行為(wèi)评分(fēn)。当你信用(yòng)卡使用(yòng)一段时间后，银行会根据你的刷卡行為(wèi)和还款记录，通过行為(wèi)评分(fēn)模型，判断是否给你调整固定额度。

(二)个性化产品推荐

很(hěn)多(duō)时候，你可(kě)能(néng)会收到银行推送的短信或者接到银行坐(zuò)席的外呼，比如，向你推荐某款理(lǐ)财产品。这背后，很(hěn)可(kě)能(néng)就是产品响应模型运算的结果。银行会通过模型，计算你購(gòu)买某款理(lǐ)财产品的概率，如果概率比价高的话，就会向你推送这款理(lǐ)财产品。

此外，很(hěn)多(duō)时候，不同的客户，银行会个性化的推荐不同的产品，很(hěn)可(kě)能(néng)就是产品关联分(fēn)析模型运算的结果。

(三)个性化广告展示

登陆商(shāng)业银行网站时，通常会有(yǒu)一个广告banner，banner上会展示若干幅广告。很(hěn)多(duō)时候，不同的客户登陆网站，会接触到不同的广告，即个性化的广告推送。一般来说，后台经过计算，会判断，你对哪几款广告和产品感兴趣，最后推送3-5款你最感兴趣的产品，从而能(néng)够有(yǒu)效吸引你的注意，促进点击、转化和成交。