互联网和金融在数据挖掘上究竟存在什么区别？_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

在银行做了两年的数据分析和挖掘工作，较少接触互联网的应用场景，因此，一直都在思考一个问题，“互联网和金融，在数据挖掘上，究竟存在什么样的区别”。在对这个问题的摸索和理解过程中，发现数据挖掘本身包含很多层次。并且模型本身也是存在传统和时髦之分的。本文就想聊聊这些话题。

一、数据挖掘的层次

一直想整理下对数据挖掘不同层次的理解，这也是这两年多的时间里面，和很多金融领域、互联网做数据相关工作的小伙伴，聊天交流的一些整理和归纳。大概可以分为四类。

数据挖掘

（一）纯粹的数据加工

侧重于变量加工和预处理，从源系统或数据仓库，对相关数据进行提取、加工、衍生处理，生成各种业务表。然后，以客户号为主键，把这些业务表整合汇总，最终可以拉出一张大宽表，这张宽表就可以称之为“客户画像”。即，有关客户的很多变量和特征的集合。

在这个阶段，主要的数据加工工具为SQL和SAS base。

（二）傻瓜式的挖掘工具

较为典型的就是SAS EM和clementine，里面嵌入很多较为传统成熟的算法、模块和节点（例如逻辑回归、决策树、SVM、神经网络、KNN、聚类等）。通过鼠标的托拉拽，流程式的节点，基本上就可以实现你挖掘数据的需求。

互联网和金融 在数据挖掘上究竟存在什么区别？