主讲人:熊辉
主持人:赵国栋
承办:中关村大数据产业联盟
熊辉先生是美国罗格斯—新泽西州立大学罗格斯商学院管理科学与信息系统系副系主任,终身教授。主要研究领域包括:数据挖掘、大数据、商务智能、移动计算,和信息安全。获得2009罗格斯大学最高学术奖。还应邀连续参与组织国际顶级会议(如KDD, ICDM,ICML,ICDE和SDM),并担任国际会议组织委员会委员/主席。他目前还担任IEEE Transactions on Knowledge and Data Engineering (TKDE)和Knowledge and Information Systems(KAIS)副编辑,中国计算机学会通讯专栏编委,和中国计算机学会大数据专委。
以下为分享实录全文:
我的背景比较特殊,我是计算机系的博士,也是在美国第一个从计算机系博士毕业直接拿到商学院教职的中国人。因为大数据应用的成败依赖于技术和领域两方面的能力,我有机会处在一个比较独特的位置就计算机技术和商业应用的结合,谈一点我个人对大数据粗浅的认识。
1995年,我本科毕业的时候,正逢深圳下海创业大潮, 就去了深圳。工作半年后,第一次感觉到人生的苦闷彷徨。于是大量阅读中国历史,哲学,兵书。开始重新思考人生的发展方向。当时给自己定的未来职业必须满足三个要求:
1)是自己真正感兴趣的职业; 2)个人价值会随着年龄而增长; 3) 不论国家经济的兴衰,职业都必须有很高的安全保障。
当时正好数据挖掘概念出来,并幸运的了解到这个概念。马上有种说不出来的亲切的感觉,数据挖掘就应该是自己的终身职业。数据挖掘这个职业就满足自己定的三个要求。
首先,我对历史,兵书,算命感兴趣。数据挖掘做的事情就是从历史预测未来,从不确定性中寻求确定性,从复杂多变的事物中寻找规律。这些都是自己平常兴趣所在。
其次,个人体会,从事数据挖掘实践多了,人会变得更聪明,判断会更准确。经验积累多了,个人价值自然会随着年龄的增长而提升。比如,我现在的咨询费就比2005年高了许多,因为更有经验,做事更高效。(编者注:熊老师本科学的自动化专业)
最后,因为整个人类社会的发展越来越依赖信息技术,对数据挖掘专业人才的需求只会越来越大。同时,数据挖掘这个专业对人才的全面性要求很高,数据挖掘人才需要有很强的领域知识和技术知识。中国教育的学科划分,客观导致培养出来的人才很难跨界。换句话说,要想做好这个行业,门槛是很高的。所以,优秀的数据挖掘人才职业保障性是很高的。其实在古代就有很多数据挖掘的高手,像刘伯温,赵列文等。
数据挖掘这个概念地提出就是要解决海量数据的分析问题。那么,现在为什么提出新的大数据概念?其根本原因是数据驱动性应用的井喷式发展并产生很多新的应用要求。现在很多的应用,比如高频数据交易和网络社交媒体,产生的数据不但量大,而且处于不断动态变化过程中。打个比方,以前我们是在清晰的小溪中捕鱼,现在我们是在湍急浑浊的长江中捕鱼。解决这些新型大数据应用需要我们有及时观察,及时分析,和及时解决问题的能力。
数据挖掘这个职业特别象医生。来自不同领域的具有不同特性的数据就象医生所面对具有不同病症的病人。和医生一样,数据挖掘人才必须要从实践中成长。实际上,我的科研总是和实践紧密结合,我的很多科研问题都是从实践中产生的。谈几点体会:
1) 最难的是问题提炼,换句话说,怎么从一个实际应用场景发现一个有价值的问题。这需要很强的领域知识,要能够深入到商业流程中去发现商业的痛点,并有能力把实际的商业痛点抽取成一个数学问题。举个例子,我们给一个美国500强大企业做B2B市场分析,其目的就是要发现有价值新客户,挖掘现有客户,并缩短签合同的时间。这些是真正的商业需求,但如何转化成数据挖掘问题?因为现在全新的,微观化的数据收集手段,我们有机会对人,整个商业流程进行细节化的观察,并加以分解,可以找到不efficient环节,把不efficient变efficient了,整个商业流程更高效。
2) 对于多数数据挖掘项目, 最花时间和精力的是Feature Engineering。很多预测项目的成败不在乎模型,在乎提取合适的特征。在很多情况下,特征提取要求对领域充分了解。像医生看病一样,有很多经验的东西在这里。我通常做项目有70-80%的时间在了解数据,进行数据预处理