制约大数据发展的核心因素是什么?

本文尝试从大数据产业链的各环节入手,谈谈当前制约其发展主要因素。

众所周知,大数据按照处理流程可以分为三步:

大数据采集和清洗 大数据存储和分析 大数据展现和应用

从以上这三个方面,我想谈谈制约大数据发展的几个核心问题。

一、大数据采集和清洗

1.1 数据法规:用户隐私如何保护、商业规则如何制定、法律规范如何制定等等一系列法律法规都大大滞后于大数据科学的发展速度。由于技术EXE所限,纸上谈兵TXT成为常态。当前数据法律法规未明,采集方式八仙过海,预计未来很多大数据业务都将会继续游走在灰色地带,只有当商业运作初具规模并开始对消费者和企业产生影响之后,相关的法律法规才会被迫加速制定出来。(法律大数据研究与应用)

1.2 数据质量:由于大数据产业刚刚起步不久,目前在具体的某一领域或行业内,尚未有成型的数据采集、加工、分析和应用链条,大量数据源未被激活,包括政府在内的很多权威数据机构,普遍存在数据缺失、噪音多各方面的问题。举个栗子,如果一个电商网站销售额的20%是与推荐系统相关的时候(亚马逊是35%Was Amazon’s recommendation engine crucial to the company’s success?),投入和产出是不成比例的,这也是很多小微企业难以为继的原因,技术上每1%的进步都需要100%的汗水和努力,1%的误差都会极大地影响企业的市场份额。

1.3 数据人才:去年我参加了「2016年中国大数据产业峰会」,当时清华大学的一名教授预言:

未来 3 年,中国需要 大约 180万大数据人才,但目前只有约 30万人。

作为国内TOP2的知名学府Tsinghua当然不会落后,2014年就开始了动作( 清华大学培养跨学科交叉融合数据科学研究生),虽有些跟风的嫌疑,但至少是顺应发展。由于数据人才稀缺,大多数数据企业没有数据价值外化、将数据变现的有效路径,只能躺在金矿上睡觉。而在实际项目实施过程中,数据专家们不得不花费大量时间在数据清洗上,对原本就稀缺的数据人才其实是一种资源浪费。另一方面,数据专家们不但需要解读大数据,同时还需深谙某行业发展各个要素之间的关联,甚至包括策划、管理、执行等许多具体要素,这里就不赘述了。

大数据1

图 1.1 清华大学互联网大数据研究中心)

二、大数据存储和分析

2.1 数据隐私:理论上,用户和企业的原始数据沉淀在数据平台上(如BAT),数据平台在未获授权的情况下不能提供给第三方,但实际情况是用户对原始数据的占有获取权及公开权基本取决于用户与平台达成的协议「用户须知」,加上互联网本身的开放性和某些企业故意作恶,用户基本无法捍卫自己的数据财产所有权。大数据2

(图 2.1 某网站的免责声明)

2.2 数据安全:棱镜计划(PRISM)曝光,我们知道美国政府已可以从电邮、短信、视频、照片、存储数据、甚至语音聊天等全方位对人进行监控,大数据挖掘让互联网世界已无死角可言。这同时证明黑客攻击方的能力和范围已无限升级。中国最顶尖白帽团队Keen的创始人王琦说:

大数据时代,数据就是钱。

数据黑客可以从互联网中盗取各种数据,互联网地下社工库(互联网社工库的传说,这个是真的存在吗?)就是最好的证明。

三、大数据展现和应用

3.1 数据展现:众所周知,数据的价值无法估量,但只有在被展现时才能发挥出来。高维数据可视化目前仍是一个棘手的问题,比如如何判断当前降维算法是否是合适?如何选择合适的数据展现方法?仍然拿推荐系统来举栗子,推荐的准确率、覆盖率、多样性、惊喜度等应该如何取舍才能提高用户满意度?这些都需要数据分析师对业务和技术都有相当程度的了解,因为数据科学本身是一个交叉学科,涉及统计学、计算机科学、商业领域经验等多种知识。

3.2 数据产业链:如果没有对某个行业整体产业链的宏观把握,单个企业仅仅基于自己掌握的独立数据,就无法建立产业链各个环节数据之间的关系,也就无法对业务发展和应用做出精准的判断(通俗说就是难以将数据变现)。数据分析师如何将大数据层面上的关联具象到行业实践中?如何如何制定可执行方案应用数据挖掘的结论?当前的现时情况需要处于大数据生态圈中的企业需要进行合作,方能实现共赢。