信息爆炸引爆了大数据时代的到来,前一两年大数据到达了炒作的高峰,而马云则称今后 30年 属于数据技术(DT)。但是最近一段时间大数据似乎没有那么大的动静了,这固然有技术炒作周期曲线的规律作用,也跟大数据遭遇到的一些瓶颈有关。
这个最大的瓶颈之一便是人。隐藏在大数据里面的模式挖掘很长程度上需要依靠人的建模和直觉,但是数据科学家的数量却跟不上大数据的规模发展。不过 MIT 正在为打破这个瓶颈而努力,其研发的一款名为 Data Science Machine(数据科学机器)的软件实现了无人参与下的大数据分析,经过对比发现,其表现已经与数据分析师不分高下。
Data Science Machine 由 MIT CSAIL 的 Max Kanter 和他的指导老师 Kalyan Veeramachaneni 等人设计。其关键突破是它不仅会寻找模式,还会自己设计特征集。学机器学习的人都知道特征工程的重要性。特征工程是指利用数据的领域知识来创建特征以便让机器学习算法可以工作的过程,这个过程往往需要人的直觉。而 Data Science Machine 却利用了关系数据库的不同表间的结构化关系作为线索来进行特征构造,从中生成一批候选的特征集,然后再通过分析值的相关性来缩小特征集的范围,从而免去了人的参与。然后,Data Science Machine 还会把这个特征集运用到样本数据上,再用不同的方式重新组合特征来优化预测的准确率。
为了测试这套系统的第一款原型,研究人员让它参与了三项数据科学方面的竞赛,竞赛的目标是在不常见的数据集中寻找出预测性的模式。三场竞赛供有 906 支队伍参加,Data Science Machine 的成绩比其中的 615 支队伍都要高。
在准确率方面,Data Science Machine 在其中两场竞赛的准确率分别达到了 94%和 96%。另外一场的准确率略低,为 87%。但是效率方面却是人类不能比的,因为 Data Science Machine 得出结果用时在 2-12 小时之间,而人类团队的预测性算法往往要折腾数月的时间。
目前 Data Science Machine 已能对哪些学生有可能退出 MIT 的在线课程做出分析,它选出的两个特征分析学生开始写作业时间的早晚,以及在网上学习课程的时间长短。尽管这种能力看起来还不够强大,但是这只是开始,一旦机器具备真正的自我学习能力,在计算能力指数增长的作用下,其进化速度将是我们难以想象的。