不能仅用有偏的数据。数据一定要全面地反映未来, 对各个方面都有所涉及。如果数据是有偏的,则很难对未来进行有效地判断。
不能保证包含有效的信息。当数据中的关键特征缺失时,大数据就无法矫正数据与现实之间的偏差,尤其是对于那种与人的心理和行为相关的数据,非常容易产生偏差。问题的关键是:研究之前,专家并不知道哪些特征是关键特征。比如股价受到“黑天鹅”事件影响,使得无法用大数据预测关键事件发生的概率。这就像一个输入管道:垃圾输入导致垃圾输出。这也是为什么某些电影的实际票房和从网上评价数据得来的结果是背道而驰的。
不能保证减小噪音。这是因为在大数据里面,噪音数据的出现往往会以有意义的模式的形式出现,从而骗过知识挖掘系统。这样,大数据可能带来更大的噪音。
Q10:后大数据时代的技术趋势是什么?
大数据所带来的变革,只不过是计算机技术为整个人类带来变革当中的一步。计算机从上世纪五十年代起,就在人类历史上开始了潜移默化的革命。这个革命的根本标志就是人类社会和行为的数字化,以及两个世界(物理世界和虚拟世界)的无缝融合。在这场革命中,人类传统的行业一个接一个被数字化行业取代:从金融系统到电子商务,从机器人制造到无人驾驶汽车……
所以,大数据变革与人类历史上其他重要变革是一样的,需要经过资源( 即大数据) 的原始积累,商业和社会服务的差异化,直到人类对虚拟世界的行业、社会进行再规范,以解决数据资源分配。这个历史过程在上一个工业革命(十八世纪机器革命)时经过了一百多年,但在这一次的革命中,将以更快的形式发生。
以此推论,由大数据引发的下一代技术很可能是更大规模的、面向数字化行业的转变, 这使得现在物理世界里的众多传统行业将全面或部分地转向数字世界,进行融合。这个转变也让许多领域以另一种形式出现, 使得许多行业在整体“食物链条”上下游有所改变。到了那一天,医生、科学家和教师等“高大上”行业是否会成为大数据输送原料的数据采集和解释分析结果的“工人”? 或是成为在大数据驱动下的人工智能机器人的伙伴?这些都引人深思。
文/ 杨强 香港科技大学计算机科学及工程学系教授 华为诺亚方舟实验室主任(2012-2014)