亚信科技戴一鸣:论大数据的十大局限

必须承认,我们处于一个不确定的世界里,有许多事件是无法预测的。过分依赖大数据和预测模型是危险的,因为有许多决定性的影响因素都不能纳入模型参数的覆盖范围之内。从天气预报、地震预测、足球比赛到金融危机等等,都对这一点做了很好的诠释。

8、误导性:数据也会说谎

与大数据的代表性、真实性、完整性、解释性等局限性相关的,对统计现象只看结果不重解释,很可能导致错误甚至危险的结论。二战时期英国与德国的空战中,工程师发现,每次战斗机回来机翼上都带有很多枪眼,因此认为机翼是最容易受到攻击的地方,需要进行特别防护。可是增加防护之后,飞机的损失率不但没有降低,反而提高了。问题究竟出在哪呢?原来工程师们被这一统计结果误导了,从而采取了错误地防护措施。对机翼枪眼的统计只针对成功返航的飞机,而那些不幸的飞机被击落的原因并没有被统计和发现。相反,机翼受损还能飞回来,说明机翼被攻击并不是飞机被击落的主要原因。至于为什么增加防护后飞机损失率反而提高了,原因很简单,因为负荷增加降低了飞机的灵活性和航程。后来,工程师们反其道而行之,在没有枪眼的部位加强防护,因为这些部位被击中的飞机都没有返航,事实证明效果良好。

9、合法性:数据安全与隐私保护

大数据本身及其采集、使用过程都极有可能会涉及个人隐私、商业机密、公众权益和国家信息安全。因此,安全性和合法性问题构成了大数据价值发挥的限制性因素之一。

商业和技术很重要,但商业和技术背后的价值观更重要。

Google曾将"不作恶"作为自己的公司价值观;百度为了短期商业利益售卖多个贴吧,公然践踏公众隐私,结果遭千夫所指,万人唾骂。这些都充分反映了公众对隐私和信息安全的关注和重视。

白宫曾在2014年发表书面声明称,大数据创造的社会价值与经济价值得以遵从该国提倡的“隐私、公正、平等、自主”。中国政府在此方面虽然尚未立法,也从来没有明确的说法,但民众的基本权益和诉求理当被审慎考虑。

诚然,安全性、合法性要求限制了大数据的使用和商业价值的充分发挥,但从社会价值的角度来看,是值得的,也是必须的。

10、价值性:投入与收益的平衡

价值密度低是被公认的大数据特征之-,这也在一定程度上限制了大数据的研究和应用。

一方面,因为大数据的低密度价值特征,那么要使其价值达到可用的程度,就必须有足够规模的数据积累和有效的价值提取。以常规的监控视频为例,连续24小时的视频监控中,有用的数据可能仅有数秒。如何优化存储,并通过强大的机器能力迅速完成数据的加工处理和价值呈现,到目前为止还是大数据面临的一大难题。另一方面,大数据边际效用递增规律的存在,使许多企业、组织的数据无法达到基本的规模要求,从而也使其数据价值无法充分显现。

同时,前面讲到的大数据代表性、真实性、完整性、解释性上的不足及由此引起的结论误导,不仅会降低数据的价值,甚至可能产生负面作用。

除此之外,大数据的采集、存储、加工和使用所耗费的资金和时间成本都是非常高昂的。作为大数据投资主体,应该在投入和收益之间进行合理平衡。当前的确存在那么一种势力,为了某种目的极力鼓动企业进行大规模的大数据投资,如果不审慎评估,很可能得不偿失。

在此讲了这么多大数据的局限性,最后再次重申,并非要以此否定大数据的价值;同时,也要再次强调,大数据代表的只是信息,而非智慧。对世界的改造仅凭有限的信息是远远不够的,更需要人类取之不尽、用之不竭的智慧。只有用好了项上这颗六斤四,才能逐步突破大数据的局限性,更好地发挥大数据价值。