能从大数据中提取的信息会随着数据规模的增加而减少,Michael Wu(社交媒体分析公司Lithium的首席数据分析学家) 写道。这意味着越过了某一点后,继续增加数据所产生的边际数据回报率减少到如此地步,收集更多数据仅仅是浪费时间。
原因之一:数据越“大”,寻找相关性时错误信息会更多。正如数据分析家Vincent Granville在《 The curse of big data》(《大数据的诅咒》)中写道的:即使只包括1000个条目的数据集,也很容易会陷入处理几百万个相关分析的处境。”这意味着,“所有这些相关分析,有些可能会高度符合,但这仅仅是一种偶然:如果你使用这种相关分析作为预测模型,结果将会错误”。
这个错误经常在大数据的原始应用领域之一遗传学中突然出现。对基因组序列有兴趣的科学家苦心找寻其相关性而进行的无休止的研究,最终却得出了各种毫无益处的结果。
理由四,在某些情况下,大数据会令你茅塞顿开,但也可能会令你陷入困惑。
公司一旦开始使用大数据,就深陷于一系列艰涩学科的研究中——统计,数据质量,和其他构成“数据科学”的一切。就像那些每天都需要发表出版物的科学,经常会被忽视或是被修正,或是从未被证实,这之中的陷阱实在太多了。
数据收集方式的偏见,上下文的缺乏,数据聚集的缺口,数据的人工处理模式和整体认知偏差都会导致即使最好的研究人员也可能发现错误的相关模型, 麻省理工学院媒体实验室客座教授Kate Crawford说:“我们可能会陷入某种算法幻觉中”。换句话说,即使你有大数据,也并非IT部门的任何人都能处理的,他可能需要有博士学位或等量经验。当处理完成后,他们的答案可能是你并不需要“大数据”。