大数据是“原油”，不是“汽油”_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

大数据时代，审核数据的真实性也有了更有效的手段。大数据的特征之一是多样性，不同来源、不同维度的数据之间存在一定的关联度，可以交叉验证。例如，某地的工业产值虚报了一倍，但用电量和能耗却没有达到相应的规模。这就是数据异常，很容易被系统识别出来。发现异常后，相关部门再进行复核，就能更有针对性地防止、打击数据造假。

数据是一种资源，但数据又跟煤、石油等物质性资源不一样。物质性资源不可再生，你用多了，别人就用少了，因而很难共享。数据可以重复使用、不断产生新的价值。大数据资源的使用是非恶性竞争的，共享的前提下，更能够制造双赢。从另一个角度来说，数据如果不被融合、联系在一起，也不能称之为大数据。

大数据不能被直接拿来使用，统计学依然是数据分析的灵魂

现在社会上有一种流行的说法，认为在大数据时代，“样本=全体”，人们得到的不是抽样数据而是全数据，因而只需要简单地数一数就可以下结论了，复杂的统计学方法可以不再需要了。

在我看来，这种观点非常错误。首先，大数据告知信息但不解释信息。打个比方说，大数据是“原油”而不是“汽油”，不能被直接拿来使用。就像股票市场，即使把所有的数据都公布出来，不懂的人依然不知道数据代表的信息。大数据时代，统计学依然是数据分析的灵魂。正如加州大学伯克利分校迈克尔·乔丹教授指出的，“没有系统的数据科学作为指导的大数据研究，就如同不利用工程科学的知识来建造桥梁，很多桥梁可能会坍塌，并带来严重的后果。”

其次，全数据的概念本身很难经得起推敲。全数据，顾名思义就是全部数据。这在某些特定的场合对于某些特定的问题确实可能实现。比如，要比较清华、北大两校同学数学能力整体上哪个更强，可以收集到两校同学高考时的数学成绩作为研究的数据对象。从某种意义上说，这是全数据。但是，并不是说我们有了这个全数据就能很好地回答问题。

一方面，这个数据虽然是全数据，但仍然具有不确定性。入校时的数学成绩并不一定完全代表学生的数学能力。假如让所有同学重新参加一次高考，几乎每个同学都会有一个新的成绩。分别用这两组全数据去做分析，结论就可能发生变化。另一方面，事物在不断地发展和变化，同学入校时的成绩并不能够代表现在的能力。全体同学的高考成绩数据，仅对于那次考试而言是全数据。“全”是有边界的，超出了边界就不再是全知全能了。事物的发展充满了不确定性，而统计学，既研究如何从数据中把信息和规律提取出来，找出最优化的方案；也研究如何把数据当中的不确定性量化出来。

所以说，在大数据时代，数据分析的很多根本性问题和小数据时代并没有本质区别。当然，大数据的特点，确实对数据分析提出了全新挑战。例如，许多传统统计方法应用到大数据上，巨大计算量和存储量往往使其难以承受；对结构复杂、来源多样的数据，如何建立有效的统计学模型也需要新的探索和尝试。对于新时代的数据科学而言，这些挑战也同时意味着巨大的机遇，有可能会产生新的思想、方法和技术。

2/2 首页上一页 1 2