大数据特性对统计应用上的际遇和冲击
大数据的独特性对传统的统计方法发出了挑战,刺激着新的,适用于大数据分析的统计方法的发展。本文提到的一些际遇和问题,一部分是作者自己的观点,一部分摘自其他文章( (Fan, Han, & Liu, 2014) (Wang & Wang, 2014)。
相较于统计文章的专业写作手法,作者试图用更浅显易懂的说法来介绍这些问题,让一般的读者对此也能有一定的了解并对此产生兴趣。传统数据一般来说是样本量远远大于感兴趣的因素,比如一数据有 200 条记录关于个人是否有心血管病,可能相关因素为性别,年龄,血压。这儿只有 4 个因素,但样本量为 200(200>>4)。
而大数据则拥有海量的样本及相当多的因素。还是用心血管的例子,现在比如我们有了几万条记录的样本量,但同时也拥有了上百个的因素,各种以前没法收集的因素都收集了,像运动与否,运动量如何,运动类型,饮食习惯,饮食内容,喝酒与否,喝什么酒,喝酒习惯次数等等。这使统计中对数据的研究应用得到了新的际遇同时也面临了新的挑战。
数据异质性(heterogeneity)
数据异质性,可以简单理解成一个大样本数据里有很多小样本,每个小样本有着不同的数据特征,比如小样本的平均值有高有低,离散程度有密有疏,就好象海洋中有着不同温度,不同密度的各种洋流一样。我们不能简单的只在大样本的层面进行统计分析,这样得出的结果如果被用于对小样本或样本中的个体的估计或预测时就会出现偏差,因为每个小样本可能有着一些它自己独特的特征。
在数据样本小的时候,里面的小样本相应的就更小。 这种情况下小样本里的数据记录可能只有一,两个,它们只能被当作异常值处理,无法分析。而在大数据里,这种具有独特特征的数据记录收集出现多了,就拥有了被统计分析的条件,从而使我们更好地探究特定因素的关联性,理解这些数据异质性。比如有些只在特定人群里发生的极其罕见的疾病,大数据使我们得以研究发病原因,发病风险因素;理解为什么有些治疗方法对某些人群有利,而同样的方法对另一人群却有害,等等。
同样,由于海量样本和巨多的因素存在于大数据里,信息的复杂度也会增加不少,受复杂度的影响,可能导致统计上的过度拟合(overfitting)。过度拟合就是指我们建立了一个复杂的统计模型,它能很好的描述现有数据的情况,但当我们想把这模型应用到预测新数据时,它的表现却相当差。比如图九所示:
图九
图九左边上的曲线是我们针对蓝点 (当作现有数据) 做出的模型,基本上能很好的描述蓝点的分布及曲线和蓝点的吻合度较高。用这曲线去描述黄点(当作新数据),吻合度也还不错。图九右边的曲线则完全通过了每一蓝点,吻合度极高,完全描述了蓝点的复杂特性。然而,它在描述黄点时,吻合度就差多了,偏差就比左边的曲线大不少。简单来说,数据越复杂,需要考虑的因素越多,建立普遍有效的统计模型的难度就越大。
偏差识别(Bias accumulation)
分析数据时,我们需要估计或测试很多参数用以建立可靠的统计数据模型。期间不可避免会产生偏差,这些估计中产生的偏差积累,很大程度上受着数据量大小及参数多寡的影响。 在一般小数据时,这问题可以并不显著。但在大数据的情况下,这问题就变的相当值得注意。 我们用一简化的例子来说明这个问题。
假设我们有两组数据 A 和 B,A 组数据收集估算时没有偏差,所有样本数值都为 1000。B 组数据,实际所有样本数值也是 1000,但存在偏差,而且偏差随收集样本量的增加呈指数式成长(为了说明情况,偏差指数式成长是一个很极端的例子)。每增加一个记录,偏差增长公式为:
这样 B 组第一个记录包含偏差为 1.001=1.0011. B 组第一个值为 1000×1.001=1001. B 组第二个记录包含偏差为 1.002001=1.0012. B 组第一个值为 1000×1.002001=1002.001. B 组第十个值为 1000×1.01004512=1010.045. 这样如果是小数据 n=10, A 组数据其实和 B 组数据比起来相差是不大的。B 组内的每一个数字增加的偏差不足以引起注意,如果 2% 以内的偏差都可以接受的话。