那么我们实际上更精确的说是看 0 是否落在样本差值的置信区间内(置信区间的上限和下限和上面提到的第一统计错误率是相一致的,有一个 5% 的概念在里面,这儿就不详细介绍了。反正是否落在置信区间里否也可以用来判断统计学上是有意义还是没有意义)。落在里面我们就说是统计学上是没有意义的也就是两组数据的平均值是一样。不落在里面我们就说是统计学上是有意义的也就是两组数据的平均值不一样。如图十一所示:
图十一
那为什么在样本数据量为 1000 和 上万上百万的情况下结果会不一样。这儿我们进一步要讲的就是样本数量和置信区间之间的关系了。随着样本数量的增加,样本差值会和真实的总体数据差值接近(不一定就是 0 哦),同时不确定性会减小,置信区间会缩短,其实就是估计的差值越来越精准了。这种情况下,就算样本差值是非常接近 0 的一个数(就是说我们都觉得两组数据的平均值是一样的了),但是由于置信区间的缩小,0 仍旧会落在置信区间的外面(如图十一,下部分 2 所示)。
这样一来,结果就会是统计学上是有意义的:两组数据的平均值是不一样的。现有的统计方法运用在大数据时会带来这样的一种错误信息。这是因为现有的传统统计方法是针对小数据的,在被提出的时候,还没有面对过或想到数据量可以如此庞大。如何解决如何改进由于这样的数据特性带来的问题,我们还在研究的路上。
羊群效应(herding effect)
大数据时代,我们的社会已经在越来越多的把个人的观点数字化,汇总化,并依赖于此做出决策(比如根据收集到的评分来进行产品或服务的推荐)。这一现象在医疗界也渐渐的变的普遍起来。好多辅助医疗应用软件在移动平台上都会有使用者的评分,人们会根据评分来选择是否使用一下。某些医疗网络平台推出的服务,比如网络问诊,使用者也可以对提供服务的医疗人员进行满意度的评分,进而影响他人决定是否选择此医疗人员来进行问诊咨询。
利用这种“众人的智慧”的一个关键要求是个人意见的独立性。然而,在现实的世界中,汇总收集的集体意见却很少是由互不相干的独立的个体意见所组成的。最近的实验研究证明先前已经存在的收集到的意见会歪曲随后个人的决策还有对质量及价值的认知。凸显出了一个根本的差异既: 我们从集体意见感知到的价值和产品本身固有的价值之间的差异。
产生这种差异的原因在于“羊群效应” 。羊群效应简单的描述就是个体的从众跟风心理和行为。羊群是一种很散乱的组织,平时在一起也是盲目地左冲右撞,但一旦有一只头羊动起来,其他的羊也会不假思索地一哄而上,全然不顾前 面可能有狼或者不远处有更好的草。因此,“羊群效应”就是比喻一种从众效应,很容易导致盲从,而盲从往往会陷入认知偏差,决策偏差。
IBM Watson 研究中心 (Wang & Wang, 2014) 使用大规模纵向的客户评分数据集(亚马逊的)并建立统计模型演示了评分和意见的产生不是独立,均匀的过程,而是创建了一个环境进而影响以后评分或意见的产生。体现在这种社会化的客户评分系统中的“羊群效应”具体表现为:高评分倾向于产生新的高评分同时抑制低评分的产生。
接下来的问题就是:什么是真实的符合产品真正质量的评分如果我们能把“羊群效应”给剔除出去的话? 应用 IBM Watson 研究中心建立的统计模型能够部分回答这个问题。他们对亚马逊的四类产品数据(书籍,电子产品,电影电视,和音乐)进行了内在评分(剔出“羊群效应”)和外在(没有剔出“羊群效应”)测试。所有四个类别,50%以上的产品评分的差异大于 0.5。这个差异,说明我们从集体评分中得来的感知和产品的真实价值之间存在着显著的差异。
再深一步,鉴于产品现在的评分,如果我们施加一定的人为操纵,“羊群效应”会如何影响今后的评分?这样的预测分析对于很多领域都是相当有价值的,包括市场盈利估计,预算广告和欺诈操纵检测等。例如,在决定是否对以产品进行促销活动之前,市场分析师可能希望估计由于推广而出现的短期高评分对产品的长期影响。
研究中心通过对两类产品(电影电视,和音乐)插入 50 个人为 5 星级的评分,预测到虽然这两种产品在受欢迎程度上遇到类似的短期高评分,从长远来看,推广对于电影及电视类产品有着更持久的影响(高评分消减的更慢)。这对于市场分析的决策提供了很有价值的情报。