人们将面临大数据无法进行预测分析的挑战

如今,大多数人认为在大数据时代,人们总是有足够多的信息来建立强大的分析,然而事实并非如此。在某些情况下,即便是大量的数据也仍然不支持基本预测的正常进行。很多时候,我们并没有太多可以做到的事情,除了承认事实和坚持基本知识。这是大数据不能被用来预测的挑战,似乎也是一个不可能的悖论,但是却引来人们探讨为什么会是这样。

大009

情景1:大数据,小宇宙

举一个例子,当事物很少却有大量的数据时,很难找到有意义的模式。以一家航空公司的制造商为例,如今,每架飞机每小时运行产生上千兆字节的数据。诸如发动机在不同条件下操作,分析这些操作数据有很多好处。然而这对于一些分析行为来说可能很困难,如预测性维护。这是为什么?

人们意识到,即使是最大的飞机制造商,每年也只能生产出几百架飞机。在考虑不同模型的时候,一年中可能只有几十个模型被生产出来。纵使飞机全部装满传感器,也很难开发有意义的预测部件故障模型。为什么?因为只有几十或几百架飞机,样品的数量太小。

特别是对于新飞机来说,这种情况还会加剧一些问题的出现(例如发动机或发动机部件之类的故障率较低)。因此,尽管可以在几年的操作中收集PB的数据,但是可能没有足够的飞机来创建足够大的事件池,从而构建真正有效的预测模型。当然,人们可以监测数据,寻找支持调查或干预的异常模式,但是这不是一个预测模型。

情景2:大数据,大宇宙,令人难以置信的罕见事件

还有其它情况,那就是有大量的人或事物需要分析大量的数据。然而,当事件非常罕见时,仍然可能遇到一种情况,即没有足够的样本来构建真正有效的预测模型。这并不是说,人们在分析数据和理解行为的各个方面没有很多价值。它只是说,有可能不能建立有效的预测模型。

让我们考虑一下计算机芯片的生产情况。全球每年产生数亿甚至数十亿片芯片,并且其速度在不断加快。几十年前,一千个或一万个的数量级缺陷可能是可以接受的。对于当今的芯片产品,其缺陷可能需要更接近百万级。曾经有客户提出,汽车行业面临着压力,需要将芯片缺陷率降低到十亿分之一或更低。这是为什么?主要是因为如果实现这种低错误率,并且人们可以假设导致有缺陷芯片存在的原因,则对于任何特定的一组原因,其发生任何缺陷的实例会变少,人们可能没有足够的样本来分析,但能够产生良好的模型以预测这些失败可能发生的时间和地点。人们考虑到芯片技术将随着时间的推移而过时,在短短几年内被更新的产品所替代,因此,这可能是一个持续时间比较久的问题。

不要绝望,做好准备

请记住,在这里提出的问题并不是什么规则,而只是样本。然而,随着人们收集数据的来源越来越多,企业开始考虑用越来越多的因素来分析业务,这些异常样本肯定会出现在组织内部。重要的是,人们只需要关注一个非常小的宇宙来分析,或者通过一个令人难以置信的稀有事件来分析。更糟糕的是,这种罕见事件是小宇宙中的。假设只考虑数据与业务问题相关的情况,而那些不相关的数据将永远不会增加价值,无论其数量多么大或多么小。

当人们不确定自己的数据是否是有效预测时,请确保在用于开发数据的复杂分析之前投入更多精力,其评估可能是可行的。在某些情况下,人们可能需要解决基本分析问题。然而,重要的是要记住,这种情况应该比没有任何数据来分析更好。

(中国IDC圈独家翻译,未经允许,禁止转载!)