“大数据“这词不火了 是不是因为没当年说的那么好

大数据

10月19日消息,国外媒体Slate刊文指出,“大数据(Big Data)”一词已经变得没有以往那么红火了,为什么会这样呢?“大数据”的问题并不在于数据或者大数据本身很糟糕,而是在于盲目迷恋数据,不加批判地使用,那会引发灾难。数据也不一定完全反映你想要了解的事情的实际情况。

以下是文章主要内容:

5年前——2012年2月——《纽约时报》刊文高呼人类的一个新纪元的到来:“大数据时代”。该文章告诉我们,社会将开始发生一场革命,在这场革命中,海量数据的收集与分析将会改变人们生活的几乎每一个方面。数据分析不再局限于电子数据表和回归分析:超级计算的到来,伴随着可持续记录数据并将数据传送到云端的联网传感器的不断普及,意味着迈克尔·刘易斯(Michael Lewis)2003年的棒球书籍《Moneyball》所描述的那种先进数据分析有望被应用于各行各业,从商业到学术,再到医疗和两性关系。不仅如此,高端的数据分析软件还有助于鉴定完全意想不到的相关性,比如贷款方用尽额度和他债务违约的可能性之间的关系。这势必将会催生会改变我们思考几乎一切事物的新颖见解。

 

《纽约时报》并不是第一个得出这一结论的企业机构:它的文章引用了麦肯锡咨询公司2011年的一份重大报告,其观点也得到了2012年瑞士达沃斯世界经济论坛题为“大数据,大影响”的官方报告的支持。但这种宣言仿佛就是标志大数据时代开启的里程碑。在之后的一个月里,巴拉克·奥巴马(Barack Obama)的白宫成了一个2亿美元的国家大数据项目,疯狂热潮随即袭来:学术机构、非盈利组织、政府和企业都争相去探究“大数据”究竟是什么,他们可以如何好好利用它。

事实证明,这种疯狂没有持续很长时间。5年后,数据在我们的日常生活中扮演重要很多的角色,但大数据一词已经不再流行——甚至让人觉得有些讨厌。我们被允诺的那场革命究竟发生了什么呢?数据、分析技术和算法现在又在往什么方向发展呢?这些问题值得回头去思考。

科技咨询公司Gartner在它2015年相当有名的“技术成熟度曲线”报告中不再使用“大数据”一次,之后该词再也没有回归。该公司澄清道,这并不是因为企业放弃挖掘巨量数据集获得洞见的概念。而是因为那种做法已经变得广为流行,以至于它不再符合“新兴技术”的定义。大数据帮助驱动我们的动态消息、Netflix视频推荐、自动化股票交易、自动校正功能、健康跟踪设备等不计其数的工具背后的算法。但我们现在不大使用大数据一词了——我们只是将它称作数据。我们开始将数据集能够包含无数的观察结果,先进软件能够检测当中的趋势当做理所当然的事情。

大数据引发的严重错误

虽然该词仍有被使用,但它更多地带有一种不好的意味,比如凯茜·奥尼尔(Cathy O’Neil)2016年的著作《数学杀伤性武器》(Weapons of Math Destruction)或者弗兰克·帕斯夸里(Frank Pasquale)2015年的《黑箱社会》(The Black Box Society)。匆忙执行和应用大数据,即进行所谓的“数据驱动型决策”,带来了严重的错误。

有的错误相当惹人注目:塔吉特(Target)曾向一位没跟任何人说过自己怀孕的少女的家庭派送婴儿用品优惠券;Pinterest曾恭喜一位单身女性即将结婚;谷歌照片(Google Photos)也曾引发轩然大波,该公司被大肆吹捧的AI将黑人误以为是大猩猩,原因是它的训练数据不够多元化。(值得指出的是,至少在该事件中,“大数据”还不够大。)

其它的错误更为微妙,或许也更加阴险。当中包括奥尼尔在她的重要著作中记录的那些不透明的数据驱动式制度性模型:被法庭用来判决罪犯的、带有种族偏见的累犯模型,或者那些基于可疑的测验分数数据解雇备受爱戴的教师的模型。大数据出错的新案例可谓层出不穷——比如Facebook算法明显帮助俄罗斯通过针对性的假新闻影响美国总统大选的结果。

盲目迷恋数据与误用

“大数据”的问题并不在于数据本身很糟糕,也不在于大数据本身很糟糕:谨慎应用的话,大型数据集还是能够揭示其它途径发现不了的重要趋势。正如茱莉娅·罗斯·韦斯特(Julia Rose West)在最近给Slate撰写的文章里所说的,盲目迷恋数据,不加批判地使用,往往导致灾难的发生。