小数据
对于源自大数据集偏见的问题,另一个潜在的应对方法是部分人所说的“小数据”。小数据是指,数据集足够简单到可以直接由人来分析和解读,不需要求助于超级计算机或者Hadoop作业。跟“慢餐”一样,该词也是因为其相反面的流行而产生。
丹麦作家、营销顾问马丁·林德斯特罗姆(Martin Lindstrom)在他2016年的著作《小数据:揭示大趋势的微小线索》中谈到了那种做法。例如,丹麦知名玩具厂商乐高(Lego)依据大量声称千禧一代需要即时满足,更容易被比较轻松的项目吸引的研究,转向提供更大的积木,还在1990年代末和2000年代初打造主题公园和视频游戏。这种转型没有奏效。
那种由数据驱动的范式最后被它的营销者2004年进行的一项范围小得多的人类学调查颠覆。它的营销者逐个询问小孩他们最珍爱什么物品,发现他们最喜欢也最忠于可让显示出其苦苦练就的能力的产品——比如一双因数百个小时的滑板练习而磨损的旧运动鞋。据林德斯特罗姆(他曾担当乐高的顾问,自己也很喜欢玩乐高积木)说,乐高重新专注于提供它原来的小积木,由此实现复兴。
在很多方面,亚马逊是可充分说明大数据威力的典型例子。它关于其数以亿计的顾客的购买和商品浏览习惯的数据,帮助它成为全世界最成功的零售商之一。不过,布拉德·斯通(Brad Stone)在他的书《万货商店》(Everything Store)中称,该公司的CEO杰夫·贝索斯(Jeff Bezos)有个很有趣(对于他的员工来说则很可怕)的方式来平衡所有的那些客观数据分析。他时不时会将顾客发来的投诉邮件转发给他的高层团队,要求他们不仅仅要解决投诉的问题,还要彻底调查清楚它发生的原因,并撰写一份解释报告。
这说明,贝索斯不仅仅理解大数据提升各个系统运行效率的威力,还知道大数据也要可能会掩盖没有得到有效估量的特定问题的发生原因和机制。在根据你知道该如何测量的事情做出决策的时候,安全的做法是确保也有机制让你能够知道你不知道该如何估量的事情。“问题总是,你没有收集什么数据?”奥尼尔在接受电话采访时表示,“什么数据是你看不到的?”
未来展望
随着“大数据”不再被当做热词,我们有希望逐渐对数据的威力和陷阱形成更加细致入微的理解。回头来看,收集数据的传感器和分析数据的超级计算机一下子大量涌现,引发一股淘金热,以及很多时候错失这一切的恐惧会压过你的审慎情绪,都是可以理解的。与此同时,必然会有深思熟虑的人开始引起我们对这些情况的注意,大数据也不可避免地会带来反效果。
不过,大数据误用带来的威胁,不会仅仅因为我们不再用敬畏的口吻来说那个词而消失。看看Gartner 2017年技术成熟度曲线的顶峰,你会看到像机器学习和深度学习这样的词,以及代表这些计算技术的现实应用的无人驾驶汽车、虚拟助手等相关的词。这些是基于与大数据一样的基础的新“棚架层”,它们全都依赖于大数据。它们已经走在通向真正的突破的道路上——但可以肯定的是,它们也会导致严重的错误。