抽样需要预设数据将要被如何使用,因此你可以设计哪些是合适的样本。这样做在论及全体样本的时候是有用的,但当你深入到小一些的团体时,这样做就不是很有用,因为你可能没有足够的数据来有效地做到这一点。还有,如果你对自己想从数据中得到的内情改变了想法,你通常必须抽取新的样本。当你可以收集并存储所有数据而不是一个样本时,所有这些问题都不复存在了,也就是说,样本量n=全部的时候。
下一个变化是,要求人们接受零乱的而非纯净、精心整理过的数据。“在越来越多的情况下,稍失准确是可以接受的,因为使用质量参差的海量数据带来的好处超越了使用少量精准数据的成本……当周遭没有那么多数据的时候,研究人员必须保证他们费劲收集的数字是尽可能准确的。发掘海量数据意味着我们现在可以允许一点不准确的数据无意中流入(只要数据集不是完完全全不正确的),换来的是巨大体量的数据带给我们的视野。”
我发现最后一个重大变化,即从因果关系到相关性关系的变化,这特别让人感兴趣。正如作者所说:“大数据帮助回答是什么而不是为什么的问题,这往往就足够了。”或者说,至少在经验科学的早期阶段这就足够了。在这一阶段,我们寻求的是能够帮助我们预测未来事件和行为的方式,没有必要拥有可以解释事情为何发生的良好模式或理论。那些模式和理论今后会有的,不过有时它们根本不会出现。
比如,在麻省理工学院首席信息长研讨会上,麻省理工学院教授季米特里斯?波特西玛斯(Dimitris Bertsimas)参加了布林约尔夫松教授主持的“大数据的现实”小组讨论。他谈到了自己最近的研究:分析数十年的癌症治疗数据,希望能够以合理的成本提高癌症病人的寿命和生活质量。他和他的三个学生一道开发了模型,利用病人的个人资料数据和他们接受的化疗药物及剂量方面的数据预测生存和死亡的几率。他们的论文《用分析法设计癌症临床试验》(An Analytics Approach to Designing Clinical Trials for Cancer)表明,根据过去的数据预测未来临床试验的结果是有可能的,哪怕要预测的确切的药物组合以前从来没有在临床试验中测试过,哪怕这个特定药物组合为何有效的原因不为人所知。
“使用大数据有时意味着放弃追究为什么,以换取弄清事物是什么……这表示人们开始放弃了解世界如何运作背后的深层原因,转而仅仅去了解现象之间的联系并利用这种联系来完成任务,”库克耶和迈尔-舍恩伯格写道,“当然,弄清事物背后的原因是可取的。问题是原因经常很难查明,很多时候我们认为自己找到了原因,其实那不过是一种沾沾自喜的错觉。行为经济学已经证实,人类在原因不存在的地方也习惯于看到原因。因此我们需要特别警惕,防止我们的认知偏见迷惑我们;有时,我们只需要让数据说话。”
“在一个数据越来越多地决定判断的世界里,对于人、直觉和违背事实的行为来讲还会留有什么用途呢?”作者在结尾部分问道,“如果人人都诉诸于数据,利用大数据工具,能够成为区分焦点的就是不可预见的东西:本能的人为因素、冒险、事故、甚至错误。如果真是这样,那么会有一种特殊的需要人为来开辟一块地方:为直觉、常识、和意外发现的本事留出空间,确保它们不会被数据和千篇一律的答案挤出去……不管大数据的威力多么令人眼花缭乱,它诱人的光芒绝对不能让我们对其固有的缺点视而不见。我们必须在既感受到大数据的威力又了解它的局限性之后才去采用这种技术。”
作者:王文科(Irving Wladawsky-Berger)是前IBM公司负责技术策略和创新的副总裁,现为花旗集团(Citigroup)的战略顾问,也是《CIO杂志》(CIO Journal)的定期撰稿人。
来源:华尔街日报
更多详细信息,请您微信关注“计算网”公众号: