大数据时代带来的信息风暴,不仅改变着我们的生活、工作和思维,而且影响着人类认知视角,冲击着科学研究的基本方法。经济学被誉为社会科学“皇冠上的明珠”,其主要原因正是强调经验数据验证的实证主义较早在经济研究中得到应用。对经济学而言,大数据究竟是主流范式的革命,还是一个新的噱头?带着这样的问题,笔者于2015年6月下旬参加了中国社会科学院的“电子社会科学”考察团,赴英国了解当代信息和数据科技对社会科学研究的影响。
“相关性与因果性”:新方法论之争?
当前关于大数据的一个重要分歧,就是“相关性与因果性”之争。大数据倡导者维克托·迈尔·舍恩伯格明确指出,大数据时代最大的转变就是放弃对因果关系的渴求,而代之以关注相关关系。在诺森比亚大学培训第一天的课堂讨论中,考察团就围绕这个问题展开了激烈辩论。
实际上,早在大数据时代之前,“因果性与相关性”问题就已经是认知哲学、统计学、经济学等领域中的一个老问题。从经济学基础方法论的角度来看,对“因果性与相关性”的辩论,是人类认知逻辑和科学研究基本问题“演绎与归纳”的现代升级版。19世纪中后期,德国历史学派与奥地利学派之间展开了“方法论之争”。奥地利学派创始人卡尔·门格尔坚持以逻辑演绎为基本分析方法。德国历史学派则怀疑抽象逻辑演绎对现实理解和解释的有效性,主张由于人类社会的复杂性,首先应该大量收集、整理各种历史数据,并且从历史数据中发现经验规律。这与当前大数据方法论主张放弃或者弱化对因果性的追求,注重从海量数据中发现相关性的观点如出一辙。从这个角度来说,德国历史学派可谓大数据“先锋”。
大数据带来的“相关性与因果性”新方法论之争不过是新瓶装旧酒,实质问题仍然是哲学认识论中经验论和唯理论对立的老问题。虽然是老问题,但在现代科学哲学认识论和新兴的知识社会学之中,仍然是一个争论焦点。
“你的理论假设是什么?”
“你的理论假设是什么?”这是在英国雷丁大学访问时,考察团成员钟春平教授向Jornvande Wetering博士提出的一个问题。Wetering博士介绍了正在进行的大数据项目“智慧城市”,该项目旨在通过收集整理大量城市相关数据和信息,改善城市治理和人民生活。在笔者看来,这个问题直指大数据的核心——大数据方法的应用是否可以脱离理论假设?
这个问题与前面的“方法论之争”密切相关。主流经济学对“方法论之争”的当事双方各打五十大板,认为“演绎与归纳”两者不可偏废,并且形成了标准的经济学实证模式——提出假设和模型,使用数据进行计量检验,由此将“演绎与归纳”在哲学认知上的冲突掩盖起来。新的“相关性与因果性”方法论之争迫使人们重新面对这个问题,并对实证主义经济学提出了挑战。如果按照弗里德曼的“实证主义经济学方法论”,预测是经济理论的根本目标和检验手段的话,对经济学理论而言,重要的问题就是“能否做出准确的预测”,而非“是否理解了真实的因果关系”。但是,大数据在探寻相关性方面的优势,正好构成了对目前主流经济学范式的批判和革命。至少有一部分大数据论者认为,不需要甚至不应该预设理论前提和假设,只需让数据自我呈现出规律。按照这种“大数据经济学”观点,“假设建模—数据检验”的现行标准方法似乎已经过时了。
就自身逻辑而言,奥地利学派的先验主义和逻辑演绎法倒是可以固守自身立场,并展开对大数据方法论的批判。毕竟探究世界真实状况和因果关系才是科学研究的核心目标,预测只不过是副产品。在奥地利学派看来,没有演绎逻辑和理论指导,历史学派甚至不能确定什么样的历史资料和数据才是重要的,值得收集和整理。这个批判对大数据同样有效。同样是在雷丁大学的访问之中,Nanda博士引述了IBM的报告:“人类社会每天生成的数据高达250兆亿个字节。”从奥地利学派的视角来看,如果脱离具体的理论前提和需要,这个数据量没有任何意义。生成数据实际上完全依赖于观察者的目标和理论假设。脱离了这个前提,在不同测量工具精度的条件下,人们完全可以生成无限的观察数据。