大英图书馆在大数据时代会破产吗?
大英图书馆是英国的国家图书馆,拥有超过1.5亿件馆藏。大英图书馆不仅大量收录各种电子出版物,而且已经着手保存各种互联网网页内容。考虑到大数据时代还只是初露头角,未来人类社会所能产生的各种文本、图像等信息数据,无疑还会以指数级别增长。即使英国政府可以颁布法律使图书馆免费获得这些信息,保存信息所消耗的成本无疑也会以指数级别增长。大英图书馆乃至英国政府能否承受如此高的成本,着实令人怀疑。
这个“杞人忧天”的疑问,其实关系到“数据”或者“信息”的经济学属性,即从“要素”或“财货”角度来看待“数据”的成本收益问题。大数据理论有一种倾向,认为几乎所有数据都是有价值的,至少是具有潜在价值,哪怕暂时不知道如何利用,也许在未来可以得到重新认识,因此都值得收集和整理。这看起来似乎很有道理,但从经济学的角度看却是不能成立的,因为经济学的核心问题是“效率”,核心视角是“成本—收益”分析。不只是数据,任何事物都具有所谓“潜在”价值,但如果获得和保存它的成本超过了收益,那么在经济学者看来就是无效率的。
事实上,在信息时代之初,就有学者指出信息和数据具有“零边际成本”特性,将完全改造经济学,还有学者提出“新信息经济学”,主张软件等信息产品免费共享。大数据时代仍然面临同样的问题。部分学者主张数据是免费公共资源,具有巨大的外部性,最好由政府来提供。但经济学的基本逻辑在此仍然是有效的。虽然具有某些新特性,信息和数据仍然是“要素”和“财货”,需要付出成本,并且能够产生收益。不计成本地收集整理大数据是行不通的。类似地,经济学效率观点还对另一个大数据观点——所谓“全体数据”代替“随机样本”的新方法提出了挑战。“全体数据”固然有其优势,但放到经济学“成本—收益”的框架下来看,其方法本身就未必有效率了。