在网上公开政府部门数据的“开放政府”计划——如Data.gov网站及“白宫开放政府计划”——也存在同样的情况。更多的数据未必会改善政府的任何功能,包括透明度和问责,除非存在可以使公众和公共机构保持接触的机制,更不用说促进政府解释数据并以足够的资源作出反应的能力。所有这些都非易事。事实上,人们身边还没有很多技能高超的数据科学家。各大学目前正在争相定义这一行当、制订教程和满足市场需求。
“大数据对不同的社会群体不会厚此薄彼。”几乎不是这样。
文章指出,对大数据所号称的客观性的另一个期待是对于少数群体的歧视将会减少,因为原始数据总是不含社会偏见的,这使得分析可以在大规模的水平上进行,从而避免基于群体的歧视。然而,由于大数据能够作出有关群体不同行为方式的论断,它们的使用通常恰恰就是为了实现这个目的——即把不同的个体归入不同的群体中。例如,最近有一篇论文指科学家听任自己的种族偏见影响有关基因组的大数据研究。
大数据有可能被用来搞价格歧视,从而引发严重的民权担忧。这种做法在历史上曾被称为“划红线”。最近,剑桥大学对脸谱网5.8万个“喜欢”标注进行的大数据研究被用来预测用户极其敏感的个人信息,如性取向、种族、宗教和政治观点、性格特征、智力水平、快乐与否、成瘾药物使用、父母婚姻状况、年龄及性别等。记者汤姆·福尔姆斯基这样评价该项研究:“此类容易获得的高度敏感信息可能会被雇主、房东、政府部门、教育机构及私营组织用来对个人实施歧视和惩罚。而人们没有任何抗争的手段。”
最后考虑一下在执法方面的影响。从华盛顿到特拉华州的纽卡斯尔县,警方正在求助于大数据的“预测性警事”模型,希望能够为悬案的侦破提供线索,甚至可以帮助预防未来的犯罪。不过,让警方把工作专注于大数据所发现的特定“热点”,存在着强化警方对声誉不佳的社会群体的怀疑以及使差别化执法成为制度的危险。正如某位警察局长撰文指出的,尽管预测性警事算法系统不考虑种族和性别等因素,但是如果没有对差别化影响的考虑,使用这种系统的实际结果可能“会导致警方与社区关系恶化,让公众产生司法程序缺失的感觉,引发种族歧视指控,并使警方的合法性受到威胁。”
“大数据是匿名的,因此它不会侵犯我们的隐私。”大错特错。
文章称,尽管许多大数据的提供者尽力消除以人类为对象的数据集中的个体身份,但身份重新被确认的风险仍然很大。蜂窝电话数据看起来也许相当匿名,但是最近对欧洲150万手机用户的数据集进行的研究表明,只需要4项参照因素就足以挨个确认其中95%的人员的身份。研究人员指出,人们在城市中走过的路径存在唯一性,而鉴于利用大量公共数据集可以推断很多信息,这使个人隐私成为“日益严重的担忧”。
但是大数据的隐私问题远远超出了常规的身份确认风险的范畴。目前被出售给分析公司的医疗数据有可能被用来追查到个人的身份。关于个性化医疗有很多谈论,人们的希望是将来可以针对个人研制药物和其他疗法,就好像这些药物和疗法是利用患者自己的DNA制作出来的。就提高医学的功效而言,这是个美妙的前景,但这本质上依赖于分子和基因水平上的个人身份确认,这种信息一旦被不当使用或泄露就会带来很大的风险。尽管像RunKeeper和Nike+等个人健康数据收集应用得到了迅速发展,但在实践中用大数据改善医疗服务仍然还只是一种愿望,而不是现实。
高度个人化的大数据集将成为黑客或泄露者觊觎的主要目标。维基揭密网一直处在近年几起最严重的大数据泄密事件的中心。正如从英国离岸金融业大规模数据泄露事件中看到的,与其他所有人一样,世界上最富有的1%人口的个人信息也极易遭到公开。
“大数据是科学的未来。”部分正确,但它还需要一些成长。
文章指出,大数据为科学提供了新的途径。人们只需看一下希格斯玻色子的发现,它是历史上最大规模网格计算项目的产物。在该项目中,欧洲核子研究中心利用Hadoop分布式文件系统对所有数据进行管理。但是除非人们认识到并着手解决大数据在反映人类生活方面的某些内在不足,否则可能会依据错误的成见作出重大的公共政策和商业决定。