图1 企业和政府数据集属性比较
HIPAA保护涉及个人隐私的健康信息,并提出了保护电子数据和病人档案的国家标准,而且制定了保护在分析病人安全事件中病人身份和信息的规则。2009年,HITECH延伸了HIPAA在保护医疗记录和医疗信息被不同机构以电子方式使用方面的规定。这些法律规定限制了医疗记录数据信息用于大数据分析的数量和类型。因为大数据定义涉及到大范围的数据,而这些法规把搜集数据和进行分析限定在一个狭小的范围。目前在美国,能够用于大数据分析的医疗信息只能来自于志愿者提供。
企业使用大数据,目的是了解消费者的需求和行为,发展独有的核心竞争力,并创新产品和服务;政府使用大数据,是为了通过预测性分析,提高政策透明度,增加公民对公共事务的参与度和预防犯罪,改善国家安全,通过更好的教育和医疗提高居民福利。
开发从大数据中提取更多价值的技术,对于政府和企业来说都是持久挑战。然而,对于政府的挑战来得更尖锐,因为其必须打碎部门间的阻隔以推进数据集成,实现各部门信息共享,并建立统一的数据调控中心(如美国联邦数据中心)。
大数据应用
目前,世界上有一些发达国家已经在政府部门开始推广大数据应用。通过分析和比较这些先发国家的大数据应用,我们能了解当前和未来需要大数据应用聚焦和服务的地方,并为其他国家开展大数据应用提供借鉴。
美国
为了对海量数据流的实时分析管理,美国政府和IBM在2002年合作开发了一个容量巨大、聚集性强的大数据基础架构。IBM基于Hadoop、流计算、数据仓库等开发的InfoSphere Stream和Big Data,被政府机构和商业组织广泛应用于海量实时数据源的分析和可视化、二次应用程序开发和系统管理等。
2009年,美国政府“一站式数据下载”网站data.gov正式上线,并作为向政府透明化和问责制迈进的一个步骤。该网站包括了420894个数据集(截至2012年8月),囊括了交通、经济、医疗、教育和人口服务等方面的数据。数据来源于多个方面,其中1279个由政府提供,236个由居民提供,103个由移动设备提供。
2010年,美国总统科学技术顾问委员会(联邦政府协调非分类网络和信息技术投资的主要机构)在《规划数字化的未来》中建议,“联邦政府的每一个机构和部门,都需要制定一个应对‘大数据’的战略”,标志着大数据时代已经正式来临。
2012年,奥巴马政府颁布了《大数据的研究和发展计划》,通过提高从大型复杂的数字数据集中提取知识和观点的能力,进而加快美国在科学与工程中的步伐,加强国家安全,并改变教学研究。这是一个数额高达2亿美元的投资计划,涉及多个联邦部门和机构,包括白宫科学技术政策办公室、美国国家自然基金会、美国国立卫生研究院、美国国防部、美国能源部、美国卫生与公众服务部、美国地质调查局等机构。这个投资项目的主要目的是提高大数据核心技术的发展水平,加速科学和工程开发,加强国家安全,转换大数据教育和学习方式,扩展开发和使用大数据技术的工作力量。
截至2014年2月,美国国立卫生研究院(NIH)在亚马逊网络服务中心已经积累了数以百万亿字节的人类遗传变异数据,研究人员因此能获得和分析巨量数据,而不用再去发展自身的超级计算能力。在2012年,美国国家科学基金会联合美国国立卫生研究院(NIH)实施了提高大数据科学与工程核心技术规划,目的在于推进从大量、多样化、分布式、异质性的数据集合中管理、分析、可视化和提取有用信息的核心科学技术。
美国其他政府机构也开始进行大数据分析。美国国家税务局已经在它的返回审查程序中集成了大数据分析能力。通过分析大量的数据,美国国家税务局能够检查、预防和处理避税和诈骗案。美国国防部也在大数据相关项目花费了数百万美元,其目标之一就是利用大数据发展自主机器人系统(学习机器)。
美国地方政府也开发了大数据项目。例如,在2011年,美国纽约州锡拉丘兹市政府与IBM合作开展了一个智慧城市项目,使用大数据帮助预测并阻止住宅空置。密歇根州政府信息技术部构建了一个数据库,提供密歇根州居民的相关信息,以便政府机构提供更好的服务。