大数据的概念已经表明,大数据不仅仅是海量的数据,还包括通过处理大数据从中获取价值。如今,大数据与商业智能、商业分析和数据挖掘是同义词,已经使商业智能从报告和决策支持转移到预测和制定未来行动纲领。新的数据管理系统旨在应对大数据带来的挑战,如分布式架构技术是一个开源平台,目前是在管理存储和接入,以及高速并行处理大规模数据集等方面应用最为广泛的技术。然而,对于很多企业,特别是不少中小企业来说,分布式技术是一个挑战。因为这些中小企业往往不具备应用大数据需要的专业人员和经验,他们需要外部资源帮助。应该看到,大数据应用需要的不是纯粹基于技术的技能,找到正确的分析大数据的技能,或许是企业应用大数据面临的最大难题。对于大部分企业来说,发现和选择胜任的数据专家(在数据挖掘、可视化、操作和发现等方面)是困难而昂贵的。
其他商业大数据技术包括Casandra数据库,它是一个动态的数据库工具,采用行存储格式,每一行能存储二百万个数据单元。对于企业的另一个挑战是选择最适合他们的大数据技术:开源技术(如分布式架构技术)或者商业技术(如Casandra, Cloudera, Hortonworks, MapR)。
政府在应用大数据时,不仅要处理多个来源、不同格式数据集成等一般问题,而且还面临一些特殊挑战,最大的挑战就是数据搜集。因为政府搜集的数据不仅来自于多种渠道(如社交网络、互联网、众包),也来自于不同的来源(如国家、机构和部门),搜集难度可想而知。其次,在国家之间分享数据和信息是一个特殊的挑战。跨国分享信息,由于涉及到语言转换和不同的文化背景(内容的表现形式),分享和传递的信息有可能失真。第三个挑战是在一个国家不同的政府部门和机构之间分享数据。政府数据与商业数据最重要的不同就在范围和区域,其差异近几年都在平稳增长。政府(包括地方政府和中央政府)在实施法律和规章、提供公共服务和监管金融交易的过程中积累了大量数据。这些数据的属性、价值和带来的挑战,都不同于公司运营中产生的数据。政府的大数据特征属性可以表述为存储、安全和多样性。通常,每个政府机构或部门都有自己的存储机构,用于存储公共或机密信息,而且并不愿意分享各自的专有信息。
每个系统都保存有与其他系统隔绝的信息,这使得政府机构和部门之间的数据集成更加复杂。彼此沟通的失败有时是影响数据集成的重要原因。例如,在英国,警察机构和医院之间曾经打算在暴力犯罪方面分享信息,但这一项目最终失败,原因就是两者之间沟通不足。另一个分享政府信息的挑战是建立统一的数据格式,能够允许不同机构进行分析。尽管大部分政府数据是结构化的,但是从多种渠道和来源去搜集数据仍然是一个更大的困难。缺乏标准化的数据格式和软件,以及从多个政府机构的离散数据库中提取有用信息的跨机构解决方法,也是政府推进大数据应用面临的挑战。但由于政府的紧缩措施,导致其缺乏相应资金去发展和推进解决上述问题。
在使用大数据时,政府必须解决相关的法律、安全和许可要求等问题。在搜集和使用大数据用于预测分析与保障公民隐私权之间,应该有一条清晰的界限。
在美国,美国爱国者法案允许合法监控,有时还可以监控公民;电子通讯隐私法案允许相关部门不经授权便可进入电子邮件系统;要对网络情报共享和保护法案(CISPA)加以注意,它将允许安全机构和私人网络公司之间的信息共享,这增加了人们对误解信息不适当应用的关注。
数据安全是政府大数据最基本的属性,因此,搜集、存储和使用大数据都需要特别注意。然而,目前大部分大数据技术,包括 Casandra数据库和分布式技术,都缺乏足够的安全保护工具。对政府而言,确保安全是又一个挑战。
表1 企业与政府大数据项目的属性对比
对于政府的大数据项目而言,确保获取高度管制行业(比如金融服务和医疗机构)信息的合规性,是搜集数据的另一个障碍。比如,当从与医疗相关的大数据获取有效信息的时候,必须解决美国医疗管制制度对数据保护的问题。针对医疗行业的大数据分析,美国与医疗相关的两个法案健康保险携带和责任法案(HIPAA)、经济和临床健康医疗信息技术法案(HITECH)均设置了很大障碍。