大数据已不再是一个单纯的热门词汇了,随着技术的发展大数据已在企业、政府、金融、医疗、电信等领域得到了广泛的部署和应用,并通过持续不断的发展,大数据也已在各领域产生了明显的应用价值。
企业已开始热衷于利用大数据技术收集和存储海量数据,并对其进行分析。企业所收集的数据量也呈指数级增长,包括交易数据、位置数据、用户交互数据、物流数据、供应链数据、企业经营数据、硬件监控数据、应用日志数据等。由于这些海量数据中包含大量企业或个人的敏感信息,数据安全和隐私保护的问题逐渐突显出来。而这些问题由于大数据的三大主要特性而被进一步放大:数据量大(Volume)、数据增长快(Velocity)和数据多样化(Variety)。
现在,当我们说“大数据”的时候,已不再是单指海量的数据了,而是基础设施(云服务器)、应用、数据源、分析模型、数据存储和平台的组合,而正是这些使得大数据安全面临着不同寻常的挑战。
与传统数据安全相比,大数据安全有什么不同
传统数据安全技术的概念是基于保护单节点实例的安全,例如一台数据库或服务器,而不是像Hadoop这样的分布式计算环境。传统安全技术在这种大型的分布式环境中不再有效。另外,在大规模的Hadoop集群中,各服务器和组件的安全配置出现不一致的机率将大大增加,这将导致更多的安全漏洞产生。
大数据平台存储着各种各样的数据,每一种数据源都可能需要有其相应的访问限制和安全策略。而当需要整合不同数据源时,就变得更加难以平衡对数据的安全策略的应用。同时,快速增长的海量数据使得大数据平台中的敏感信息和个人隐私信息无处不在,准确发现和定位敏感信息并制定针对性的访问控制策略变得愈加困难,而对敏感信息的访问的实时监控也是保障大数据安全的重要任务之一。
最后,大数据技术很少单独使用Hadoop,而是会结合生态系统中的其它技术组件如HBase,Spark,Impala,Hive,Pig等对数据进行抽取、存储、处理、计算等。这些技术使得大数据可被访问和利用,但基本都缺乏企业级的安全特性。以上从平台、数据、技术视角对大数据安全与传统数据安全进行了简单的分析,传统安全工具没有为数据多样化、数据处理及Hadoop的分布式特性而改进,不再足以能保证大数据的安全。
如何建立完善的大数据安全体系
面对复杂的大数据安全环境,需要从四个层面综合考虑以建立全方位的大数据安全体系:边界安全、访问控制和授权、数据保护、审计和监控。
边界安全:主要包含网络安全和身份认证。防护对系统及其数据和服务的访问,身份认证确保用户的真实性及有效性。Hadoop及其生态系统中的其它组件都支持使用Kerberos进行用户身份验证。
访问控制和授权:通过对用户的授权实现对数据、资源和服务的访问管理及权限控制。Hadoop和HBase都支持ACL,同时也实现了RBAC(基于角色的访问控制)模型,更细粒度的ABAC(Attibute Based Access Control)在HBase较新的版本中也可通过访问控制标签和可见性标签的形式实现。
数据保护:通过数据加密和脱敏两种主要方式从数据层面保护敏感信息不被泄露。数据加密包括在传输过程中的加密和存储加密。传输过程中的加密依赖于网络安全协议而存储加密可通过相关加密算法和密钥对数据进行加密存储。数据脱敏是比加密较为折中的办法,对于大数据时代,该方法将更被更为广泛的采用。因为收集的海量数据需要相对开放的共享给内部不同团队或外部机构使用,才能发挥大数据的价值。对于敏感信息部分可通过脱敏的方式进行处理以保障信息安全。
审计和监控:实时地监控和审计可管理数据安全合规性和安全回溯、安全取证等。
如何设计大数据安全框架
基于以上四层的安全体系,结合大数据平台的特性,企业在实践大数据平台安全化时,需要有更详细的架构设计,四层安全体系对应在实际环境中,应是以数据为中心,建立完善的管理制度,先治理好大数据,再从访问控制和数据保护层面加强对数据使用的安全防护,最后从网络和基础层加固平台的安全部署。因此,大数据安全框架需包含以下5个核心模块: 数据管理、身份和访问管理、数据保护、网络安全、基础安全。