(一)数据管理
企业实施数据安全的首要任务是先管理好数据,根据业务要求、合规性、安全策略及数据的敏感性,关键性和关联风险对数据进行分类分级管理,有助于对数据保护的基准安全控制做出合理的决策。
从大数据特性层面对数据进行标记(例如分析类型、处理方式、数据时效性、数据类型、数据格式 、数据源等维度),就知道数据是如何进出大数据平台,将会被如何使用,会被谁使用,数据是如何存储的等等,这些都有助于数据发现的管理和对数据访问控制制定相应的策略。
最后,如果缺乏掌握敏感数据在大数据平台中存在于哪里的意识,这将无疑是把数据暴露于风险之下。所以,掌握敏感数据在大数据平台中分布情况,并能自动地增量式地发现找到敏感数据,并监控其使用情况,是否受到保护是能否做到全面保护数据安全的关键。
(二)身份认证和访问控制
身份认证是防护数据安全的第一道关卡,通过身份认证确保访问大数据平台中的数据、资源和服务的用户是安全的,大数据生态系统中从Hadoop到HBase、Hive、Pig、Impala、Spark等几乎都支持利用Kerberos进行身份认证。
Kerberos也可以和企业的AD/LDAP结合以快速建立密钥分发中心,而无需大数据平台用户重新建立用户组、角色和密钥等。用户通过身份认证后可获得访问大数据平台的资格,为进一步控制用户对资源的访问权限,需要通过授权机制来管理不同用户对不同资源的访问许可。
Hadoop和HBase及其它组件都在一定程度上支持对访问的控制,RBAC和ABAC是两个不同粒度的访问控制模型,前者是基于角色来进行访问控制,后者是更为细粒度的控制,可控制到被访问对象的字段级别。在制定访问控制策略时,应依据合规要求,结合敏感数据保护策略、数据使用场景等针对不同数据、不同业务需求制定相应的访问限制规则,高效利用数据,发挥大数据价值是企业的最终目的。
(三)数据保护
如果说身份认证、授权和访问控制是确保了对数据访问的对象的防护和控制,数据保护技术则是从根源层保护信息安全的最重要和最有效的手段。通过数据保护技术,对大数据的开放共享、发布、最大化利用等都会有着最直接的积极作用。
数据保护技术的作用不仅局限于企业内部,它是确保整个大数据产业快速发展的最重要保证。数据保护技术通过对数据利用脱敏、失真、匿名化限制发布等技术处理后,可让处理后的数据到达安全交易、开放共享的目的。
而对于企业内部,针对脱敏后的数据,不需再设定复杂的访问控制限制,可让更多的分析应用更高效地实施并优化开发项目,让大数据得到更充分的利用同时,也确保遵从行业/监管数据隐私法令和法规。
(四)网络安全
大数据的网络安全通常是指通过客户端访问大数据平台的连接和大数据平台中服务器节点之间的网络通信安全。 为保证数据在传输过程中的安全性,节点之间及客户端与服务器之间的通信都需要进行加密,不同的通信使用不同的加密方式,Hadoop平台支持RPC加密,HDFS数据传输加密和HTTP通信的加密。
除了对网络通信进行加密设置,还可通过使用网关服务器隔离客户端与大数据平台的直接访问来进一步升级网络安全。网关服务器部署在大数据平台和企业用户网络域之间,用户通过登录网关服务器来验证身份,并由网关服务代理用户对大数据平台的访问,同时,该服务器还可用来提供访问控制、策略管理。用户通过登录到网关服务器来执行对大数据平台的操作,所有的客户端包括Hive,Pig,Oozie等都可安装在这台网关服务器上,这样用户就不必登录到大数据平台中的服务器节点,从而保护大数据平台不会受到非法访问。
(五)基础安全
前面我们谈到了通过各种方式来保证大数据平台和安全性,包括身份认证、授权、访问控制、数据保护及网络通信安全。但大数据平台仍然有可能会受到非法访问和特权用户的访问。为确保合规性的需要,我们需要对大数据平台的一切活动进行审计和监控并生成告警信息,也即是安全事故和事件监控(SIEM)系统。SIEM系统负责对大数据平台中任何可疑的活动进行收集,监控,分析和生成各种安全报告。
以下是大数据平台中需要被监控的事件以用来分析识别安全事件:用户登录和身份验证事件、HDFS操作、授权错误、敏感数据操作、MapReduce任务、通过各种客户端的访问如Oozie,HUE等以及异常事件。只有全面的收集在大数据平台中的一切活动,才有机会捕捉可能会发生的安全事故及进行事后分析时有机会进行回溯分析,追踪事故根源。