浅析金融大数据安全

具体而言,应用层面的安全要考虑一些比较新的版本来搭建大数据平台,如果是已有平台,可以使用Cloudera Sentry、DataStax Enterpris、Accumulo这一类应用安全的加强。日志的统一监控可以使用Apache Oozie。

由于大数据平台具有较多的集群服务器,物理位置可能分布式,所以需要在运维安全上考虑加固,使用统一的、最小化权限的版本进行自动化配置。

大数据平台的账户管理也是重要的一部分。密码强壮度的控制、离职休假员工的账户回收、登录失败限制,对账户的监控等等日常工作需要定期审计。

但最核心的内容,是做好安全域管理,做好边界防控,把大数据平台在内部盒子里运转。

2.2敏感数据保护

大型金融集团里,大数据会包括来自各种内外部机构的数据。可能会包括保险、银行、证券、支付等多种机构,而这其中每个机构都面临着不同的行业监管要求,同时又需要有各种的机构访问。

种种数据的行业要求,加上产品经理、开发等各业务单元的访问,每个数据表甚至字段的访问,都需要建立在个案分析的基础上进行安全控制。

因此首先要对数据进行分类分级管理,如下图。一般的分类分级可以参照传统安全做法,并无太大区别。

但要注意由于大数据的来源非常丰富,不能仅靠人工去判定数据级别,需要有自动发现敏感数据的工具,市面上有一些通用工具可以用,但从长远来看,数据发现还需要有自己可定义的工具为佳。

对数据的分级,不仅要考虑到表,还要到字段级别的授权。除此之外还有数据融合的问题,基于业务的需要,例如在风控领域需要对用户画像,就需要综合多个类别级别的数据进行开发,多个数据融合的时候,对数据的控制要按照最高级来进行。

26

 

2.3数据脱敏

大数据平台最终是为业务服务的,在产品的生产过程中,多个团队都需要使用大数据平台进行分析、开发、测试工作。大数据平台中包含了大量敏感数据,如何能够既不影响业务开发,又能保障安全性,这就需要进行数据脱敏。

脱敏有几件事情要做,首先关键表关键字段的脱敏。这部分比较容易理解,例如用户的password,这就是无论何时都不能展示的。在有些行业,银行卡号、身份证等信息都需要脱敏。所谓脱敏是指隐去这些信息。

但是,脱敏不能简单的将关键信息用星号脱敏,如果一张表的name字段全是*,业务分析就无法进行了,这就需要有一个替换和映射。替换和映射的意思是:

真实的:张三,手机13900000000,身份证9999999999999

替换后:李四,手机13999999999,身份证1111111111111

而在系统内部则要建立两者之间的映射关系。这方面市场上也有产品提供,但对于大型机构来说,通用型产品远远不能满足需要,大型机构建议自行开发。

其次但某些业务的需要,例如风控案件调查,一定是需要欺诈分子的真实信息,脱敏后案件就无法跟踪下去了,这就需要有控制的对部分人员开放敏感数据,又要保证这些数据不会出去。

这种控制方法,一般是建立一个分析集群虚拟机,办公网通过堡垒机跳转,在虚机上进行操作,虚机集群则无法与外界建立联系。当然也可以选择在办公终端上进行严格终端控制,但终端层面风险敞口较大,很难做到完全控制。

同时,分析结果在很多情况下,需要对外输出。例如夺宝活动获奖用户清单,需要LIST清单进行奖励寄送,这就需要在封闭的集群中有统一出口。出口需要经过业务主管、安全团队审批,并经过加密输出,确保即使该文件被泄露,别人也无法打开内容。

2.4 数据产品输出

大多数数据会加工成产品对内外输出。有用在内部经营数据分析的产品,有向外部组织提供的数据接口,有应用产品。

所有类型的输出,都需要安全团队参与评审。而绝大多数情况下,都不需要输出明细数据,在理解对方业务需求的基础上进行标签化可以满足多数场景的需求。

例如,某基金业务的资金变化展示,这种只是汇总型的数据,可以在大数据平台计算完毕后输出。再比如资金对账数据,可以通过接口性质输出,禁止人工对账,通过在鉴权、加密上的控制来保证安全。