我经常参加一些大数据论坛,上来讲的人都是这样, 我们公司有两亿用户的设备,有多少亿的消费记录,真的是这样的,现在到北京市公安局去报案,这真的是红线,这么一个技术上的改进把这个问题得到了非常大的提升。这个改进达到两个目标,第一,数据提供方跟我的合作不在用户里,还在他那儿,甚至给了我,数据也不叫用户隐私,而且这个动作给监管机构的领导在沟通的时候我也说了,这个动作不叫征信和数据的采集,叫数据的预处理,更重要的是,这时候我可以告诉你,征信机构可以告诉你,我获取了你什么数据,在哪里获取,而不是采集大量数据最后不告诉你在哪儿采集,这是我们对第一个数据采集的问题,我们做的一些思考,欢迎大家跟我交流。这是第一点解决了隐私问题,用户的知情权保护问题,接下来的问题,现在的征信主要有两大块,今天我们讨论的是市场化的征信,还有一块是人民银行的征信中心,这个是靠行政的要求,第二银行有需求,他们形成了这样的一种机制。但是市场化的征信模式主要有这么几类,第一,刚才讲的类似于芝麻信用,类似于央行说准备开干的八家,以及后面纷纷争取要开干的很多家,大概都想往这个模式发展,这叫做单体的模式。征信机构采集各种数据源对外提供服务。这有一个很大的问题,目前看起来只有BAT能采集到足够多的数据,其他的机构可能得很难,这个确实是这样,但是如果你是BAT你也很痛苦,你的数据也不全,阿里只有消费数据,腾讯的数据更乱一些,只有社交数据,社交数据怎么用也在探索,他在数据的覆盖度和完整性上,这个模式肯定有问题。2015年是征信元年,今年是二年,到现在你们业内也没有听说第三方征信机构有一个什么杀手级的应用,金融机构说这个好我必须要的,没有,大家都在探索,这种模式存在着一些问题,信息的覆盖度不可能全,在央行一指令下去商业银行必须把贷款数据给我,不给就吊销银行牌照,这个不行,靠市场化有点难,所以这个存在一些问题。
从业者都是聪明人,有了这个问题之后,大家发现数据采集不过来,我们建一个共享平台,好多地方在建,有市场化的,有政府的,我们都是银行,银行都有黑名单,大家共享,建一个中心,叫做聚合模式。比如机构说我要查小明,聚合中心把这个请求发出去,发给别的三家,机构四说小明在我这儿有一条数据,机构二说我这儿也有一条,聚合中心把这两条加起来给他。现在这个模式还挺多的。但是要加入这个联盟里的人肯定都得有货,数据质量有保证,但是存在一个问题,这个业务机构说我要查小明,后面的人一听小明是他的客户,这个情况肯定存在,或者我在进去之前要这样想,他成立一个很高的门槛,很多人觉得这确实是一个问题。
第二个问题,这个一定会存留数据,不然他没法跟大家结算,那就存在一个问题,他存在的这些数据是什么,这是因为一个好处带来的更多的问题,这个模式现在很多地方在推动,但是我对这种模式不太看好,你只要开这种会,我们搞一个聚合共享中心,那肯定双手赞成,要是把数据结成链条那就蔫了。这不光是征信这个行业大数据交易,整个大数据的共享都面临这个问题,都是一样的。我一再的讲我的观点,中国在没有类似于征信行业,公平信用报告法,在整个全民数据共享里没有公平信息法,没有法律支撑的环境下我们总得做,我们针对数据共享提了一个想法,我们把他叫Xcredit,X是交换的意思。我先发布一段列表,我有XXX,我也不知道他是什么意思,把我的身份ID做了一个值,这是他们算出来给我的,各个机构,这个机构有这个信息,他算出来再给我,所以我不知道是什么。假设这个是我,他们给我之后,我发表一个列表,我有这些东西也不知道是什么意思,这个时候机构说的是我要查这个XXX,因为这个时候可能有一个用户到这儿来给他的手机号和姓名是135和杨茂江,他就算一下,一看索引里有这一条,就对上了,他就知道接入的机构里至少有一家有这个信息,他算了一下之后发出的请求是我要查XXX,他发出来的不是我要查小明,这个差别很大。
这个时候查出来的,把这个请求发给三家,分发出去是我要查XXX。我这里知道他有XXX,我只发给他们俩就可以了。这个时候,他们就把自己对应的信息用某一个密钥进行加密,这个地方有一点技术,这个密钥对应的是他的,这不是一一对应的而是一对几十万的量级,所以这个很难攻击出来,这里面的数据是加密的,我也解不开。然后把这个数据丢给他,这个机制在所有的大数据交换、共享里都是适用的。他解决了这几个问题,第一数据是由提供者存储和管理的,其他人在过程当中都不可能得到他的数据,第二,查询请求只会发送给有这个数据的机构,不会造成我是小明到处跑,我们只发到有这个数据的机构,不会造成查询信息的泄露。第三,这里我做了一个盲路由,他不知道我把这个数据转给了谁,这个人也不知道谁提供了数据,如果我查明一个用户知道是某个机构反馈的,我就知道这个人是某个机构的用户,所以数据查询方式不知道数据是由谁提供的。数据的机构三和四也不知道是机构一发出的请求,所以他并不知道这个客户到底是谁。