换句话说,要构建未来的东西不再是一个库,可能是一个湖。湖里必须要有方式,鱼在哪里、水草在哪里,要不然的话这就是一个数据沼泽,虽然数据都在里面,但是捞很痛苦,捞一把有虾、有鱼、有泥巴、有水草,还要再进行过滤分析。所以,Data Lake是我们必须要面对的。
分析,是层层递进的。从分析到报表,到指引,做预测、做决策,再到指导你的行动。认知的过程,建构在Data Lake的基础上,再做一些基本的分析,可能会做一些预测的分析,这个过程中间还有自学习的机制,从数据的生成大数据的被分析,到数据用来做预测、做推断,到数据用来做决定,再到数据自我学习,这是完整的循环。
这样描述的过程,会使人觉得这听起来像是“人”的过程。从冯诺依曼体系产生到现在,大家追求的就是怎么让机器做得像人,但比人做得更快,AlphaGo就是比人做得更快,它的心理不受时间限制,人还会受到限制。
从系统角度来讲,就具体的某些单向指标来说,以暴力方式构建的系统已经远远超过人了,但整体上还比不过人,尤其是感知、学习、预测、适应、模式识别等等。在语意之间能够来回翻转,这个层面还远远赶不上。目前的方向是朝着认知,朝向构建人脑的模式。人可能走100步它要走10亿步。
再往下更复杂的,在构建一种关系的时候。股票、公司和投资方,和它的下家行业,以及它的竞争对手等,这么复杂的一个关系,如果不构建出来,这样的金融大数据的服务肯定只能提供一个查询,不超过万得。接下来,认知公司进来以后你就会OUT了。要把这个关系建立起来,因为这些关系是很动态的,常常在我们回溯的时候是找不到,因为按照行和列描述数据的方式无法做到。Graph Database可能是一个很好的模式,Graph Database可以描述清楚大量复杂的关系。
举个例子,某些数据中的一条,大家看这么几个数据,每天的扫描影像个数120个Million,是中国的某一个客户,这个数量相当于Facebook一天的数据量,它的照片量,我们认为只有像Facebook这样的或者百度这样的才有大数据,其实企业里面很多都有。不用管它怎么产生的。把它放到峰值上去,会发现它每秒钟是10万个影像,10万个影像不仅仅是10万个交易。每个影像它有若干的描述性的数据,每个影像还有相关的东西结合在一起。这10万个影像对后台来说有数据库存起来,交易是10倍的。换句话说每秒钟是100万,这个数据是非常大的。Facebook现在的峰值更大一些,当时也就是10万到50万的样子,现在可能能做到100万。
换句话说,我们看到在金融领域的大数据,如果放到峰值的角度来考虑,一定是非常庞大的数据。为什么要考虑峰值?传统分析的时候就会听到说一天多少数据。治水跟治数据是有很相通的地方,最近武汉的大水,武汉大水过来武汉市三年前有一个投资计划投了130亿,说能够处理15个东湖水的量,如果当初我来审核这个项目的时候,我会问这15个东湖水的数量是一天过来?还是一个月过来?还是在十分钟过来?这是不一样的,在数据层面,现在金融服务器上来了,全国的散户都来找你了,1亿散户投资人要来找你,你能够处理吗?你怎么处理?这相当于说15个东湖的水在十秒钟之内经过武汉,你能够处理吗?这是非常简单的我们需要面对的数据的问题。你有这样的数据在那儿的时候,每秒钟10万,相当于100万的数据每秒钟要处理的时候,底下的平台通过什么方式建造?买IBM主机没问题,任意扩展。但是这个成本付不起。如果用最便宜的机器,最便宜的机器一台肯定处理不了,就得是非常庞杂的集群,这个集群是分布式的,每台机器都有可能失败,雅虎每天的硬盘都有数千个坏掉,硬盘要坏掉数据只有一份肯定死了,怎么处理底下的东西,归根到最后,最终的总量,这个数据要存15年,最终总量就是100多个PB。以前讲PB是非常大的数了,Hadoop讲说我们能够做PB的数据那是大数据了,可是你看看像这样一个机构,它可以达到几百个PB,如果存15年它的总量能够到达1.3个Trillion,这是万亿级的数据。最近几年我们跟客户沟通,把他的数据用峰值的方式进行分析以后,我们发现,包括它的总量,所以你构建一个系统,有很多具体的细节需要去不断地考虑,也有一些现成的技术处理这个事情,但是首先得对所面对的这个数据要有深入、充分的了解,你一定得知道峰值是什么情况,两头的峰值,数据进来的峰值以及数据出去的峰值,数据进来的峰值就是说你的数据源从哪里过来,它每秒钟大概在什么时候达到峰值,有可能最大的峰值是什么?数据出去是说你的使用者在你这儿查询,在你这儿做分析,它大概的使用情况是什么?所以这两头你都要搞的清楚,数据总量准备存多久,存15年以上,你的硬盘寿命只有3年,之后你的硬盘是不停的换,还是量不断增加,硬盘不停的换,还是会把一些冷数据放到特殊的地方去,类似这些问题你都在这个过程中间要进行考虑。