干货丨杨晓洋:金融大数据架构概述与应用

众所周知,数据并不像我们以为的那样整齐,找起来非常不方便。大家都以为谷歌查询的数量很大,实际上Weather每天的查询量更大。谷歌是一个大的搜索公司,未来可能会提供很多分析性相关的东西,把很多东西都放在里面,每天在全球查询量是3.5 billion,而Weather是15 billion。它除了查询天气预报以外,传统查天气是查北京市的,温度是多少,Weather里面有一些细节的东西,在北京朝阳区的小片里面那个大概的温度是多少,中国这边没有做到,但在美国做到了。这里要求对数据的分析功能,比起在谷歌那边要严格得多、分析要精细一些,所以在这里,支撑这15 billion的查询后面有分析引擎,目前我们正在把这个分析引擎往开放的框架中引。

数据生成数据的量是非常大的,包括做一次网购。你是用数据生成了一堆数据,看到那些所有的产品是数据,看到数据决定要买,它就再生成进一步的数据,然后这些数据再往后逐渐放大,真正要做分析的时候,这个数据已经到1000倍了。所以在讨论金融大数据时,不要只看到拿到的某一部分数据。这些只是其中最初级的原始部分,真正需要的是到最后的结果。我们考虑构建的是从1到1000倍增长的数据来看未来的数据的服务,所以当构建的时候,要想到的是现有数据库的1000倍以上,在分析过程中还会产生新的数据,可能对进一步分析有很大的价值。

中间分析的结果很重要。IBM最近在跟很多国内大数据相关的一些产业,比如交通。交通常用的有几类数据,一个是手机信令。对交通来说,这些人在城市里的移动,从哪个点到哪个点,意味着他们的居住地、工作地。这一类人在一个城市大家都从A到B,从C到D,互相交叉,对城市交通产生很大的需求,好的城市交通规划应该是平衡的,首先你要知道这个平不平衡,你得了解这个人到底在哪里,于是手机信令成为一个很好的点。拿到手机信令以后,它不是很准确,存在误差。这种情况下要描述一个人一天的轨迹,其实是模糊的状态。描述这个轨迹下来以后才能进行分析,描述完这个轨迹,首先是对这些轨迹的数据,分析结果的数据要存起来,以便于下一步分析使用。随后描述这个人的轨迹、停留时间,再通过各种分析的手法,区别每个地点的类型和这个人的职业等信息。这些数据要存起来。把原始数据通过扩散关联的方式找出后面,后面分析结果还要再进一步的考虑。

传统上,数据通常是数据源到结果,目前大家用的比较多的是这种。人们更关注把数据放在哪儿,查询找到它是什么,这是基本的模式。像万得那样的服务,目前基本就是查询,重要的是它使查询变得简洁,做一些预分析,谁和谁的关系是怎样的,把预分析做死,把它固化在其系统里面,固化在其系统里面,就形成关联的固化关系,这个信息被存储起来,所以在万得的系统里使用、查找就很方便。找到它,尤其是它关于整个跟金融相关的元数据模型的时候是非常好的。但据说万得的元数据模型是从Bloomberg学习来的,中文化并加入中国特色,给投资人提供很好的界面。据说目前90%的市场都是万得的,这个领域以万得为例来讲,虽然它的创新并不大,但可以把这里的东西做得很精细适用。

Systems of engagement。传统认为,信息系统本质上是交易系统。把数据提交给后台的数据库,数据库进行交易处理,永久性存储起来,用可备份的方式使得这个数据不会丢失,这笔数据的交易就完成了。数据系统关心的是数据被永久存储且不会消失,这部分叫Systems of Record。Record是记录,是交易型的、记录型的。

社交媒体、移动、云服务不断发展,比较有代表性的就是微信和银行。微信不仅是提交一个数据存储,而是它有很多关系的产生,人和人之间、数据和人之间、人和系统之间、系统和系统之间都产生大量的数据,这些数据的存储、管理、后台的支撑、经常性的变化,它可能对交易的完整性不那么在意。相对来说,发一条微信丢了再发一条,可是在银行存一笔钱,银行说丢了,大家肯定不干。银行对数据交易的完整性要求非常之高。这个就是产生了Systems of engagement。

Systems of engagement接下来是分析洞察。当你有各种System Insight,就是分析洞察,像构建的数据库,当有大量的交易信息,股票交易信息和大量的社交媒体信息,这就属于System Engagement。这两类信息融在一起,找出之间的关联,发现隐藏的关系,这个时候就到了System Insight。这是IBM和若干公司都非常一致的看法,这是一个基本的概念。这是传统到现在到未来的变革。未来变革大量使用的就是分析引擎。