干货丨杨晓洋:金融大数据架构概述与应用

【导读】本文选自杨晓洋于2016年7月7日在清华大学经管学院伟伦楼所做的《金融大数据架构概述与应用》的演讲。他在介绍IBM眼中的几个大趋势的同时也讲了一些大数据基础架构的内容,从技术问题和实际需求出发,采用多个案例说明了构建金融大数据架构的具体细节和重点问题,以及处理大数据时候要做这些考虑的原因。

干货丨杨晓洋:金融大数据架构概述与应用

IBM分析事业部

IBM分析事业部是在过去一两年间逐步成型的,成立后分成了若干个小部门,如Analytics Platform、CLOUD DATA SERVICES。非关系型NoSQL的数据库中,Cloudant用的CouchDB就是CLOUD DATA SERVICES其中之一。

三种模式

过去几年,关于大公司企业的转型比较多,被新的一些业务模式冲击得很厉害,比如Social、mobile。也不讳言IBM目前也在转型中,可能未来会有一种新的模式支持上述第二种状况。软件的能力提交主要有软件制造商销售Perpetual License模式,或者软件制造商提供以云端服务的模式。这两个模式外很可能还会有第三种模式,就是由技术厂商提供技术,由使用者自己构造它的云的服务。目前大家就是处在用开源和自己写的状态上。

干货丨杨晓洋:金融大数据架构概述与应用

Watson。Watson本质上是一个巨大的类人的大脑。原则上构建了很多认知的能力,与人对话,有分析引擎,通过学习和一些技术手法,把不同领域里面构造的技术通过服务呈现出来。例如,Watson Doctor考过美国医生资质,理论上它拿到这个资质后是可以行医的。但IBM目前不会走这么远。另外一类,Watson有一个curator for financial data。在投资方需要对某些特定的领域进行个股研究的时候,需要收集各个股的相关资料,包括报表、年度报告、公开的新闻报道、分析师的分析报告等。这些收集起来的数据非常繁杂,大量是属于半结构化、非结构化的数据。它就是要把这些资料分门别类地理解,抽取关键信息,交给后台的分析引擎,分析引擎再做出一个决断。

再谈INSIGHT CLOUDSERVICES。Watson很具体化到某一个具体的行业里面,到了INSIGHT CLOUD SERVICES这个有可能是属于类似跨决行业,比如和Weather。去年IBM收购了The Weather Company。传统上,IBM是不碰数据的,给出的都是技术。给出数据库,数据放到库里面,跟IBM没有关系,也不去碰。现在IBM一定要去碰数据了,有些数据拿不到,就需要合作,比如Twitter,IBM要与它协同协作。统计显示,Weather这种数据每天的查询量非常大。像这一类的数据,它对各行各业的业务的影响都很大,IBM还会持续地去关注。

目前来看,IBM是朝着跟云合在一起,跟分析、认知合在一起的方向在发展,这是一个大的背景。

Awash是一个很特殊的词,这个世界被浸泡在数据里面。我们在用代码重新构造这个世界。如果把现在的程序员角色想得比较高大上一点的话,就相当于上帝指导下的一批重构世界的人。比如,我们原来面对面说话用耳朵就能够听了,现在用手机进行,手机中间构建的这个框架,是让传统当面做的事情可以远程做到,甚至手机可以理解人的对话,当成一个能够理解人的实体。实际一定程度上,我们是在重新构造这个世界——通过程序的方式、通过编程的方式、通过认知学习的方式构建世界。未来的走势在IBM看来是一个认知的过程,最终所有服务必须经过认知的技术来实现的。

IBM在过去三十年间看到的大趋势基本上都兑现了,有理由相信,现在看到的大趋势也会兑现。至于什么时候兑现,还需要时间来验证。

在未来的世界,数据就是矿藏。当然数据是原始的矿,相当于原油。如果原油不经过炼制,人类是没有办法使用的。现在每天有大量的数据,包括构建金融大数据库,每天的交易数据、互联网上的数据,社交媒体上的数据等。目前很难直观地找到这些数据的关联,必须要通过一些手段。我们就把这些手段类比成原油的炼制,用化学手段把它分离出有价值的东西,这样数据就可以驱动整个世界。

就这些所有的数据来看,用得比较多的这些数据,最重要的是数据增长快、非常巨大,种类繁多。就如刚才提到的Watson curator for finance data,虽然拿到的数据是别人做的,但最重要的应用的目标是分析。拿到一堆数据,重要的是怎样拿到里面的价值。挖这个价值的时候需要大量地使用分析引擎、分析工具。就像在一个湖里捞鱼,你要用很好的工具,是用炸药炸还是用网子捞?捞一些小鱼还是大鱼?这个过程中间必须要有针对性的处理。要点是说看到了这些数据,在一个大湖里面,要把有价值的东西取出来才能支撑你的业务。假如跟京东谈,最终的目标是它要使得你下单买东西,这是最主要的核心业务。它一切的分析工作都是围绕着,怎么让一个个体能够更方便、更快捷、更不过脑子地做决定买一个东西。我们知道买东西大部分都是冲动性购物对商家是最有利的,最终都是围绕这个目标进行的。这里对于分析的Insight,把数据之间的关联找到,这是一个大的趋势。