干货丨杨晓洋:金融大数据架构概述与应用

数据湖里面有很多,这后面有很多数据“库”,中间有原始数据,有一个目录,这边有很多数据和IT之间的交互,这边有很多读的交互,底下还有很多数据治理,数据治理是说你的数据进来什么人可以以什么方式把数据存进来?什么方式把数据提走?以什么方式使用这些数据?尤其金融数据很敏感,你们构建这个的时候必须要考虑。

其他跟数据进来,数据怎么清理,还有分析的工具有关,这是架构在数据之上的,这个概念知道以后,用什么样的数据和技术,大家可以来考虑。

这个是在架构数据库中间,中间要用大量Cloud或者Hybrid Cloud方式提供服务,使用者可以自服务的,构建一些UI功能让他在界面上自己编辑,就可以编辑出很多应用出来。从描述性分析到诊断性分析到预测性分析,再到指导性分析。指导性分析它的意思有点开药方一样,我已经知道你得什么病了,告诉你该吃药了。这一类分析是我已经80%、90%的确定。这个走势是这样的,于是你作为关注这个走势的这些人应该做这些事情。

最后一个是自学习,最终你构建的金融大数据中心里面,是在若干个方面提供服务的,如果仅仅是玩票,可以在某些领域玩得深一点就可以了,这个没有问题。

这是未来可能发生的,Data Lake和Hybrid Cloud。有的人构建了一个企业内部的数据湖,有的人构建云中的数据湖。从使用者角度来讲,既需要云中的,也需要某些企业内部的。这两者之间对于后台管理来说是一个蛮大的挑战。数据的拥有人不一样,数据和数据之间的标准,交互的标准、描述的标准都不一样,互相之间怎么协调,是一个很大的挑战。从IBM角度来讲,我们是站在这两个后面来看怎么支撑未来的服务。

现在所有的东西基本都变成开源了,开源以后商家怎么挣钱成为一个很大的问题。比方说我们原来卖软件license的,现在不太好卖了,或者未来越来越卖不动。我卖服务,假如我是IBM,做了一堆服务,放到IBM的云里面,举个例子,中国的银行就不会把它的数据放到IBM的云里面,美国银行可能会,这样IBM未来的商业模式在哪里?这也是我们正在探讨的一些方向。

这个数据本身,大量的Self-Service是被数据分析师需要的。那些投资人对大家来说是数据分析师,用大家的数据是指导它进行投资。分析师需要一些工具,要把这些工具做得简单方便,自己配置就能用了,你也可以说,你使用我,找一个数据分析师,专业的,帮你天天做,这个可以,有可能是一个人,有可能是个小的机器人,你们朝这个方向做,建议可以做个小的机器人助手,可以做自学习、分析。从投资角度来讲,这个分析越全面投资越准确。数据分析人有一个很大的悖论,很特定的观点,数据看得越多、越全面,就越能够把握住相关的规律。从我们的角度来讲,到最后的结果,社交媒体里面的数据,相关的新闻报道、正式媒体里面的数据,相关的监管机构的数据、交易数据等,对大家来说都是非常重要的。

IBM有个Watson Explorer,本质来说从功能上现了大家做的数据集,但不是针对金融做的。不同的数据源,不同的数据分析报表,有大量不同的结构化、非结构化的数据,通过自服务的形式提供出去,这是IBM自己做到的一些东西,但不是特定针对金融行业做的。

速记内容有删改。

整理:干货组、张梦

注:本稿件摘自数据观入驻自媒体—数据派,转载请注明来源。