企业大数据的实时分析之路

  第三个,我们要实现实时的计算架构与算法。这里分几层:第一个是实时采集,你现在有相关的合作伙伴也好、生态也好,自己的SDK也好,采集也好,通过智能设备也好,把你的数据采集上来。再往上是实时计算,这只是其中的一部分,我把数据实时计算出来,因为你把它计算出来如果你不能给它做很好的查询,其实这件事情还没有达到分析报表层面。所以再往上一层最基本的,实时查询,目前也是越来越多的开源和相关的技术小伙伴投入到里面,比如像麒麟,他主要做实时OLAP查询,百亿级的数据怎么能够在秒级别甚至毫秒级别能够把数据查询出来,这是像麒麟这样的。像Greenplum,他怎么能够在那么大数据量里面秒级相关数据查询,当然,现在也有一个新出的Druid,很多用户在用,也是实时OLAP引擎查询。包括Impala、Spark SQL,我们计算到某一个结果以后,要给你的业务部门,要给你的分析师,要给你的相关风险控制部门能查到这些用户实时动态,不仅仅是当前此时此刻的数据,还包括了这个用户以往一年两年、三年,甚至很长的数据,能够实时把数据相关分析做起来。

  后面这个稍微多讲一点,实时分析算法,大家比较熟悉的是R,MLlib ,Kamanja,MOA,SAMOA,后面三个是大家不太熟悉的,开源也有一段时间了,他们做流式数据挖掘的,我给大家多讲两句SAMOA,我们做了采集,做了计算,做了查询,其实并没有做完,需要将你现在的状况把它实时分析出来,变成一个模型。举一个例子,昨天Google的郭老师举了一个例子,Google做防风险欺诈的时候,能看到手机屏幕点击的位置,从而看到你这个人是机器在点还是人在点,这个过程完全就是通过我们流式的聚类就能做出来,每次点击的时候能够看到每个设备究竟是聚在一起点击还是随机点屏幕任何东西,从而看到防欺诈相关的算法。再往上相关的并发服务很多小伙伴比较熟悉了,比如现在常用挖掘的实时Python,我就不做分析了。