企业大数据的实时分析之路

  很久以前大数据有三个概念,三个V,第一个V是非常大的,海量。第二个V是速度,很快。第三个V是多样化,很难。其实过去我们做大数据的时候大家一般都会强调一个企业有多少多少数据量,每天要加载多少数据,多少万条用户,每天月活是多少,在过去的时段里,特别是现在国内的创新企业,我们的数据真的越来越多,每一个企业都是数据资产企业。但其实到现在为止,每一个企业真的都有了很多的数据,下一步模式要面临的是我们怎么能让这些数据高效的运转起来,而不仅仅是只拿到很多数据存储起来,并没有把它变成真正的实用价值,中间也遇到了很多的问题。

  我记得我刚刚开始做数据的时候大家都说我们现在有几个GB的数据,后来发现我们自己的仓库有TB级数据仓库,现在大家提到大数据平台的时候都会提到PB级的数据平台。大家会发现,随着我们的数据增长,这些并不能够很好衡量我们自己的数据量级,PB级其中一部分,再往上大家能看到EB级数据,ZB级数据。现在整个宇宙统计信息量来讲,其实它是有250万亿数据在里面,将来所有数据加在一起不能用YottaByte衡量,其实我们的潮流速度并没有几何速度提升。我下面会讲到每个企业怎么样通过这么大数据量级帮助我们做相关的分析和相关的处理。

  这里有一个观点,过去大家经常说我们的数据非常大,第二天我们会看到头一天很多相关的分析报表,我们的运营情况,其实我们会看到,我提一个概念,数据永远是临时的,分析永远是有时效性的。无论你是在网络也好,还是其他电商处理也好,你会发现一个现象,你购买一个东西,比如你购买了一个手机,购买以后你会发现,这些电商广告还非常少的一直推荐你,在周围所有推荐位都是手机,即使你完成了购买动作。为什么呢?为什么他的推荐没有这么有效了呢?不在于他没有捕捉到你的数据和信息,其实他已经完全采集到我们的信息,但为什么没有很快的根据你现在的场景来去反馈你相关的推荐方法呢?其实是因为他的实时分析和他的实时计算没有做到。所以第一点,我们在做很多的日常处理和我们真正在做