大数据时代最热的三个关键词为:云、大数据、分析。云计算之热在此不必赘述,因为不管你看微博也好,浏览网站也好,如果三页看不到一个云字的话,那说明你一定不在IT业。
可是,人们往往会看不透云计算,也不知道到底该怎样做、做什么样的事情。云计算如果不用来做分析的话,那么你只能云里来、云里去,永远没办法化云为雨。
何为大数据?何以据?
我们先一起看看大数据这个词发展的历史。
60年代的时候,人们提起数据这个词的时候,都只提Data。70年代创建了一个词叫Database,从数据变成了数据库,库这个词就显得很大了。1975年创建了一个词叫VLDB,80年代又创建了一个词叫Data Warehouse,数据仓库比数据库还要大。到了90年代,人们才开始对数据仓库里面的数据做了一些事情,叫做数据挖掘Data Mining。随着90年代末期中期到2000年这个新的世纪里面,互联网行业社交媒体还有云计算等等这些技术不断地发展,人们又觉得这些词都不够了,于是就有了大数据Big Data。现在在国外已经创建了一个叫Extreme Data,也就是说大数据也不够,还有极端数据,为什么呢?
在我看来,大数据不过是人们在三、四十年前对数据的理解,以及对数据管理和运用手段的不断提升,所以不要管这些词的叫法,我们先看看大数据都做了哪些事情。
以中国的某电信运营商短信业务的数据来看,每年7000多亿条短信,5年下来就是3万多亿,其实这些短信里面还是有很多价值可以挖掘的。想要挖掘这个东西难不难?3万多亿行数据,先不说这个表有多宽,先说做一些数学的统计、分析,就已经是一件非常困难的事情。
大数据的4V理论
目前业界对大数据总结出来一些特征,在这里,我用了4V理论来概括。
第一个V,数据量,它决定了大数据的基础架子;
第二个V,速度。既使在大数据的数据量的规模下,企业其实还在要求能不能够很快地把一些分析做出来。
第三个V,就是数据类型。过去我们在金融、电信行业里面经常做一些非常简单的数据集,比如说号码、姓名、年龄、主叫人的号码、被叫号码、主叫时间等很结构化、很整齐的一些数据。现在有大量的数据不是结构化的,是半结构化的,比如一些文字,微博上的信息如何去分析,这就是大数据要解决的问题;
第四个V,变异,就是不管人们怎么去想象这些数据,它随时还都是在变的,变动越快、越大,对我们的处理能力提出的挑战越大。现在大家手上已经不光是微博了,还有微信,已经加上了声音的信号,已经有图象甚至视频。如何通过一个短信或者说彩信的方式发出去,怎么样去处理这些信息,其实都是我们要面临的问题。
大数据需要分析云平台
分析这个词,是在大数据或是云计算里面,必须要提到一个战略高度来认识的词。如果你的云计算平台没有考虑如何对存储下来的一些数据进行分析的话,那你存的又是什么?如果你没有办法把这里面的价值挖掘出来的话,你怎么区分一个是金矿,一个是垃圾堆?我存了大量的垃圾能够有用吗?当然,没有用处的。
大数据面临的问题之一就是如何对数据进行快速地采集。数据的采集是非常困难的事情,对比现在的数据库水平和数据增长的趋势,可以看出,数据增长速度比我们现在数据库的处理能力要大得多。
这里,大家可以看到一些耳熟能详的关健词,像Hadoop、MapReduce,像Sybase IQ代表的列式数据库,还有Sybase Event Stream Processor事件流处理器,怎么样对流数据进行实时的加工,都是企业现在需要掌握的一些技术。
大数据的分析还有一些周边的、外延的工具,比如说像Matlab、SAS、SPSS或者现在非常火的Revolution R。开源的里边有Hive、SciPy,Mahout、AMPL等等这些技术,在不同的领域里面都有很多人在研究、在分析着。
信息价值的挖掘有很多方法论和手段,比如说怎么样去做社交媒体的分析,怎么样去做行为分析、情绪分析。还有就是业务场景上个性化的服务、个性化的分析、个性化的推荐等等。
现在的数据库市场在面临这么大的数据,这么复杂的数据类型,以及这么快的变化面前,已经不再是一统天下的格局,没有一个数据库产品,或者没有一种数据库产品可以完全地解决大数据的问题。未来的格局可能是什么呢?
在一个企业或者是像一个IDC这样的架构里边,必须要面临一个工具箱的状态,这个工具箱里面有各种各样的工具,每个工具的体验点都是不一样的,互相之间几乎是不可取代的。现在的数据库市场也面临这样一个格局,很多时候做OLTP,要用行式数据库,做大量的数据分析时要用列式数据库,因为它可以带来十倍、百倍的速度提高。
那么对大数据实时的处理,我们要用做数据流的分析数据库、内存数据库;在手机上或者说一些移动设备上要想做一些小的应用,我们需要一些嵌入式的数据库;还有面向对象数据库等等。在大数据的处理格局下,大家必须要接受这样的一个观点,就是专项的数据库用于解决专项的问题。