大数据:移动互联时代的惊涛骇浪

我们尚无法确定万物是否皆数,但是,在移动互联网时代,人类至少已经推开了这样一扇大门:通过对海量大数据的高效分析获得商业以及社会价值。大数据为移动互联网带来了新的价值,也为迈向物联网奠定了基础。

一个数据分析师以“指挥家”的模样出现在舞台上。随着他手臂的有力挥舞,一串串数据被驯服了。他游刃有余,但数据越来越多,来势越来越凶猛。他有点吃力,他左右摇摆,他手忙脚乱!一阵巨浪打过来,他站立的地方犹如一叶扁舟覆没在数据的海洋……

同样的场景,另一个分析师出现了,还是那挥舞的手臂,还是海量的数据扑面而来,但他驾轻就熟,镇定自如地指挥着,仿佛那不是杂乱无章的数据,而是音乐大师谱写的传世乐章。

2012年7月13日,在亮马河大厦的“大数据世界论坛”上,SAS公司首席咨询顾问张磊博士在演讲前,播放了这么一段激动人心的视频。全场为之雷动。

移动互联网迎来了大数据

“这是像我这样的数据人最为激动人心的时刻,因为数据库、大数据已经成为变革的中心,事实上可以成为一场革命,在IT领域、制造业、零售业、政府管理、科技,大数据改变了整个世界的运行方式。因此,我们称之为大数据的新世界。”

孙博凯仿佛还沉浸在刚才的氛围中。他是微软亚太研发集团首席技术官。孙博凯说,推动大数据变革的有几大因素,比如价格低廉的存储和云计算能力,比如“大家都意识到的移动设备的爆炸,每个人都有一个或者一个以上的移动设备,现在全世界的移动设备用户可能已经达到了55亿。”而且,“这不仅仅关乎到网络用户,还关乎到传感器,我们预计会有100亿的传感器连到网络上,这一切都为我们带来了大数据的新变革。”

也就是说,谱写这数字音符的,不是舒伯特、莫扎特,而是移动互联网时代的每一个网民以及每一台智能手机、电脑、传感器。而大数据也就是由此产生的有别于传统结构化数据的非结构化数据,或者说,传统技术无法分析出有价值的结果的数据。它占到了全部数据总量的85%。

对于大数据的来源,英特尔行业合作与解决方案部中国区总监凌琦换了一种更为简洁的说法,除了社交网络及传统的商业领域“人跟人交易、人跟人沟通”所产生的数据之外,“还有一类是机器和机器、现有智能设备网络中产生的数据,这个数量会更大,而互联网走向物联网这条路是必然趋势,随着时间的增长,大家会看到物联网产生的数据会更多”。

凌琦说,全球的数据使用量到2020年会增长44倍,达到35.2ZB的主要增长来源,就是大数据。

与传统数据相比,大数据具有以下四个典型特征,即多样性(variety)、体量(volume)、速度(velocity)以及价值(value),也就是说,它集结构复杂、体量庞大和快速处理于一身,并最终产生巨大的商业和社会价值。

就像ForresterResearch资深分析师曹宇钦说的那样,大数据并非全新技术,“大数据最主要是帮助企业对现有的数据、已经产生的数据做一些整合,相应地做少量的投入而得到更大的回报”。我们甚至还可以说,传统互联网也产生了很多大数据,但是,移动互联网的蓬勃发展、云计算以及物联网的初步应用,有力地推进了大数据时代的来临,这是毋庸置疑的。

大数据分析的难点

设想你在京东商城或者亚马逊订了一件商品,那么机器就会将你的ID号码、送货地址、手机、电话、电子邮件以及收货时间等等全部记录下来。如果你提交了物品评论,或者和好友在微博上进行了分享,同样,也会被记录下来。

洞察这一切,就意味着梦寐以求的商机。

故而,孙博凯断言:“两家公司,有一家公司利用大数据技术而另一家却没有采用,那么,未来它们的财务状况会出现明显的不同,大数据已经成为了保持企业竞争优势的竞争力。”

他说,在微软看来,大数据意味着管理大数据端到端的生命周期,“管理数据,如何获取、存储、保护安全数据;下一步,如何保护你的数据,如何清洁、发现相关的数据,如何将其他的数据与其连接起来;最后,如何在数据中获得洞察力。”

但问题是,对大数据的分析却并非易事。

凌琦认为,传统的存储结构需要升级为扩展性的存储架构,否则无法适应现有的大数据存储,同时,对于分布式的文件系统的支撑之后,需要进行实时的流处理,而“传统的数据分析更多的是结构化,数据量是有限的,集中式处理、批量处理,也无法满足需要。”

赛仕软件研究开发(北京)有限公司总经理刘政说,在大数据时代,数据分析的手段是关键,“但是传统的数据分析能力,无法处理这么大量的数据。我们平常分析上千万的数据量的时候,都会花费几十个小时的时间才能得到结果。当你的数据量达到十亿的时候,软件就根本运行不下去,有的时候会花上好几十天,这个速度人们是无法接受的。”

他列举了一些传统的分析技术带来的困惑。比如,由于分析手段的限制,取样时的样本数不够大,不能充分利用所有的数据,无形中破坏了信息的完整性;又比如,受限于分析能力而无法获取复杂问题的答案,受限于时间而不得不采用某项简单的建模技术,同样,也是由于没有足够的时间来执行多次迭代,你不得不对模型净度进行妥协等等。

刘政说,上世纪50年代,美国飞行员发现,在跟敌人作战的时候通过OODA方法就可以有效地赢得战争,也就是说,“如果你的决策比你的对手快,你就能够占得先机”。

速度在这里被提到了战略高度。对大数据的分析,也同样如此。

品友互动是中国最大的数字广告互联网技术公司,率先在广告技术领域采用大数据研究方法,搭建了多个以Hadoop为基础的云计算平台。品有互动CEO黄晓南在接受《网络导报》记者专访时说,作为国内最大的需求方平台(DSP),品友互动每天处理上百亿的数据量,其DSP平台可以对接广告交易平台(AdExchange)进行实时竞价和智能算法,50毫秒内完成响应。

可见,没有速度,再有价值的大数据也只能是一堆无法流通的钞票。