大数据已经渗透进人们生活的方方面面,比如商店促销决策、政治活动指引等等。究竟大数据目前发展状况如何?51CTO专访大数据专家郑玮将为您讲述大数据之道。
专访视频专题,请访问《坐看大数据之道》
NoSQL与大数据
NoSQL最早出现时,主要是Twitter这些社交媒体网站在用。因为他们需要处理每时每刻用户上传的海量图片、视频等非结构化数据。大数据概念提出之后,由于其在非结构化数据方面的优势,迅速融入大数据整体平台。
HBase在大数据平台发展较快
为什么之前XML数据库没有成功?NoSQL的数据反而成功了?郑玮提到NoSQL给了大家一个平台,可以用通用的技术去找数据,也可以去搜索那个数据。优点的地方应该是可以很快地去寻找你要找的东西,就是在很大的数据量里面能够拿出你想看到的东西。你的数据可以是各种各样形式的,不一定是一行一行结构化数据。
在这之前,你要用数据库的话需要知道你每个数据、每个数据都是什么意思,比如你的姓名、你的地址,你要先把这些东西讲好之后才能放到数据库。但是很多时候你根本不知道收到的数据是什么东西,也许有地址,也许有名字,也许有其它东西。但是我都不知道,你还是可以把它放到NoSQL里去,然后在分析的时候慢慢地决定这个是名字,这个是地址,这个是其它的信息,这是一种很不同的分析方法,你不一定要知道数据里到底有什么东西,你可以先存储,然后再用它的平台去寻找你要知道的东西,然后再说这个数据到底是什么意思。
这就是大数据和NoSQL完美结合的地方。不用预先定义数据形式,根据非结构化数据进行分析,正是大数据的强项所在。面对纷繁复杂的数据来源,传统关系型数据的能力受到了限制。
奥巴马:大数据时代的第一任美国总统
民主党的克林顿总统开启了美国信息高速公路计划,在其任期内实现了IT技术的一次飞跃。而2012年的美国大选,大数据技术成就了另一位民主党候选人——奥巴马。
51CTO编辑推荐:大数据时代的总统选举
在大数据分析技术的帮助下,奥巴马竞选团队可以从Twitter、Facebook等社交媒体中筛选出更有针对性的竞选广告投放点。比如在幕后支持巴拉克?奥巴马获取胜利的数据处理团队注意到,乔治?克鲁尼在西岸对40-49岁的女性粉丝有莫大吸引力,这个群体无疑是为了在好莱坞与克鲁尼——以及奥巴马共进晚餐而最愿意掏钱的一支人群。(译注:5月10日,乔治?克鲁尼为奥巴马举办筹资聚会,当晚筹得竞选连任资金1500万美元。)
而专访中,郑玮女士也谈到大数据是如何预测美国大选结果的。比如美国就有一个人叫做Nicksour,这次就是因为预测总统选举出名了。他本身就是一个数据科学家,他做的是把所有那些关系全局的数据拿出来,然后去做大数据平台分析。这次就是100%地把总统选举都算出来了,在奥巴马还没有当选的时候他就已经知道奥巴马会赢。而且他知道50个州里哪个州会选他,哪个州不会选他,一直到多少百分比都算出来了。
热热闹闹的美国大选,成为大数据第一次崭露头角的舞台。不论是前期竞选策略决定,还是后期的选情走向分析,都可以看到大数据的巨大力量。而政治活动的投入产出计算,其实也是一种“另类”的商业决策。
双11,大数据助力商业决策
上面美国大选的例子可以归纳到政治生活,而下面谈到的将是更具吸引力的商业决策。在2012年11月11日,中国网民守在电脑前翘首期待“光棍节”来临时,商家已经开始考虑使用大数据来指引自己的促销活动了。
郑玮女士给大家举了一个自己身边的例子。在美国黑色星期五大促销的日子里,她的一个单身女性朋友就经常收到买男士西装或者男性物品的促销单。这对于商家和消费者来说根本没有用处,双方都收到了无效的信息。
而通过大数据分析,商家就会知道怎么去分析。比如你是25-30岁的女性,你喜欢早上去上班有一辆车,另一辆车是你在度假的时候用的,可以把这些数据储藏起来,然后用大数据的平台,比如用Hadoop、NoSQL Analyse,可以帮助你做一些分析,也可以寄给你很有针对性的订单,比如50%是你最喜欢的牌子,或者你最喜欢的产品。现在的大数据是很普遍化了,不仅仅是针对一些很复杂的问题,每天生活上所有的事情当中都可以看到大数据的应用。