2014年3月7日,阿里巴巴对外开放的数据峰会“2014西湖品学大数据峰会”在杭州召开。会上,阿里巴巴方面披露了目前该公司的数据储存情况。
目前在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据,等于104857600个GB,相当于4万个西雅图中央图书馆,580亿本藏书。仅淘宝和天猫两个子公司每日新增的数据量,就足以让一个人连续不断看上28年的电影。而如果将你代入成服务器,你处理的数据量则相当于每秒钟看上837集的《来自星星的你》。
目前全球仅有两三家公司计算技术达到单集群规模5000台服务器,阿里位列一席。随着数据量的继续增大,即使单集群到10000台,也依然会触碰到天花板。而阿里做到的是跨机房运算。这也意味着,服务器突破了机房的空间限制,可以无限延展。这一技术也让占据另一席位的facebook前来求教经验。
会上阿里巴巴集团商业智能部副总裁、数据委员会会长车品觉作了名为《大数据这三年》的主题演讲。他认为,2011年的时候,大数据概念兴起。2012年,商业开始尝试如何运营大数据。而如今,大数据进入了DATA时代,也就是所谓的数据工程化时代。 在数据工程化时代,首先要学会运营大数据,其次是大数据需要开放出来,运用到行业乃至整个社会,这样形成一个正循环,数据产生数据,循环反复,充分运营后,价值就会被不断地挖掘出来,让整个社会受益。
所以,大数据已经从4个V的年代,Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)延伸至三个维度,可实时性、可解释性、数据准确性稳定性。这三个维度是现在到底数据能不能用上的很重要的三个维度。
他认为大数据目前最大的障碍是,做业务的人不知道数据怎么用,做数据的人不知道别人怎么用。以控制为出发点的IT时代正在走向激活生产力为目的的DT(data technology)数据时代。这不仅仅是技术的升级,更是思想意识的巨大变革。
因此,之前想使用数据却无力购买服务器和增添技术人员的中小企业,可以获得数据存储、数据处理服务,也可以构建他们自己的数据应用;在这里,线上线下所有数据都能串联起来;在这里,所有人都是数据的提供方,也是数据的使用者;在这里,数据变成一种普及,就像语言一样,成为人人可用的东西,每个人都能享受数据成果。数据者的思维,将不再被应该怎么拿数据,应该怎么用数据所束缚;而普通人,也不会再被“今天吃什么”这样的问题所纠结。一切,都是数据化的。
在分享中,他还阐述了自己的数据十诫:
1.好的问题,答案就在里面。
2.在实践中提炼数据
3.让数据变成Technology,Enable更多人
4.让数据跟着“人”走
5.木有数据质量,神马数据都是浮云
6.以假设数据都能获取去思考问题
7.大数据安全,不是监管
8.利用数据拿到更有用的数据
9.建立数据的数据,才有进步
10.让人做人擅长做的事,让机器做机器擅长做的事.
阿里小微金服集团首席风险官胡晓明也做了名为《商业驱动下的大数据》的分享,他指出:数据没有大小之分,数据只有是否被商业认知之分。数据是一种信仰,只有让数据产生商业价值,数据才能变大,数据才能真正的为社会、为消费者、为制造业产生力量。据他介绍,阿里小微金服已经通过数据为70多万小微企业贷款,而且没有一家企业是实地考察,只通过数据的分析,就实现了良好的风险控制。同时,他认为当数据能够变成数据科学和数据知识的时候,它跟计划经济配在一起可以让计划变得更科学,这种配置会优于通过竞争而导致的市场化最优配置。相信这个观点会引来经济学家的巨大争论,这完全颠覆了西方主流经济学的基础理论。
来自安客诚(Acxiom)的首席分析官程杰则提出:大数据的价值在于连结。在他看来,公司网络、互联网以及网络软件,这三大领域的发展对于大数据有着至关重要的影响。同时又运用“盲人摸象”这一典故,形象地说明大数据在商业方面实现价值最重要的,也是最大的挑战在于数据的连结。现在数据很多,但是数据的价值是不一样的,尤其数据连结在不同的整合基础上,他们表现的价值完全不一样。数据如何连结?数据需要分解再整合,把一些复杂的现象分解成为单独的要素以后,就能看到最基本的特征,真正的理解了以后再把它重新组合。美国已经开发了4000个针对单个消费者的数据模型,使得廉价的数据使用之后价值成倍提高。