对话人:
英特尔中国研究院首席工程师:吴甘沙/微软亚太研发集团主席:张亚勤/微软雷德蒙研究院联席院长:埃里克·霍维兹 更多详细信息,请您微信关注“计算网”公众号:
紧跟着物联网、云计算,大数据裹挟着各种版本的概念呼啸而来,短短时间内引领了新技术??热点话题的关注度。
大数据究竟是什么新玩意?大数据真正的魅力体现在哪里?本报记者约请几位专家进行了对话。
大数据有多大
记者:对于大数据,有一个形象的说法:现在即使是一个孩子,也可以把一个小小的存储器放入书包,随身携带TB级的数据去学校上课,甚至把整个人类文明背上都不是问题。经过大量数据的训练和装备,未来的电子产品或者机器可以成为“大有裨益的终身数码伴侣”:它可以预测你是想要一包方便面还是一颗感冒药,你想去旅游还是选择最不堵车的路线去看球赛,甚至还能以你的名义饱蘸激情投入工作。大数据这个概念看似从字面就能理解,但确实以前没有这么火过。首先我们想知道的是,大数据到底有多大?
吴甘沙:互联网搜索、电子商务交易平台和微博等社交网站产生的各种数据内容,经常被用来证明大数据之大。其实在传统产业和我们的生活中,大数据也比比皆是。
以北京交通为例,北京市的交通智能化分析平台,它的数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业等:4万辆浮动车每天产生2000万条记录﹔交通卡刷卡记录每天1900万条﹔手机定位数据每天1800万条﹔出租车运营数据每天100万条﹔高速ETC数据每天50万条……这些,从数据体量和速度上也达到了大数据的规模。
发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会。也正是大数据最主要的特点。
比如,交通状况与其它领域的数据都存在较强的关联性:有研究发现,可以从供水系统数据中发现晨洗的高峰时间,加上一个偏移量,通常是40—45分钟,就是交通早高峰时间。同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。国外的研究甚至发现了交通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。
记者:IT业界所指的数据,诞生不过60多年。而一直到个人电脑普及前,由于存储、计??算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。大数据有没有一个“门槛”?一些定义准确吗?
吴甘沙:国际数据统计机构IDC对全世界每年创建和复制的信息的体量做了估计和预测:2011年1.8ZB,2012年2.8ZB,按照每两年翻一番的速度,2020年达到40ZB。这个数据怎么算出来的?IDC秘而不宣。1.8ZB什么概念?相当于4500亿张DVD,或6500万年的高清视频,或是1130亿台装满数据的iPad。如果把这些iPad覆盖到足球场,并往上堆叠,高度将达到10.3公里,比珠穆朗玛峰还高。思科公司也有一个类似的预测:2016年数据移动的总量达到1.3ZB。其实所有这些数据加起来都不如谷歌的前CEO施密特说法有感染力:从人类文明曙光到2003年数以万年计的时间长河里人类一共产生了5EB(天知道他怎么算出来的),而到2010年每两天人类就能产生5EB的数据。
这类数据的预测,对于存储和网络企业的投资者来说,无疑能提升信心,但对其他人来说没有太大意义。他们更关心的是个体行业、企业和个人数据的状况。
美国咨询公司麦肯锡对大数据的定义就是从个体数据集的大体量入手的:大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。传统数据库有效工作的数据上限一般来说在10—100TB,因此10—100TB通常成为大数据的门槛。
无独有偶,IDC在给大数据做定义时也设在100TB。其实这种方法未必科学,不管怎样,有一个简单明晰的数值来指导企业大数据的判断,总是好事。
大数据如何诞生