专访:大数据时代 人人都有洞察力


 
记者:大数据现在是个时髦的词汇,但和云计算一样,似乎很多人还没有了解大数据是什么?或者说,因为大数据太热了,各种各样的说法都有。从我个人的理解,大数据应该是和云计算一样,是随着IT计算能力、资源和网络、服务器等硬件设施的发展自然而然诞生的,它应该是被看作一种能力,而不是数据本身。
 
埃里克·霍维兹:时髦词汇的产生有各种各样的原因。对于大数据而言,我认为是几个因素共同导致了这一朗朗上口的词汇的流行。其中之一是人们在不同领域采集到的数据量之大,达到了前所未有的程度,而传感、存储和网络等计算机科学领域也在不断前行。人们需要收集大量数据,一部分原因在于许多人类活动已经转向了网络,各种交易和事件数据的收集变得十分容易,而且能够实时同步收集。这些活动包括电子商务、通过道路上的传感器记录汽车行驶状况、利用位置数据提供智能手机服务等。而在医疗领域,基因组研究的突飞猛进和医院临床数据捕获,将越来越多的GB级乃至TB级患者数据输送到数据库中。
 
吴甘沙:数据总量的增长主要归功于非结构化数据的增长,目前普遍被认为占到85%以上,而且增速比结构化数据快得多,有种说法是快10—50倍。
 
早期的非结构化数据,主要是文本,如电子邮件、文档等。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频、模拟信号等等,真正诠释了数据的多样性。但同时,低信息密度的非结构化数据是大数据的一大挑战。
 
从具体内容上,大数据通常分为四类:科研数据、互联网数据、企业数据、感知数据。
 
科研数据属于大数据时代前很久就存在的“史前生物”,可能来自生物工程、天文望远镜或粒子对撞机,不一而足。这些数据存在于封闭系统中,玩家都是传统上做高性能计算的企业或机构。最著名的是欧洲核子研究中心的大型强子对撞机,此机不撞则已,一撞惊人,工作状态下每秒产生PB级的数据。
 
互联网大数据是目前这个时代的主流,尤其社交媒体被认为是大数据的爆发点。几乎所有的大数据技术都起源于互联网企业。所有这些企业当中,做搜索的最大,百度达到了千PB的规模,谷歌更大一些。脸谱网、雅虎等都在数百PB,亚马逊、阿里巴巴应该也同在此列。
 
进入移动互联网时代后,移动平台的感知功能和LBS(基于位置的服务)的普及,使得互联网数据与感知数据产生了重叠。同样,企业数据和感知数据也有重合,如企业会部署物联网收集感知数据。但感知数据的体量要大得多,甚至有预测感知数据的总量在2015年超过社交媒体,并达到后者的10—20倍。企业自身的数据比起十年前虽然没有数量级的提升,但也得到了有机的增长:一方面,内部数据从结构化数据扩展到非结构化的数据,另一方面,更强调与新的外部数据源如社交媒体数据的融合。
 
大数据的价值在于获得洞察力
 
记者:虽然有多种解读,但业界一般认为,大数据有四个“V”字开头的特征:Volume(体量), Velocity(速度), Variety(种类),Value(价值)。这其实也是大数据概念的组成。Volume是指大数据巨大的数据量与数据完整性﹔Velocity可以理解为更快地满足实时性需求﹔Variety则意味着要在海量、种类繁多的数据间发现其内在关联﹔Value最重要,它是大数据的最终意义——获得洞察力和价值。简单说,大数据4个V:就是体量大,快速化,类型杂,价值大。
 
张亚勤:体量容易理解。速度可以理解为更快地满足实时性需求。数据的实时化需求正越来越清晰。对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上,还可以用LBS应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
 
通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接,这些连接不可避免地带来数据交换。而数据交换的关键是降低延迟,以近乎实时——意味着小于250毫秒的方式呈献给用户。

更多详细信息,请您微信关注“计算网”公众号: