“不要被大数据(Big Data)的‘Big’误导,大数据更强调的不是数据大,而是数据挖掘。”在日前举行的第十届国家信息化专家论坛上,中国工程院院士、中国互联网协会理事长邬贺铨指出,大数据需要更强调数据挖掘利用,而针对目前存在的技术应用、人才、安全隐私等问题,最关键的是要有国家大数据战略,使其成为转变经济增长方式的有效抓手。
大数据的价值好似沙里淘金
NBA从上世纪80年代开始将球员在赛场上的表现数据化,经过30多年的积累已经达到可辨别每一个球员在场上的弱点,方便教练进行针对性战术安排。目前30家NBA球队俱乐部已有半数聘请了数据分析师,他们的平均胜率达到59.3%,而没有进行数据分析的球队仅有平均40.7%的胜率。这就是大数据的价值体现。
大数据的价值究竟从何而来?邬贺铨认为,数据大与价值大未必成正比。例如将一个人每分钟的身体数据记录下来,对了解该人的身体状况是有用的,但如果将他的每毫秒的身体数据都记录下来,数据量将较前者高6万倍,与按每分钟记录的数据相比,其价值并不能增加。大数据的价值在于样本数的普遍性。统计一个人每分钟的身体状况数据与统计60个人每小时的身体状况数据相比,可能后者在统计上更有意义。大数据往往是低价值密度。大数据中多数数据可能是重复的,忽略其中一些数据并不影响对其挖掘的效果。因此可以说大数据的价值好似沙里淘金和海底捞针。
微软的研究发现,Facebook 90%的Hadoop任务数据集在100GB以下,Yahoo平均为12.5GB。北京公交一卡通乘客每天刷卡4000万次、地铁1000万人次,每天累计的数据是MB级,一年下来也不到TB级,充其量只是中数据,但对这一数据量的挖掘显然就能得出北京人群使用公交的出行规律,对于优化北京公交线路的设置有足够的价值。因此邬贺铨指出,事实上小数据也值得重视,对未到TB级规模的数据的挖掘也有价值。
网络的数据并非都可信
Google的流感指数在2008年H7N1流感爆发时给出的预测比美国疾控中心早两周发布,与其数据相似度0.9。美国纽约州2013年1月流感流行状况十分严峻,政府发布了“公共健康紧急状态”的通告,大众媒体的广泛报道,影响了谷歌用户的搜索因为,导致Google的流感指数估值出现了假阳性,远高于疾控中心的统计数值。在谷歌流感指数的启
发下,纽约罗切斯特大学利用Twitter的数据进行了尝试,可以提前8天预报流感对人体的侵袭状况,而且准确率高达90%,不过Twitter的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童,因此基于Twitter的微博判断流感有片面性。
邬贺铨由此指出,网络的数据并非都可信。网络数据中真伪混杂,特别是微博传播不实消息散布很快,而微信圈子内的消息不易监控,对信息内容管理提出挑战。过去往往认为“有图有真相”,事实上图片可以移花接木、张冠李戴、时空错乱,或者照片是对的,可是文字解释是捏造的,这样的事情已经屡见不鲜。鉴于“谣言转发500次就是传谣”,一些网站规定所有帖子不论是否真实一律对转发自动封顶不超过499次,从舆情收集效果看,人为的截尾导致失去真实性。
他也指出,传感器收集的数据并非都是可信的,特别是历史上该传感器的数据与同类的其他传感器报出的数据差异很大时,该数据就应弃用。既然数据会有重复而且并非都是全部有用的,因此需要进行数据过滤,这对简化存储和提高可信性都是有意义的。还可以利用异构多源数据来提高可信性,收集多源异构的数据有利于对数据的理解。例如通过城市交通监控系统可以实时掌握交通流量,如果加上政府数据和网络数据,就可能知道发生交通拥堵的原因。
要重视数据的挖掘利用
大数据的挖掘深化了信息技术的应用,催生新的应用和新业态出现,大数据提升了管理和决策的智能化水平,邬贺铨提出要重视数据的挖掘利用,不仅是大数据,中小数据的挖掘也有意义。
大数据的量越大处理难度越大,但仅仅是需要更多的服务器或者说需要更高速的服务器。邬贺铨认为,大数据的主要挑战是实时性数据变化快。对于静态的数据,可以将数据带进程序来处理,但对于动态的数据,需要带程序进数据。大数据更大的挑战是品种多,特别是非结构化。对于结构化数据可以使用关系数据库技术来处理,对于非结构化数据则要用NoSQL来处理。针对结构化数据的虚拟存储平台采用了动态分层技术,根据数据被调用的频率,自动将常用的数据搬到最高层。针对非结构化数据使用内容归档平台,把结构化和非结构化数据集成到一个单一的动态归档架构中,设计一套软件和元数据库规则,通过给数据加标签的方式,建立不同维度,从而具有模糊查询功能。