邬贺铨指出,“大”仅仅是大数据的特征之一,大数据包括ABC三个要素:大分析(Analytic)、高带宽(Bandwidth)、大内容(Content)。实时性是大数据挖掘的挑战,而非结构化是大数据挖掘的主要挑战。目前国际上大数据处理技术主要还是结构性数据,据说大数据中80%以上都是非结构性数据。2012年斯坦福大学与Google合作建立深度学习网络,对来自YouTube的上千万幅视频帧自主学习,用10天学会了识别猫的脸孔,然后从2万张未见过的照片中找猫,准确率仅达到15.8%。可见非结构性数据的挖掘技术到实用还有相当距离。目前国内外都有很多大数据应用成功例子,但基本上还是结构性数据,对结构性数据的挖掘是大数据应用的切入点。
大数据的挑战最终是战略问题
邬贺铨指出,当前大数据面临的问题主要表现在技术和应用、人才、安全隐私、发展战略等方面。
首先是技术和应用问题。中国人口居世界首位,但2010年中国新存储的数据为250PB,仅为日本的60%和北美的7%。我国一些部门和机构拥有大量数据但以邻为壑,宁愿自己不用也不愿提供给有关部门共享,导致信息不完整或重复投资。2012年中国的数据存储量达到364EB,其中55%(200EB)的数据需要一定程度的保护,然而目前只有不到一半(44%,即96EB)的数据得到保护。我国在自主可控的大数据分析技术与产品方面与发达国家相比有不少差距。国内企业在数据库、数据仓库、商业智能分析软件等领域基础薄弱,尤其是大数据方面已经远远落后于国外先进企业。
其次是人才问题。500年前达·芬奇可以同时是画家、音乐家、工程师、科学家,100年前的医生可以了解医学领域的所有分支,今天一名初级医生必须同时了解大约一万种疾病和综合征、3000种药物和1100种检验方法。估计一个专业的医生也需要每天学习21小时才能跟得上学科的发展。Gartner咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位,麦肯锡公司预计美国到2018年深度数据分析人才缺口达14万~19万人,还需要数据需求和技术及应用的管理者150万人。中国能理解与应用大数据的创新人才更是稀缺资源。
然后是安全与隐私问题。大数据的利用首先要求政府数据原则上该公开的必须公开。大数据的挖掘与利用需要有法可依。我国需要尽快制定“信息保护法”和“信息公开法”,既要鼓励面向群体而且服务于社会的数据挖掘,又要防止针对个体侵犯隐私的行为,提倡数据共享又要防止数据被滥用。安全与隐私保护的隐患仍大量存在,重要的数据存储和应用不能过分依赖大数据分析技术与平台,需要重视信息泄密的风险。
最后是发展战略问题。信息化要从重视硬件到重视软件,再到重视数据的利用,不仅大数据,中小数据的挖掘也有意义。需要制定国家大数据发展战略,大数据是一个应用驱动性很强的服务,其标准和产业格局尚未形成,这是我国跨越发展的机会,但切忌一哄而起在目的不明情况下到处建设大数据中心,到处搞“数据房地产”,而是需要从战略上重视大数据的开发利用,将它作为转变经济增长方式的有效抓手。