“我们现在都用低成本分布处理器,但低成本如何保证可靠性?另外,仅存起来也不行,如果没有标签,将来也找不到,还需要标签化,方便快速查询分析。”邬贺铨表示。
数据价值密度相对较低是大数据的另一大特点,如何在海量信息中快速完成价值“提纯”并以可视化结果呈现,需要在算法、人工智能等技术方面加以突破。相对于文本等结构化数据而言,照片、视频等非结构化数据处理难度更大,不能简单地通过关键词进行搜索分析,如何将各类不同数据关联起来处理也是一大难题。
邬贺铨指出,“在大数据的分析挖掘上,一方面需要更强大的算法提升处理能力,同时需要通过人脸识别等人工智能技术研发,实现对图像数据的智能分析。”
大数据带来的挑战不容小视。2012年3月,美国政府拨款2亿美元启动“大数据研究和发展倡议”计划,旨在提升从海量和复杂的数据中获取知识的能力。
邬贺铨介绍,围绕与大数据相关的科学问题,比如低成本大规模高可靠性存储、数据智能分析和挖掘等,国家973计划中已经并将会部署相关的科研项目。
发展大数据切忌盲目跟风
对于各地政府纷纷提出率先布局大数据产业、建设大数据中心现象,邬贺铨表示,尽管大数据是个值得重视和关注的方向,但目前技术上并不成熟,各地不要盲目上马大数据项目、建大数据中心,以免重蹈云计算过热的覆辙。“我并不反对有条件的城市,由政府主导来建大数据中心,只是担心一些地方没想清楚做什么,就盲目购买一堆硬件、软件设备,建好了没人用,造成资源浪费。”
在邬贺铨看来,云计算发展几年来成效不显著,很多地方建的云计算中心利用率不高,不少还仅仅是数据库,没有提供云服务的能力。
症结就在于起步太急,没有考虑清楚为谁建、建了做什么,一哄而上的云中心、云平台最后成了租不出去的“数据仓库”。“大企业有自己的数据库不需要租用,中小企业出于数据安全和成本的考虑也不愿意用。”
因此,发展大数据产业需要有明晰的产业规划,建大数据中心要有明确的用途和服务对象。邬贺铨认为,由政府主导建立的大数据中心,首先应该用来分析政府部门数据,比如交通流量、气象、医保等,帮助政府部门决策。此外,面向企业应用时应首先考虑中小企业需求,开展有针对性的服务。