怀进鹏:大数据时代的三大挑战

中云网 讯 2012年10月29日,《中国云·移动互联网创新大奖赛决赛颁奖典礼暨创新创业论坛》在北航举行。会上,中国云产业联盟联席理事长,中国科学院院士、北航怀进鹏校长做主题报告。他表示在大数据时代面临三大挑战:1.软件和数据处理能力。2.资源和共享管理的挑战。3.数据处理的可信能力。现场速记如下。

中国云产业联盟联席理事长,中国科学院院士、北航怀进鹏校长

中国云产业联盟联席理事长,中国科学院院士、北航怀进鹏校长

中国科学院院士怀进鹏:尊敬的各位临时,特别是从美国专程赶来参加我们这次论坛的陆奇先生,亲爱的益民老总、李彦宏老总,我今天快点讲,把时间留给陆奇先生,因为他晚上还要赶飞机,所以能够让他有更多的时间介绍在这个领域激动人心的事件,以及对未来的思考。

互联网技术,我们都知道IT追求的目标,是追求更强更快和更高。所以,从过去微电子技术创造了很多新的机会,我们知道的摩尔定律,传输的通讯技术,给我们插入优秀的管道,计算和存储能力的不断增强,使得现在的超级计算机和存储得以加强,但是现在由于新的发展形式,以及技术本身的壁垒,完全靠着传统方式的增长,已经出现极大的局限性,最最重要的就是互联网是我们一次重大变革的基础。

最近也一本书说是第5次科技革命或者第3次工业革命。无一例外就是把互联网应用和社会生活结合起来,成为一个最重要的发展内容。而从现在的大型企业和IT厂商的发展和实际运行的情况,我们已经看到数据确实成为战略和经济发展的一个重要基础设施。这也得益于我们所谈到的对信息技术快速的发展,而导致我们现在是以数据和服务为中心前提下开展新的工作和新的探索。数据整个的变化出现了一个巨量的增长。我们看全球数据增长的内容,每天现在的大数据量,以及现在目前完成的内容来看,90%的数字内容和十年前、二十年前、六十年前相比,有一个巨大的变化。但回过来,面对这么大的数据空间,我们可能带来的一个新的挑战就出现了,比如说到2007年的时候,Facebook使用数据仓库存储15个TB的数据,但到了2010年,每天是压缩过的数据,都不是数据仓库来存放的数据就比过去总和多4倍,商业并行数据很少有超过100个节点以上。现在雅虎的Hadoop集群超过4000个节点,Facebook仓库节点超过2700个。而在大量的数据应用当中,还有在科学的私人计算、医学的数据。也就是说大量的数据现在实时性开始影响我们整个的工作,生活,甚至经济。

所以,有人也提到,从过去资本经济的时代进入数字经济的时代。特别是我们所看到的虚拟世界、物理世界与人类社会相关联的时候,创造出了更多与以前所不一样的。所以有学者说,18个月翻一番的数据量导致存储和处理能力的提高,开始落后于现有数据增长的幅度,导致现在我们知识社会当中面临的最大的瓶颈。而在这个瓶颈下,过去的数据,以商业数据为主,是确定了数据。而现在的数据都是不确定的数据,还有大量实时内的数据。作为数据处理的能力,究竟应该在哪里,应该说最近这十年来,大家一直在探索,比如说以科学计算为基础的网格计算,以边缘数据之间的P2P计算,以及最近这几年非常热的智慧地球、智慧城市和物联网。

究竟在最近这几年已经城成为实时性的大规模的云计算,是否是未来解决海量内容的重要方面,大家仍然在探索,是比较集聚的领域。无论从哪个角度来讲,云计算公开处理得问题,对于海量的数据如何提高智能的处理能力。但是,面对的同样技术问题出现,第一,数据管理能力,数据处理能力,高可靠安全服务的能力。正是因为这三个能力的局限性和发展空间,也为现在的数据处理带来了新的机会,就是数据和经济社会密切相连。

所以,我们以前说,过去科学研究的三种模式,从实验到理论分析到计算,一直成为我们当前科学研究和重大发现的基本手段。那么,现在的另一种模式出现,就是所谓的Data  intensive,已经在影响科研和生产当中,有第四种形式出现支持新的科学研究发展,可能也会为时不晚。作为在应用当中,实际上云计算也好,移动互联网也好,更多的期望在互联网这个虚拟世界当中,建立一体化的系统,构造这样的云计算或者一个虚拟计算环境,能够使得所有的资源和数据,传统的数据,能够集中被人类共享和创造新的知识,形成一个更有效的一体化的环境和发展空间。云计算究竟是什么?现在很多人说它是四维,量大,类型大,价值密度低,不像过去手工业当中的数据,价值远高于现在云计算的价值。

而这样一个价值密度低的情况,按常理来讲就是创造无穷的价值,这个带来的挑战是远大于对无关数据一般性的分析,同时更新速度极快,一个商业数据保留是有时效性的,现在的数据,我们看到的网页,看到各种新闻,都在快速重复数据,人体健康、教育的数据在大量的更新,一个时刻的数据不足以重要,但是一个长时间的积累和断面的结合,新的数据时空观出现了,这种价值给我们带来的创造性,我觉得可能是大数据是前所未有的。正是因为这样的情况,我举个例子,相当什么情况呢?我以前提到过这个例子,北航有2000人在食堂就餐,突然有20万人,满足基本生活保障,还有基本提高,怎么做?多了十倍的人要吃饭,保持生存状态,最简单的方式,中国的白菜炖豆腐,怎么炖?煮开水,加豆腐、白菜,最后来做,形成了一个新的福特汽车生产线一样,一个流程的管理,一个生产线的管理,数据生产线在形成。这种新的形成方式开始出现不同的专业领域,各类的垂直平台,整合公共处理模式的统一水平的平台,就在创造。那么这种创造实际上也是云计算的一种模式,更强调的是根据数据中心为基础的一种新的服务应用模式,建立了开发者和运营商的一种新的互利共盈的内容。不在于解决过去商业数据和科学数据的高性能,而是要保证一个新的性能价格比,不是高质量,而是能处理的了,不是要很精确,但是基本可用。所以,对于价值密度低,但是数据量剧增的新的难题,这是我们数据进入规模化的发展阶段,这样的发展阶段也是我们搞计算机人的梦想,所谓一切都靠计算。我们以前的物理世界通过仿真建立数据模型,通过高性能计算机支持发展,通过智能活动建立我们的装备,嵌入个系统,我们说可穿戴计算机,嵌入系统也好。还有就是我们互联网已经做到更好的进行通讯的能力。那么,这个思想是图灵奖得主巴特尔所谈到的,根据他的思路,对于这三个特点的总结。

究竟过去的商业计算、科学计算带来什么内容?科学计算解决图灵机和算法,奠定计算机的基础,科学理论。商业计算是为了实现流程的管理,工作流是其中的一种代表,社会计算中,大数据情况下是什么,不太清楚。那个年代的科学当中,使得操作系统的发展非常壮大,管理底下的资源。到了商业计算当中,数据库的发展,而到了大科学数据当中,大数据量下是什么问题?也还不清楚。

因此,作为这种社会计算对当前的数学模型,软件,系统的能力,都有了新的完全不同的可能变化。所以,我在这里想说一下我的理解。

第一个大的问题就是软件和数据处理能力。由于软件的复杂性强和巨大的问题,互联网巨大规模的应用和数据的不确定性,我们过去软件在封闭世界研究的数理逻辑的研究仍然有效,但是遇到更加开放、动态的问题。比如说数据模型和处理,给另一个海量数据做输入,如何做输出,并能找到问题的答案。过去的算法就是看它能不能计算,来决定计算机能不能处理。计算好和坏。现在按照传统计算复杂性,我们看所有的大数据都算不了。所以,怎么在有效的时间内找出它的近似算法和最逼近的算法,这是对数据新的规模当中新的科学问题。传统的商业数据库为什么做不了?第一,它用授权收费,价格极高,开源数据库的维护将会比买一个授权还要贵。我们看过去管理传统数据,一个TB一万美元,Hadoop系统一个TB500美金,大部分情况下用到什么内容?传统的数据库就是Scarle  up,性能的提高,对CPU、存储等进行不断的扩展,这是传统的并行计算的模型。现在的大数据分散在互联网,分布式的、动态的增加低成本的计算和服务能力。因此,这样的方式也是一个新的挑战,同时对于软件,什么样的模型能适应它的发展。我们知道Hadoop,图形处理,一种基本的编程模式远远超越于我们过去的程序设计语言,超越于我们网站的设计。而在新的方式当中,它对于最低的延迟和最简单的任务操作开始提出新的问题,要求的挑战出现。同时新的特征出现,因为它是分布式剧增节点的内容,因为它的可扩展性,以提高他的生产效率,吞吐率,通过新的容错和可靠性的方式维护系统,互联网的系统永远没有短板的原理,每一个节点都是最高点。因此作为Fault  tolerance方式来讲,已经有新的变化。作为这个领域,我们看到模型到软件都有变化,同时在数据科学,过去以手工分析,以商业数据为基本的方式,在大科学数据下,已经开始显现的越来越苍白,原因就是如果过去数据是手工农业社会的话,现在进入工业化的社会。工业化社会基本的数学物理特征就是统计物理学、实验物理学和我们过去的随机过程。过去计算机依赖的,以及有限条件下的数理统计,代数系统建立新的处理的方式,是变成更重要的一种内容。因此,对于我们处理这类数据的工具也发生了很大的变化。

昨天和陆奇先生,也在讨论,现在在很多重要的企业当中,统计科学、实验物理学成为大家最重要的手段,新药的发现,人的习惯,阅读的分析,商业的模式,都从这里大量统一分析出现。我以前也提到过,过去对50万个单词学习拼写解答,进行语音、文字或者句子的理解,现在50万,500万,500亿的句组,再用过去的方式就不适合了,而是大规模的、新的、工业化的数据为基础的处理能力。要求我们对新的数据科学理论,提出对算法、计算方式,以及新的搜索引擎都有新的挑战。这对学术界是大的机遇。以前的文件系统、数据互联网、基于不同角度的搜索,从细节到整体,从局部到系统的新的方式,都带来新的机会。这样的内容还带来一个问题,虽然密度低、价值低,但是数据质量仍然是持续的问题,怎么解决数据质量,新的Qulity,跟过去的数据处理都不同。

因此,作为新的大数据下,软件和数据处理能力,成为最重要的,也是未来科学研究对于其他学科当中一种发展的手段,第二个挑战,就是关于资源和共享管理,如此众多的资源要解决以及不断支撑新的需求的Scarleout的模式下,怎样把存储、数据能够作为公共资源的管理,以解决不同类型中的应用,这里的问题有很多。大家知道,网站的环境,或者有一些环境都影响这个系统生存和扩展规模的能力。

那么,这样的能力已经不仅影响到我们一般的应用,对能源、数据的管理,作为价值也是极高的情况,所以它的消耗能源也变成一个重要的问题。那么,这里一个最重要的问题,就是未来的资源管理更向系统,或者是否存在单一的垂直管理系统,以及所谓的统一的操作系统,也变成了现在争夺的最重要的问题。如何管好数据和管好资源,成为重要的内容。这种方式的解决可能又创造互联网新的方式,就是数据与服务运营商的出现,因为用户是数据的创造者,服务软件提供各类的服务,一切能想象到或者数字化都可以作为服务提供。所以数据与服务运营商将会成为电信运营商的模式,重要而且会快速发展的内容。那么,这种模式的出现,可能会对我们互联网,移动互联网的发展也会有重要的内容,解决多样性和发展处理存储的问题。

第三个问题,就是数据处理的可信能力,解决云端的一体化的安全监控,系统的恢复,以及再往后发展的高可靠性的能力。对于这样一类问题,应该说,随着技术的发展,一个安全的问题,可信的问题,是和重大系统应用是相伴而生的,但是它确实是一个重要的问题。不光是没有价值的大量数据出现,而且隐私数据也非常重要。因此,在大数据时代当中,我觉得随着数据的分布性,异构性和动态快速变化性,加上个人拥有的质性,可计算的问题,可管理的问题,可信任的问题,共同组成了在大数据时代的新的三类和我们需要有新的手段,可能会关注到的三个典型的科学问题。

我理解,软件发展这么多年,几十年,计算机是以数据处理为中心的。所有的事情的诞生都是以数据处理为核心。但是,进入到今天,已经超越我们过去简单的数据,如果我们看80年代出现的软件成为商品,90年代创造出的第二次变革,是简单的、基本的、重要的信息服务业。在现在来看,就会进入了一个新的发展,数据创造了价值,而不是一个简单的应用或者信息的堆积。因此以数据为中心下会给我们带来机会。但是从过去IT发展来看,虽然应用有一段时间,但是技术的突破和新的应用载体窗口时间并不是很长。因此理论和技术上的创新和持续的发展,会给我们带来机会。但,同时应用模式的创新更重要,特别是IT的创新,实际上在不断的验证Case法则,Hadoop就是简单编程模型,就是保持它的简洁和最有效,就是我们IT领域。

因此在这个领域当中,年轻的学生,年轻的人,在这个领域,你们的脑子里还没有被跑马圈地,还有很大的空间去创造,因此这也是最有机会的发展内容,谢谢各位!