中国科学院院士怀进鹏:大数据及大数据的科学与技术问题

3. 操作相关。过去计算模型应用比较多的是比兴处理的MapReduce,是静态、离线的全量批处理。以前是计算密集型,数据挖掘的处理是单一的。对于传统数据库一直受到关注,收益也很好,但现在用不上了,所以Hadoop开始成长。对于这样的问题,同样是G=F(X),现在的问题是全量数,到齐了先Map,再Reduce,在增量问题中它不是唯一的,也不是最好的。同样是3I的计算,可精确性、增量性和归纳性,仍然有很多问题。作为软件和系统也有很多问题。

第二大类问题是关于系统的设计。由此我们怎么做数据挖掘和分析系统?也是一类非常关键的内容。这是对于软件和未来互联网大数据分析特别重要的内容。我不展开讲。

在大数据云计算的背景下,软件在数据服务和运行模式当中也会有新的机遇。这个机遇对我们的影响也是特别巨大的,就像我们现在做APP应用的时候。这样我们将面对3个问题:

 

  • 未来数据的服务和软件的服务将成为主要的软件设计和开发的模式。
  • 软件的设计开发和维护方式。
  • 关于可信和隐私。

 

这是几年前的一张PPT,曾经有一个公司,发现网上一个建筑师住在某个州什么地方、没有孩子、喜爱旅行、最近买了一辆二手车,完全是根据客户的点击分析用户行为。现在也有公司把社交网络作为情报分析的工具。同时,也有在应用过程中,由于大数据放在云计算中心的服务内容导致系统的崩溃影响直接的应用。对于到可靠的数据存储和处理能力,特别是对不需要的用户的隐私是非常重要的。所以我个人认为不是简单的因为大数据是数据量的变化,是有质的变化。从过去科学计算、商业计算到未来的新的计算模式出现的时候,数据科学的理论、数据处理的方式可能都带来全新的认识和思考。这不是计算机科学单独可以解决的,可能需要经济学、社会科学和数学等其他领域的结合和发展。