程学旗:关于中国大数据生态系统的基础问题思考

“中关村大数据产业联盟”推出“大数据100分”论坛,晚上9点开始,于“中关村大数据产业联盟”微信群进行时长100分钟的交流、探讨。

白硕:担任今天主讲的是中科院计算所程学旗研究员,大家欢迎!

白硕:现任中国科学院计算技术研究所副总工、研究员、博士生导师、网络科学与技术重点实验室主任。

作为中科院计算所互联网高性能软件与算法理论、网络搜索、网络信息安全方向的团队负责人和学科带头人,带领团队从事国家网络空间安全保障、互联网高性能软件以及网络搜索与挖掘基础理论与算法的研究以及相关应用系统的研发,先后主持并完成了十多项国家信息安全重大专项、国家重大基础研究计划(973)、国家高技术研究计划(863)以及中国科学院知识创新工程等重大任务。

程学旗:首先,谢谢白老师主持,谢谢国栋为大家创造了一个很好的环境,我们可以在此头脑风暴、分享观点。其次,前天和昨天白老师和熊辉教授的引导性发言立意新颖、观点鲜明,让我受益匪浅啊。

程学旗:上周国栋让我从国内学术科研界的视角来分享一下我们的思考。从能力上来讲确实有点勉为其难,只能抛砖引玉。

程学旗:大家知道,自从我们2012年开始组织香山科学会议大数据论坛、组建中国计算机学会大数据专家委员会以来,一直努力在倡导和呼吁联合各方力量来推动中国大数据产学研良性生态环境建设,今天群里面的很多大腕都是直接的倡导者和参与者。

程学旗:一年多来,通过组织中国大数据技术大会、CCF大数据学术会议以及各类大大小小的应用峰会与学术论坛,结合我们科学院网络数据科学与技术重点实验室所承担的与大数据相关的重大基础课题研究以及与情报分析、互联网数据分析相关的应用开发实践,我谈谈自己的一些思考。

程学旗:今天引导性讨论的内容可以包括三大块,包括:对大数据的再认识、引擎平台系统支撑下的大数据分析技术、建立大数据产学研生态环境的基础性问题思考

白硕:引擎平台系统,单数还是复数?

程学旗:应该是单数,呵呵

@雷涛:程所给大家搭了大平台和产业话筒。

程学旗:1、关于大数据的再认识。

大数据是一个宽泛的概念,见仁见智。关于大数据的概念,当前比较普遍使用的定义都与维基百科中的描述类似:“大数据,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”。而这类定义的一个明显的局限是仅仅从大数据的计算机处理视角给出的关于大数据的一个特点描述。

我们知道,对一门学科的认识,往往是从分类开始的。就像达尔文提出进化论,原始的动机就是将从全世界观察到的动物和植物进行划分,形成体系。在分类体系上进行提炼,最终形成了一个全新的世界观和认识论。我们现在所关注的网络大数据、金融大数据、科学大数据等相关领域的问题,正像欧洲文艺复兴开始的的时候那样,从不同领域观察现象,挖掘价值,而最终我们可能能够发现本质,形成全新的“数据认识论”,从而产生本质性的价值效应。

我个人认为,“大数据”更多的体现的是一个认知和思维,它与钱学森先生提倡的“大成智慧学”的要义非常接近。钱老将“大成智慧”翻译成“WisdominCyberspace”,强调“必集大成,才能得智慧”。大数据从内涵来看的四个V的特性,体现出来的是大量的“零金碎玉”,相互之间还有关联性和作用力,但是局部看都非常零散、价值不明显。所以有了数据,不等于就有价值、出智慧,出智慧的关键在“集”。大数据中包括的全部事实、经验、信息都是“集”的对象和内容。采集到的原始数据往往是些没有什么逻辑,不一定能直接用现在掌握的科学技术解释,需要集成融合各个侧面的数据,才能挖掘出前人未知的大价值。每一种数据来源都有一定的局限性和片面性,事物的本质和规律隐藏在各种原始数据的相互关联之中。只有融合、集成各方面的原始数据,才能反映事物的全貌。开展大数据研究和应用,因此,大数据不仅仅是一类资源、一类工具,而是一种战略、认知和文化,要大力推广和树立“数据方法论”、“数据价值观”。