中国科协学术沙龙研讨大数据仿真建模

科学遇到大数据,带来哪些挑战?清华大学肖田元教授认为,大数据可分为两大类:来自科学实验与工程的大数据和来自互联网的人类社会活动大数据。对于第一类的大数据的挑战,仿真范式采取“以大化小”,在还原论的指导下,基于已知小世界的规律,建立与运行模型,以发现有组织的更大更复杂的系统的因果规律。现在,日本等许多国家已经实现科学数据密集型运用,包括生命与医疗、粒子物理、天气预报、基因学、地震预报。而面对来自互联网的社会活动大数据,新型应用将致力于为实际的决策提供信息,最终目的是帮助科学家、研究人员、决策者及社会大众做出有充分信息依据的决定。用传统IT技术和软硬件工具无法在可容忍的时间内对其进行感知、获取、管理、处理和服务的数据集合。这就对传统科研范式提出了挑战,需要考察大数据时代科学研究的未来,探索支持科学研究新范式。仿真范式难以解决无组织的大世界的问题,数据密集方法基于统计分析可从整体上研究大世界的相关性。大数据时代数据密集型科学范式是面向大世界,无需定义边界,无需规定规模,只受限于数据,无需模型,不受还原论约束。作为一种整体论的解决方法,可不受时间、空间尺度影响,由数据发现涌现性、演化机制,适应开放复杂大系统的要求。基于数据及其关联网络形成的数据界,通过“机器学习”、数据挖掘,发现这些节点和链接的关联,从而获得整体的知识。通过“众包研究模式”使大规模科学研究成为可能,如Google“流感趋势”项目、地球引擎项目。肖田元教授认为,需要发展仿真范式,与数据密集型方法相融合,实现密集计算与密集数据的集成,以实现无组织的复杂的系统的因果规律的发现。