大数据的“掘金”十年

大数据的“掘金”十年

石勇

“2001年3月,当我在美国内布拉斯加州立大学任查尔斯—玛格丽·德姆信息科学与技术讲习教授时,曾邀请时任全国人大常委会副委员长、国家自然基金委管理科学学部主任成思危先生去该校访问。”2014年年末的一天,在北京中关村的一间办公室里,中科院虚拟经济与数据科学研究中心常务副主任石勇笑着向《中国科学报》记者回忆起十三年前的往事。

后来石勇又陪同成思危参观了著名的信用卡管理与数据处理企业“第一数据公司”。当石勇介绍自己及团队在该公司从事的基于大规模数据的信用风险管理建模与分析工作时,成思危对他说:“你应该考虑回国工作,这些科研可以促进中国的金融创新。”

彼时,他们的谈话间,都还没有用到十多年后的今天人尽皆知的一个词—大数据。

先人一步

“今天人人皆谈大数据,却难以想象十年前人们对于这一概念的陌生。”石勇带着几分自豪说,“我们可是从十年前就开始从事数据科学研究了。”

2004年秋,在应中科院领导之邀回国的石勇的主持下,数据挖掘与知识管理中心(筹)在中科院研究生院中关村校区正式成立。

在那之前,数据挖掘与知识管理这两个方向在国际上还是分离的,石勇适时地组织了一次学术会议,邀请了两个领域的专家参加,专家们讨论后得出共识:要将两者结合起来,产生新的创新性科研成果。

考虑到当时公众的认知,在时任中科院院长路甬祥的建议下,中心的名称变成了“数据技术与知识经济研究中心(筹)”。

2006年6月,在该中心(筹)发起组织的一次香山科学会议上,来自世界各地的知名专家一致认为,数据是已知数据分析、数据挖掘、知识发现、知识管理、客户关系管理等的基础。数据本身具有科学的含义和规律,应该将数据研究作为学科来对待,研究数据科学(Data Science)。

从此,以数据与知识为背景的数据科学逐渐得到众多领域的认可。

同年9月,受路甬祥的邀请,成思危将其虚拟经济团队与石勇的团队进行了重组合并。后来,从日本筑波大学回国的石敏俊教授也带领绿色经济团队加入中心。中心再次改名为“中科院虚拟经济与数据科学研究中心”并延续至今。

2007年初,中科院正式批准该中心成立。后来,国际上也陆续成立了有关数据科学的团队。“例如,美国哥伦比亚大学2012年成立数据科学研究所,比我们中心整整晚了5年多。”石勇说。

在海量数据里淘到“金子”

领先的当然不仅仅是时间。

这些年来,虚拟经济与数据科学研究中心为国家宏观经济提供了不少决策依据。中心名誉主任成思危2009年曾撰文《论人民币汇率制度改革的下一步—建立灵活的人民币汇率双层目标区》,而后运用虚拟经济理论,写就《全球金融危机与中国的对策》等报告。在2014年度出版的《人民币国际化》一书中,成思危提出了10年内基本实现人民币国际化的目标和时间表建议。

该中心也通过扎实的研究为地方建言献策。石敏俊团队通过研究,为石羊河流域治理规划调整和完善提出了具体建议。他们还与埃森哲合作创建了埃森哲中科院新资源经济城市指数,为中国城市规划与管理提供了一套全新评估分析体系。

科研成果直接面向相关产业,则是该中心的一大特色。

2006年至2009年,石勇团队与中国人民银行征信局和征信中心合作,在全国个人信用数据库基础上建立了全国个人信用评分系统。这一工作对中国13亿人在商业银行的日常经济活动有重大影响。截至2010年5月31日,该个人征信系统查询次数达6.5亿次。该系统年收费20亿元,实现了真正意义上的基于大数据挖掘的金融工程理论实践。中国人民银行前副行长、现中国驻国际货币基金组织副总裁朱民赞扬这一居民信用评级“已经超过了国际水平”。

目前,石勇团队独创的多目标最优化数据挖掘模型,已成功应用于金融、保险、电商等领域的海量数据或大数据问题,网易、工商银行、中国经融期货交易所、中国投资公司、中国再保险集团、国家审计署、一号店、商务部都成为他们的“客户”。