院士谈大数据时代的国家治理(上)

解放战争时期,我们国家搞土地革命,打土豪分田地。让人们耕者有其田。孙中山那句话怎么讲的,民主革命,有了这一条我们的解放战争才能得到胜利。改革开放初期,凤阳农民搞承包,也是耕者有其田,才取得农业发展,带动全国改革开放。这里面都有一个前提,就是属于老百姓的财产,让他有一个管理权,他自己去管。

现在是大数据时代,作为公共财产的政府数据,本质上属于全国人民,如果让这些数据回到人民群众中去,当然要在保障国家安全、保护个人隐私与企业商业秘密的前提下,其作用就像当年实行的“耕者有其田”一样,是生产关系的一个大变革也会促进生产力的大解放。

现在问题是很多人不承认这个理念,不赞成“耕者有其田”。比如一些部门拿国家的钱,老百姓税收的钱采集上数据后,就认为这些数据归他们各自部门所有。实际上这个数据的所有权应属于老百姓。像互联网公司,比如百度、腾讯虽然拥有很多数据,但是一般不会免费开放,只给自己公司用。

目前支持大数据产业的数据来源主要靠政府。有些人担心数据开放后有什么用?其实不用担心政府开放的数据没有人用,开放数据后,众多的中小企业会创造出各种各样的数据应用,形成过去没有的生数据态链。像纽约,数据公开后,2年时间内,就有500多家企业来做数据相关服务。

刚刚讲的“政府开发数据”、“公共部门信息”和“大数据”还不完全相同,关系如下图所示:

“政府开放数据”应该占“公共部门信息”的大部分,“大数据”是个公共概念,不单指政府数据,还有企业数据。比如在华大基因,这家公司已经把测试个人基因图谱的费用降到1000美元以下,以前要几万甚至几十万美元。一个人的基因测序加上基因分析数据大概为1TB,为100万人做基因测序的数据量就达到1000PB(1EB)。纽约市的开放数据平台不到两年,已经有2090组数据上线,新产生的移动应用已有几百个。到2016年,中关村要培育500家大数据企业,建成10个以上行业大数据应用平台,带动产业规模超过1万亿元。之前我参加贵州省论证会,2020年贵州省的大数据产业到4500亿。虽然我不建议使用“带动”这个词,因为这个“带动”是无法考核的,所以我建议国家做规划时,少用“带动”这个词。但不管怎么说,能体现数量级的概念,能够激励信心。

政府共享的数据分为三类:

(一)  面向操作业务的信息共享。这种共享是为办事人员设计的,办理银行贷款时要查信用数据库;办理出入境手续时要查局级干部名单表;办理税务业务时要查上家的增值税。现在政府部门出台的政策,讲的开放数据,主要指这部分。不管是广州、上海、宁波,讲的开放数据,大部分指这类,是政府各部门之间办公流程所需要的数据。

(二)  面向管理的信息共享。使用这种共享数据的大多为各项业务的管理者。管理者需要及时看到业务各方面的运行状态,便于及时控制、调整及记录数据以备查

(三)  面向研究和决策的信息共享。使用这种共享主要是政策研究人员、主管官员和企业领导。这种信息共享的作用是发现知识、总结规律,从数据中发现新知识、新问题,制定新政策,更需要大数据

目前我们还处在阶段一,从一到三还有很长的路要走。

国外提出的政府开放数据的原则:

1.完整性:没有隐私,安全或特权的限制

2.原始性:数据收集来源有最高的粒度级别, 不是聚合或被修改的形式。

3.及时性:数据能根据需要尽快获得。

4.可获取性:数据能提供给最广泛的用户和最广泛的用途。

5.可处理性:数据结构合理,允许机器自动处理。

6.非歧视性:数据可用于任何人,没有注册登记的要求。

7.非专有性(Non-proprietary):不受独家控制

8.非许可性(License-free):数据不受任何版权、专利、商标或商业秘密控制

这些更多的指“知情权”,群众、公民有了解信息的权利。

李院士的课题组提出了政府开放数据的六项原则,下篇为大家分享。