中国数据开放之路

那么地方政府的开放数据试验开展的成效又如何呢?

整体而言,各地方开放政府数据项目仍是处于初级探索阶段。2015年中,开放数据中国和复旦大学数字与移动治理实验室共同完成了一项名为“中国开放数据探显镜(opendatalens.cn) ”的研究。该项研究选取了有代表性的7个地方政府开放数据项目进行评估。截至2015年5月20日,这7个地方共发布了1946个数据集。其中,发布数据最多的是武汉(635个数据集),发布数据最少的则是湛江(29个数据集),平均每个地方发布278个数据集。而进一步考察各地方所发布数据中符合机器可读的比例发现:当前平均可机读率为84.1%,其中北京和海曙两地可机读比例最高(100%),武汉则最低(54%)。而若考察各地对数据的授权条款,则发现无一满足开放授权的要求。

这也正是当前中国开放数据发展的尴尬之处:虽有行动,但却游离于国际通行的“开放”准则之外。

别把“开放数据”与“大数据”画上等号

一般来讲,国际上的开放数据被定义为任何人可以自由免费获取、使用、再传播的数据资源。在这一简短的表述中,最为重要的便是“自由”两字。依据开放知识基金会的”开放知识”定义,自由来自于两个方面:第一是技术层面上,承载数据的格式必须为机器可读,即为机器所理解而能自动解析的格式;第二是法律层面,即数据的授权条款应能保障使用者获取、使用、再传播数据时不受到人种、群体、阶层、用户等级、用途、目的等各类的限制。

但对于中国的数据开放工作而言,长期以来缺位的便是对“开放”的诠释和定义。在开展开放数据试验的地方中,也仅青岛一地在其《关于加快推进公共信息资源向社会开放的通知》中稍许明确了数据的机器可读性:“在履职过程中产生、收集和整理的信息资源,凡不涉及国家秘密、商业秘密和个人隐私的,原则上都要以公众可获取、易加工的方式,原始、整体地向社会开放”,但其对数据的授权依然是只字未提。而国务院的《促进大数据发展行动纲要》也从未明确定义其所指称的“公共数据资源开放”具体有何准则。因而,整个中国的开放数据,实际上,就是建立在不同机构、乃至执行个体个人对开放数据理解基础上而开展的工作。

缺乏统一的“开放”定义,亦使得开放数据这一概念,承载了不同的含义。一些地方强调政府数据是“大数据”发展不可或缺的一部分,提倡定向对企业开放数据或者以交易形式来开放数据,但开放数据并非大数据的子集,开放的数据未必要符合大数据规模大(volume)、流转快(velocity)的特点,小而美的数据,也能满足公民创新之需要。而另一方面,其“自由”的属性,决定着其不作为“垄断性”资源存在于市场,天生具备公共属性,亦与市场上所谓大数据为“黄金”、“石油”的论断相左。然而,在大数据神话的全民狂欢下,无论是政府还是媒体,都或有意、或无意地将“非封闭”的数据一股脑称之为开放数据,而这一范畴则实际可包含数据共享、数据交易、数据开放等多个数据流通的类别。 概念的混淆,某种意义上,也造就了“开放数据”在中国的一时“繁荣”。

但若跳出数据的层面来看开放数据,则会发现开放数据在中国想要生根发芽还为时尚早。

发展开放数据的两种路径

不同于传统政府信息化项目,开放数据的发展并非仅仅是一个技术层面的问题,其发展的关键在于开放文化是否能够渗入整体政治、社会、经济的发展,其与开放政府、公民科技、政府数字化变革等多个议题都有着共生的关系。这也就意味着想要推动数据开放在中国的全面发展和落地,就势必需要政府能够改变其推进开放数据项目的方式,由政府单一推动变为政府——公众协作推动,同时重新思考开放数据项目的定位,将其从一个信息化项目或者说大数据项目转变为一个牵动整体政府数字化变革的基础项目来建设。

归根结底,开放数据的建设是需要从一个生态建设的层面来思考的,而如何去做则是摆在眼前的一个难题。2014年,世界银行透过开放知识基金会的国际网络和开放数据中国达成合作意向,联合复旦大学数字与移动治理实验室共同组织了中国第一个开放数据的专题会议,以“开放数据生态建设”为主轴,汇聚了数据供需两端的代表共同讨论中国开放数据的建设和发展。时任纽约大学The GovLab实验室高级顾问的Joel Gurin,美国休士顿市开放数据项目的奠基人之一Bruce Haupt,世界银行开放数据工作组负责人Amparo Ballivian作为国际专家分别分享了开放数据生态建设的关键所在,这其中,公民社群的建设和互动则是焦点之一。