开放数据≠共享数据≠公开数据!

 

再说到「技术限制」,一般有两种情况。一种是数据本身分享在一个机器较难处理的格式下,比如很多政府机关的数据喜欢放置在word文档,或者PDF里,这就造成了数据提取的困难,甚至有时候数据无法完全提取。另一种情况是,数据虽然可见可访问,但是本身被锁死在某个软件系统里而无法提取。比如,上海地铁实时客流数据,作为一种公开数据可在网站访问,但是你却无法真正获取数据,因为数据被锁死在flash应用中。这些都是再使用共享数据,公开数据中经常遇到的技术难关。而对于开放数据而言,机器可读是一项基本的条件。数据必须被提供在开放格式下,比如CSV,shapefile等等,拒绝PDF以及复杂的HTML等都是基本的要求。

在文章最后,我们不得不再讨论下「灰色数据」,这部分本身应该收到版权保护的数据,因为中国特有的环境,而可以在互联网上免费获取。但是对于「灰色数据」而言,其在使用中有许多问题。首先,灰色数据本身不是由数据真正的拥有者发布的,从而你无法保证数据的完整性和准确性。其次,虽然你能够免费下载这些数据,但是如果运用于商业,你就时刻面临着原版权方追究你责任的风险。最后,灰色数据没有数据更新的保证,对于一些更新频繁的数据,很难说更新的数据会被及时「盗版」出来,这就造成了依赖于这些数据的服务无法保证其本身品质的问题。

综上,开放数据作为一种免费的、无使用限制的数据资源应当受到我们更多的关注,搞明白共享数据、公开数据、开放数据的差异,则是我们在中国推进开放数据所需做的第一步。