大数据的潜在影响及制度需求

大数据四“V”

关于大数据的定义,现在谈得最多的就是所谓的四个“V”,也有五个、六个“V”之说。IDC(互联网数据中心)归结的四个“V”中,第一个就是它的实际规模。从早先的KB,到TB,一直到后来的PB、EB,数据的量在不断地增加,这是一个表面的现象。

第二个“V”是多样的数据类型,尤其是里面包涵了大量的非结构化的数据。什么是非结构化的数据?比如在网上发一条微信,这句话本身没法拿来做统计或计量分析,但是可以在里面提取结构化数据进行分析。这样的数据反而占数据量很重要的一部分。

第三个“V”讲的是价值,有两点:一个是价值大,大数据带来各种可能性;另外一个比较重要的是,它虽然量很大、价值也很大,但是密度很低。在互联网上抓取的1GB的大数据,里面有用的可能只有千分之一、万分之一,或者百万分之一,所以,挖掘和分析比原来更加困难。

第四个“V”就是动态数据的快速处理。在这方面云计算的贡献比较大,这里比较核心的,也是大数据将来能不能从“可能”到“可行”转变的两个要素,即:非结构化和低密度。这两者其实互相相关,如果技术上能解决怎么分析非结构化数据、怎么从低密度价值里面提取数据的价值,那么大数据的应用可能就会有一个飞跃的增长。所以,我觉得非结构化和低密度可能是大数据的核心东西。

那么大数据是什么呢?如果管中窥豹,从点上去看它,首先,大数据的“大”肯定是一个相对的概念,它不是一个绝对的概念。另外,它更不是一个学术性的概念,而且这里面需要关注的就是非结构化的数据可能占大数据的主要部分,尤其是来自于网民的交互式的数据可能是未来大数据的主体之一。

从分析方法来看,过去得到数据或者统计的方法是抽样,然后利用概率论和随机过程等数学的方法来推理,从而达到目的,推测得出全部数据。现在有这种可能性,如果成本降得比较低的话,就可以获得全部的数据。

对大数据的质疑

当然,对大数据也有非常多的质疑。首先,有人提出“大数据陷阱”。数据是不是越多越好?实际上,对任何企业或个体来说,数据肯定不是越多越好,肯定有一个最优的数据量,因为要分析大量的数据,方法是不是可能?分析成本有多高?这个大量的数据包含的价值有多大?所以,对每一个企业都有一个最优的数据量,就是从拿到的数据范围里面获得的价值和为了获得这些价值而付出的分析成本,它们两个接近相等的时候,可能就是最优数据量。

再就是,MIT的凯特·克劳福德(Kate Crawford)教授提出“大数据中存在偏见和盲区”:数据在生成或采集的过程中并不都是平等的,大数据集存在“信号问题”,即某些民众和社区被忽略或未得到充分体现。这个比较典型,比如说,国内现在有6亿多网民,有时候不能用6亿的数据去判断13亿人的状态,因为这个过程不是靠抽样得到的。

第三个问题就是“泄露个人隐私成为日益严重的担忧”。在我们不知情时,数据就被人拿走了,这是很可怕的事。