有无“数据摩尔定律”?

data baby

1965 年,英特尔创始人戈登·摩尔(Gordon Moore)为《电子学》撰写的一篇文章里,称“单块硅芯片上所继承的晶体管数目大约每年增加一倍”,后来 1975 年他对该结论进行修正,将“每年”改为“每两年”.

从 20 世纪中叶到 21 世纪第一个十年,无数公司用惨烈的商业竞争,精益求精的技术追求证明着摩尔的分析与预测的正确性,被人称为“摩尔定律”.尽管现在随着经济、科技增长放缓,开始有人提出“摩尔定律”失效,然而过去几十年间,“摩尔定律”难以置信的准确——而在这个定律准确的预测之下,科技界迎来了快速的发展,个人电脑、服务器的性能大大提高,同时价格大大降低,为当下技术力量盛行的世界打下牢固的基础。

此后,有人基于摩尔定律修改出不少变种,试图预测不同行业的发展。现在,在可穿戴设备、智能家居加速向前发展的背景下,我们所收集到的数据变得越来越多。那么,是否存在针对“大数据”的“摩尔定律”版本?

在阐述大数据未来的时候,我们最终发现日益增长的数据,可能更像是某种负担,它们的存在本身不带来效益,只有通过分析这些数据,得出一定的结论,才有可能获得收益。而如何使用运用数据,已经成为许多声称“大数据”的初创团队的难题。但数据日益增长,不论是储存还是运算,都要花上更高的成本。

数据是负担,还是金矿?

数据“供应链”

Dan Woods 认为,如果“大数据”要迎来“摩尔定律”式的发展,不能再强调收集到的数据的数量,应该强调有价值的数据。他认为,这关系到两个层面,一个是数据单元(Data Stack),一个是数据经济体系——如何在数据经济体系下创造数据单元,让过剩的数据发挥作用,将变得十分重要。

数据单元是 Factual 的联合创始人 Gil Elbaz 在一篇阐述如何打造更加优秀的数据体验时定义的术语。Woods 颇为认可这个概念。

Woods 认为,当下的数据处理流程存在许多问题,包括“非我所创”的封闭心态,许多数据只从自己的业务当中收集;经常一个数据来源就意味着等同于一个数据集(data set);大部分时间,公司只会使用同一种流程方法来处理;在大部分数据处理系统中,数据的来源通常不会跟随数据一起流动。

而数据单元,像是一种可扩展的供应链,从不同的数据来源当中收集数据,不管内部还是外部;数据单元的数据集是从来源广泛、丰富多样的碎片中重新组合而成;数据单元在处理流程中,会根据不同的目的来实现不同的处理流程;数据单元中,数据的出处是非常重要的,因为它常常会整合多处来源的数据。

以数据单元的视角来看,数据是必须经过策划和保养的,换言之,数据既是资产也是负债。不过,在一般的数据处理系统当中,由于无视大部分数据的处理,数据集实际上是一种负债。而在数据单元里,为数据策划,找到他们的作用,已经包含在最初的设计体系当中,是必须要做的事情之一。数据单元还可以通过各种方式来分发数据,不管是订阅,还是 API.

数据“经济体系”

数据单元重新定义了数据的供应、分销方式。不过,这还只是万里长征第一步。接下来还要让所有“大数据”的参与者们一同协作,不管是谁拥有数据、谁组合数据、谁策划数据、谁利用数据打造产品。当他们不再各自为战,而是联合到一起,一种“大数据”经济体系就可以建立起来。

Woods 定义了这个经济体系下的四种角色:

·供应者。他们拥有数据,并可能有能力提供有价值的数据的人;

·策划者。他们从供应者获得数据,然后用技术以及其它手段来创造有价值的数据集,然后将它们提供给开发者和消费者;

·开发者。他们从策划者与供应者获得数据,用于创造、改善产品;

·消费者。他们直接利用数据,或者通过产品来利用数据。

而每家着眼于“大数据”的公司都应当仔细思考自己在这块经济版图里的角色。

不过,目前来说,要打造“大数据”经济体系,仍面临两重障碍:一、机构与机构之间的数据分享并不主动,除非存在公平的交易;二、缺乏鼓励数据分享行为的商业协议。不过,Woods 认为,这放在银行里的钱一样,银行拿这些钱去投资,但你仍然相信这些钱仍然是安全的,而且还能收获自己利益。数据也是如此,分享出去会让自己得到类似的收益。

实际上,现在已经有人在统计数据的生产量,比如说 61% 的数据是由机器人产生的。那么,当“大数据”供应链与经济体系都完备了之后,说不定会有人预测一个“摩尔定律”出来。