面对这些问题,行业专家、投资人和创业者,几乎每一个人都有一套自己的理解和答案。
谢文在去年5月撰写的有关大数据时代系列博文之一《数据大未必是大数据》中指出,网络业中一个公司是否能称得起拥有大数据,至少要从三个维度考量,即数据规模、数据结构和数据相关性。
换句话说,如果一个网站拥有一亿用户,但他们在上面只干同一类的事情,譬如浏览新闻,买东西,或是玩游戏,那么由此产生的数据量虽然不小,但结构简单,重复性高,分析起来相对比较容易,只需根据用户背景和使用习惯进行分组归类即可,那根本称不上是大数据。
同理,如果一个网站上的十种产品和服务,彼此之间相互孤立,造成同一个用户的十种网络行为的数据无法有效地整合在一起,或者需要付出高昂的整合成本,从而降低了数据的可挖掘性,那么无论数据量多大,结构多复杂,也同样形成不了大数据。