大数据离企业用户到底有多远?

一面政策积极利导,一面IT厂商加大鼓吹力度,新一轮大数据之风仍难掩“曲高和寡”的尴尬境地。那么,阻碍大数据应用快速落地的瓶颈到底在哪里呢?

未来是大数据的时代,大数据因此成为一项国家的长远发展战略。近两年的政策利好,使大数据市场再度迎来了新一轮的发展高潮。像“44ZB(泽字节)”这样的惊天数字(业界流传的截至2020年全球大数据规模)因此反复出现在各种大数据会场的电子屏上。

一股焦灼的情绪随之在全产业漫延,还没弄明白怎么搭上“互联网+”的快车呢,大数据又成了另一个新的困扰,一位行业用户曾感叹,“出去不说两句大数据都感觉自己落伍了。”而不少医院行业用户直接的反应就是,“小数据还做不好呢,怎么做大数据?”

大数据离企业用户到底有多远?

大数据该何以计量?

随着社会信息化发展迈入3.0,很多企业对IT的投入和选择已经跨过了过去“高大快上”的盲目决断做法,转而更为理性和审慎。比如谈大数据,企业决策者和IT负责人最先考虑的是企业自身的数据规模到底在一个什么量级。

从目前了解的情况看,很多企业,特别是传统行业企业一年的生产和业务合并数据量级多处于TB、GB的规模,比如以某一线城市为例,该市级财政部门的数据不到8、9个TB、某地铁运营公司在50多个TB、某高速公司集团公司在TB级、某银行城市分行数据也不过TB级、某三甲医院是GB级、某大型制造企业也才是GB级……

诚然,数据规模的现实情况距离产业预期相去甚远,一方面与企业所处行业有关,比如电商、运营商或新媒体这类面向公众2C的企业数据规模增长较为明显;再一个也与企业对数据存储成本的考量密切相关。比如上述行业企业除了应国家要求的数据存储年限外,一般企业数据留存也就三年左右,甚至更短。而且对近年数据和历史数据采取分开存储的办法,比如最新数据与近年数据在企业最新、最好的IT平台留存,三五年以后的历史数据被转至旧系统沉积。

清华大学数据科学院工业大数据中心总工程师王晨此前在北京工业大数据创新中心成立大会上从技术、业务和基础三个方面谈工业大数据的战略思考时特别提到数据的基础。他认为,“数据就像我们今天流过的河,流过去就再也没有了。很多企业想做分析,可它的数据平台大概只能存三个月的数据。这个不够!我们至少需要一年春夏秋冬,才能知道一个完整周期,可能有时一年都不够,需要两到三年的数据。”

如王晨所言,数据是企业开展大数据研究和应用的基础,应对大数据,我们所需要的数据基础可能不止两三年,甚至更长久的数据积累。再者,不同的行业企业,其业务特点使得需要研究的数据周期都存在很大差异。

那么,数据基础又该如何确定?

国家卫生计生委科学技术研究所副主任技师董敬认为,大数据如果仅仅比谁的数据量大,占的硬盘空间多,是没有意义的,“应该比的是它所承载的内容的多少。但这样做又不好计量,因为计量是需要有相当一部分专业知识的,结构化数据后面的定义很长,这个定义很专业,非专业人士很难理解。所以现在很多数据统计比较的是字节数。按字节数来统计则容易很多,容量也很轻松就上去了,而且还都是真实的。但它到底有多少信息量,这得另议。因此,关键是看这个大数据的概念到底要用在哪儿,怎么用。”

分析路径受限

面对产业的大数据热,很多企业用户,尤其是传统企业用户持观望态度的不在少数。在他们看来,是否要切入大数据,以及怎么做大数据,还得先要明确“怎么才算是大数据”。

当然,市场近两年也不乏很多大数据分析实践应用的案例。但那是否就是真正意义的大数据应用呢?中国泛海控股集团系统运维总监王正望表示,一些企业在其内部利用数据所做的一些统计分析工作,严格意义上不能称之为大数据,而是一些数据的聚合,“原因在于一个是样本不够;再一个谈大数据,首先是个人相关维度的东西都应该能抓取到,不能只从一个维度或顶多两个维度,就说自己是大数据,怎么也得跨两个维度。”在他看来,所谓大数据,要能够不断注入新的内容,“怎么能够源源不断地将数据汇总过来,满足人们随取随看。当然随时也不是无限制的。”