企业数据量在不断攀升的今天,被越来越多的人所提及,并经常和云计算联系在一起。随着企业用户对大数据的认识日渐成熟,大数据的规模已从数十TB发展成十几PB级的数据规模。对于企业来说,目前大数据有4个V的特点值得关注:海量数据Volume、规模化Velocity、多样化Variety和数据价值Value。
大数据无疑将给人类社会带来巨大的价值。科研机构可以通过大数据业务协助进行研究探索,如环境、资源、能源、气象、航天、生命等领域的探索。大数据正在影响企业商业模式的转变,对数据进行分析、优化正成为提升核心竞争力的有效方式。
IDC数字宇宙研究《从混沌中提取价值》指出,全球的数据量每两年翻一番,2011年创建和复制的数据量为1.8ZB(1ZB=10^6PB),这种增长还在加速,预计2015年将达到近8ZB。实际上,不能简单地以数据规模来界定大数据,而要考虑满足用户需求的数据处理与分析的复杂程度。针对简单的用户需求,数据量为TB至PB级时可称为大数据;而针对复杂的用户需求,数据量为GB至TB级时即可成为大数据。
根据信息爆炸时代的特征,业界将大数据总结为“4V”体量(Volume)、多样性(Variety)、速度(Velocity)和价值(Value)。体量是指聚合在一起共分析的数据量必须是非常庞大的。无所不在的移动设备、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互。
多样化(Variety)是指数据类型的复杂性。就是各种各样类型的数据,过去的数据更多的是结构化的,现在越来越多的数据是半结构,甚至是完全没有结构的数据,从企业里来的、从互联网来的,从用户来的各种各样的数据都大量进入我们的服务器、进入数据中心,所以这里面产生了很多的挑战,这么多数据怎么样把它变成信息,怎么样把信息变成知识,把知识变成决策,这就需要有更多的很好的数据处理能力。
速度(Velocity)是指数据处理的速度必须满足实时性要求。数据量增长越来越快,需要处理的速度和响应的时间越来越快,对系统的延时要求相当高。
IDC研究表明,数字领域存在着1.8万亿GB的数据。企业数据正在以55%的速度逐年增长。预计未来5年,大多数的数据仓库将采用列式存储技术。