谈大数据:高效的数据存储、维护以及分析

“大数据”被认为是可以重塑现有数据中心的技术。诚然,数据中心听起来一点都不如iPad有趣,不过如果没有数据中心对云计算的支持,iPad至少不会像现在这么有趣。云计算不仅极大的延伸了移动互联网,同时正在成为一股冉冉升起的新时代的中坚力量,不断为商业终端注入活力。美国政府已经意识到了大数据的重要性,美国总统奥巴马甚至斥资2亿美元联邦财政预算用于大数据项目。无论是商务人士还是政府机构都在谈论大数据,仿佛这是一盏济世明灯,俨然在将经济发展的重任交付于大数据的肩上。

但且慢,这些对大数据如此推崇的人,商业人士也好、政府官员也好,真正了解大数据的本质吗?大数据真的是灵丹妙药,还是我们高估了它的价值和能力?事实上,这些人对大数据的理解,都是源于各自不同的渠道,受限于供应商对他们的影响。而直到现在,互联网上居然还没有对大数据“是什么,能做什么”有一个直观、易懂、确定的解释。因此,我们首先应该搞清楚:究竟什么是大数据,大数据的本质是什么?如果没有搞清楚就盲目的投入大笔资金,后果将非常严重。

随着互联网的发展,大量的企业面临着新的挑战,传统的数据库在很多情况下已经无法满足企业及用户的需求。Hadoop,一个从Yahoo出来的开源项目,已经变成它自己的商业行业。读写网的一项由154家美国中小企业主参与的调查显示,对于大数据的定义,绝大部分企业主都是基于自身经验和战略来诠释这个词。其中28%的调查者表示认可“大量的急速增长的数据传输”,24%的调可以看出,查者则认为大数据“是一种新技术,旨在解决数据在体积、种类以及速度不断增加的挑战“,19%认为大数据是为了满足”管理并遵循存储和存档数据的需求“,18%调查者则认为大数据是“新的数据大爆炸”。

以上多种答案,那么究竟正确答案是什么呢?Scott M. Fulton,多部教学书籍及资源的作者。大量的再生产品,从包装箱到公园的长椅,都是根据他的教学书籍制造出来的。他给“大数据”下了一个普适的定义:

虽然数据库技术在业务逻辑层面已经触碰到了天花板(此逻辑依然在使用低效耗能的方式来访问和维护数据),但是因为一直以来,硬件速度和能力的提升,以及存储价格的不断下降,这种低效率被很好的掩盖了。于是直到2007年之前,一直没有人能够认真严肃的对待这个问题。这种低效终于在做大量数据分析从而进行结果推断的过程中,暴露了出来。于是,大数据应运而生。

本质上来将,大数据工具们指明了大量数据如何被存储、维护以及分析。他们可能不会完全取代传统的数据库,不过至少像Hadoop这样的存储系统取代了数据访问的方式。