究竟什么是大数据?答案多种多样,其中Gartner著名的3V特征是最常被引用的定义——大数据是指高容量、高速度、多样性的信息,需要新的工具来管理。尽管如此,对于大数据的定义,仍然存在模糊,开放数据中心联盟(ODCA)试图通过其最新的“大数据消费指南”来帮助企业解答什么是大数据、为什么它会如此重要以及如何从中获益。
ODCA创建于2010年,其主要目标是为云计算开发开放标准。在接受电话采访时,ODCA负责人表示,该联盟的“大数据消费指南”是对其云计算工作的合乎逻辑的延伸。ODCA首席技术顾问John Pereira表示:“现在存在很多云计算范式,这也是大数据环境想要利用的优势。”
Pereira指出,大数据的本质非常适合云环境中,特别是大数据的数据量可以在很短的时间内显著增长。
他补充说:“由于大数据的这种性质,你可能会考虑一个分布式的环境,而云计算范式将帮助你朝这一方向迈进。”
该消费指南总结了大数据平台如何可以帮助各行各业。例如,银行可以关联来自多个不相关来源的数据,以发现潜在的信用卡欺诈。此外,该指南还提供了统一的定义和术语,可供企业在与大数据服务供应商合作时使用。
该指南还引用了来自IDC的惊人的统计数据:非结构化数据占当今企业内信息的90%以上,其中大部分存储在文档、电子邮件、文本和web内容中。
属于“大数据”的非结构化数据包括来自传感器的机器生成的数据、机器日志和手机GPS信号,以及来自社交网站和网上交易的数据。
该消费指南将Apache Hadoop称为“领先的大数据技术”,但指出还有很多其他开源大数据项目也可供选择,包括Riak、MongoDB、CouchDB、Redis、Hypertable、Storm、Spark和高性能计算集群(HPCC)。
“我们正在尝试将厂商中立的方法引入到我们的建议和方向中,”Pereira表示,“我们尽量避免倾向于某个特定的供应商。”
这名ODCA负责人表示,企业需要提前仔细规划自己的大数据战略,以避免浪费资源和金钱的不良做法。
“你想要以最有效的方式来写入数据,而不是一遍又一遍地复制相同的数据集,你如何记录前面的信息是非常重要的,”ODCA执行董事Marvin Wheeler表示,“这主要是关于如何写入数据,以确保数据不会像在传统方法中那样到处蔓延。”处理数据蔓延是企业面临的关键问题。根据麦肯锡全球研究院表示,17个美国业务部门中有15个部门比美国国会图书馆存储的数据更多。并且,一些研究人员估计,90%的数据产生于过去两年中。越来越多地使用视频分析技术就是一个例子。
“如果你回到五年前,谁会想到保存视频,以及对视频进行分析以做出更好的商业和购物决定,而现在,这已经成为每个人的想法,”Pereira 表示,“这完全回溯到大数据的核心,这也是让大数据作为有趣的新技术和范式的原因之一。”(邹铮编译)