鉴于云计算对我们大部分人来说还只是一个概念性的梦想,当有人谈及他们的大数据的策略是“把所有的数据都存储在云服务中”时,您尚不能明确的分辨他们的策略是一种有远见的方案,抑或只是简单的重复了他们在行业会议上所听到的某些专家的谈话。
大数据和云计算范例之间的重叠实际是如此地广泛,您可以声称您的企业正在利用现有的内部部署的Hadoop、NoSQL、或企业级数据仓库环境,进行基于云计算的大数据部署。但请务必记住,云计算这一概念在当前更为广泛的是被理解为“私人云”的部署,然后才是以公共云计算、SaaS和多租户托管环境为补充。
但是,如果您将您的关于“云计算”的实际定义限制在公众认购服务的范围,您便找到了问题的核心了:您必须确定哪些大数据应用程序更适合于公共云/ SaaS部署,而哪些则更适合于内部部署(如涉及到提前优化的硬件设备或虚拟的服务器集群)。
换句话说:您什么时候可以收集到可扩展性、弹性、高性能、符合成本效益、高可靠性和可管理性的大数据,让外部服务供应商对其进行管理?如下是几个明显的大数据在公共云进行管理的例子。
企业应用程序已经托管在云服务中:如果,许多企业(尤其是中小型企业)已经在使用外部服务提供商的基于云的应用程序,您的大部分的事务的数据源已经在一个公共云。或者如果您的企业与这一云平台有着很深的历史数据渊源,其可能已经进行了大数据量的积累。在某种程度上,该服务供应商或其合作伙伴提供增值分析服务——如流失分析、营销优化、或异地备份和客户资料归档——这样,将大数据托管在该云服务中,而不是存储在企业内部的主机,可能更有意义。
高容量的外部数据源,需要相当大的预处理:例如,如果您正在根据社交媒体数据进行客户情绪监测,您可能不需要利用企业内部的服务器、存储设备、带宽容量资源。这是一个很明显的应用程序的例子,您只需要利用公共云基于大数据服务提供的社交媒体过滤服务。
应用程序需求超出您企业内部设备的大数据处理能力:如果您的企业内部已经有本地的大数据平台,专门致力于处理某一款应用程序(如专用的Hadoop集群处理高容量非结构化数据源ETL)。那么,当有一款新的应用程序,而企业当前的大数据平台又不适合,无法满足新应用程序的需求时,采用公共云就显得是恰到好处的解决方案了。(例如,多渠道营销、社交媒体分析、地理空间分析功能、可查询归档、弹性数据、科学沙箱),而且,按需服务更符合成本效益。事实上,如果您需要尽快处理PB级规模、流媒体、多结构的大数据,公共云解决方案可能是唯一可行的选择。
弹性供应非常大规模而项目短暂的沙箱解析:如果您有一个周期非常短的数据科学项目,需要一个探索性数据集(又名沙箱)而且其数量级要大于一般的规模,那么公共云可能是您唯一可行的或经济的选择。您可以利用基于云的存储和处理能力,很快地投入该项目。然后又能够在该项目结束时,重新规定存储和处理能力。我把这称为“泡沫集”的部署模型,它是专门为云量身定制的。
如果您已经做了上述任何一点,那么基于云的大数据的战略问题不是出现在您的项目刚刚开始的时候。随着基于云的大数据服务的日趋成熟、性价比、可扩展性、灵活性和可管理性的提高,这个问题将出现在您的项目终止的时候。到本十年末,随着越来越多的应用程序和数据转移到公共云,建立和运行自己的大数据部署的想法将变得如同今天的设计您自己的服务器一样不切实际。