大数据和云:离完美还差很远

大数据很时髦,也承诺了很多东西,但是当组织试图将企业的数据整合到公有云中的大型数据库上时,它们却忽视了一些技术方面的现实。

这些日子以来,大数据似乎很时髦。它的确很大,很新,它和Hadoop有关,而且一般来说都在公有云中。如今每周都会有新的企业和新的云产品出现,都承诺最终可以控制企业的数据。它们都在兜售同一个想法:企业可以通过公有云的弹性,迁移到几乎“没有容量限制的”PB级数据库上去。

而现实跟这样的炒作则相差甚远。当组织试图将企业的数据整合到公有云中的大型数据库上时,它们却忽视了一些技术方面的现实。

首先,大数据意味着大迁移的挑战。从企业获取数据迁往公有云可能是成问题的。尽管企业每天都要在开放的互联网上搬运数十万条数据记录,但是在很多大数据的场合下,我们所谈论的却是数百万条数据记录如何从现有的企业系统中迁出、转换、加密的问题。

这么做你很快就会碰上带宽的限制。实际上,很多企业都是通过联邦快递传送U盘给其公有云提供商的。

其次,尽管在云中肯定会实施各种安全措施,但是一般来说,在企业内部的系统或私有云中处理数据级别的安全还是要便宜得多。在很多场合下,企业的安全模式和安全技术成本都不是很高。举例来说,在公有云中,企业必须对其数据进行加密,而在自己的数据中心内则无此必要。同样,把数据保留在本地,法规遵从一般来说也更容易,成本也更低。

顺便说一句,我并不是说大数据完全不适合公有云,而是说你必须要考虑所有的技术问题。再加上其他的架构问题,你必须具体问题具体分析