该商业领域的巨大潜在市场,使得诸如EMC、IBM和NetApp等大型存储厂商关注着大数据的市场机会。各家厂商都发布了(或者其指日可待)设计用于分布式计算环境的存储系统,在可管理性、可扩展性以及数据保护方面帮助用户克服HDFS的欠缺点。其中大部分可以用开放式接口(比如NFS和CFS)替换HDFS存储层,而另一些提供其自有的映射化简框架版本,提供较开源分布更好的性能。一些提供可以填补开源HDFS差异的特性,比如通过标准的NFS和CFS接口在其它应用之间共享数据的能力,或者是数据保护和容灾方面的功能。
NetApp则采取了一种完全不同的方式。其内置了开源的分布式计算标准,并在数据节点上使用DAS。不同于以分布式计算的名义使用自有的文件系统,NetApp在低端的Engenio平台上使用SAS连接的JBOD充当DAS。而在命名节点方面,其使用NFS直连的FAS箱来提供从一个故障命名节点的快速恢复。这是“两个领域最佳”的混合的解决问题的方式。
市场是否会愿意购买更为可靠或更具应用潜力的工具,这仍有待观察,现在断言还为时过早。
大数据是真实的存在的,并且各不相同:不同类型的大数据需要不同的存储方式。如果你已经面临大数据的各项问题,面临一些阻碍,这表示你应当采取一些不同的方式,和供应商谈论需求的最佳的途径是直指问题本身,而不要围绕着大数据这个话题。你应当谈论业务问题和案例情况,这有助于将问题细化到某一特殊的负载上。这样你就能快速找到对应的存储解决之道了。