大数据和HPC联手的三个关键途径

如今,大数据正变得越来越廉价,而不仅仅是广泛分布商品硬件上廉价的存储和计算。大数据分析可能很快成为高性能计算(HPC)新的“杀手级应用”。

此外,还有比大数据更多的大量的信息。它还涉及大量的分布式活动,如复杂的查询和计算。换句话说,通过计算获得的价值就像数据集本身的大小一样“大”。事实上,高性能计算大数据已经被分析公司IDC所创造,如“高性能数据分析。”

高性能计算(HPC)能很好地实现大数据典型的工作流程的所有三个阶段,包括数据采集和过滤,分析,结果可视化。除了这三个阶段,计算的速度和规模一样重要。为了发掘大数据的全部潜力,我们要以“大计算”与HPC进行匹配。

对于大数据和高性能计算的融合,以及企业如何充分利用这一现象来改善大型处理,以下有三个方法:

1.Hadoop联手Infiniband

许多人认为最常用的超级计算机互连技术InfiniBand,可以尽可能多满足HPC作为裸机处理的基本要求。如果不能快速移动节点之间的信息,就会限制了你可以实现的水平的可扩展性。远程直接内存访问(RDMA)的ApacheHadoop提供了一个极好的高速、低延迟互连的大数据平台。甚至可以在云端利用RDMA在任何时候提供一个Hadoop集群。由于其优越的带宽和延迟的优势,56Gbps的InfinibandFDR可能比10Gbps以太网速度甚至快100倍以上,短期使用非常昂贵的定制总线,这是跨节点的计算分布数据和处理的最快方法。最后,用户可以根据应用的大小可以扩展大数据平台,而不必担心几乎一样多的瓶颈。不仅会得到更快的结果,而其建立时间将远远小于所使用的商品网络技术。

2.Hadoop联手Accelerators

高性能计算(HPC)的另一个重要特点是采用了流行的协处理器和加速器,如被动式散热NVIDIATesla和开普勒的GPU。正如这些技术大大有助于技术计算解决方案的发展,他们还可以帮助大数据和分析,就像他们已经进行测序和比对。

Hadoop利用GPU技术,如CUDA和OpenCL可以大促进大数据性能的一个重要因素。所有其他的事情都是相同的,高性能的大数据平台和技术,如Hadoop,Spark,MapReduce导致复杂的分析和更快的结果。事实上,对于人们正在收集的数据量的不断增长的唯一方法是提高计算速度。大数据利用协处理器和加速器是HPC在这个空间具有更大的影响力的重要途径。

3.大数据和高性能计算在云计算的融合

大数据比任何其他应用程序推动公共云更快的增长,HPC需求成为了一个新兴的力量,并准备好迎接这一挑战。我们收集的数据越多,我们需要分析数据的计算能力就越大。简单地说,大数据和云计算的增长携手并进。只有这样,才能提供足够的规模,而跟上需求部署HPC类资产,以提高处理性能和密度。

得益于大数据平台的超级计算技术,如高速互连和协处理器的结合,组织可以利用和部署上的设计,使HPC服务成为了下一个主要需求分析的创新浪潮。采用分布式文件系统,如Hadoop,在相同的计算能力的情况下,可以加快测序和比对的过程,可以大大提高在今后的查询和比较的效率,并且其成本更加低廉。传统的HPC并行存储,经济学将变得更具吸引力。最后,采用具有时间价值和弹性规模的公共云,企业现在可以专注于他们的工作,而不是过于关注IT平台的性能。

由于大数据和高性能计算需求的衔接,企业将能够充分利用公共云计算的规模和可用性。