x86携手Hadoop 软硬结合击破大数据

  如果你关心目前服务器行业的发展,会发现许多厂商和用户都在围绕一个重要的概念——大数据。和之前几年谈云计算时的火爆程度一样,如今许多厂商对于大数据也提出了自己的观点和认识。根据最新的IDC数据显示,截至今年6月,国内电信行业已经拥有3.9亿用户,而国内网民的数量已经增长到了5.3亿。从长远发展来说,预计到2020年,全球数据增长将达到35.2ZB,这将是一个非常恐怖的数字。而在这些数字背后,则蕴含了太多重要的信息。所谓大数据不仅仅是依赖于这些数据,还要通过分析了解数据背后的内容,而作为数据的主要存储方式,Hadoop应运而生了。

  如今谈到Hadoop,更多的人认为它依然是一款开源的软件,就跟我们使用的Linux一样。正如在Linux中也分为RadHat、SUSE等诸多版本一样,如今像英特尔、微软等行业巨头厂商也在推广自家的Hadoop。如何正确认识开源软件与收费软件的关系,IDC中国企业级系统与软件研究部高级研究经理周震刚先生给了我们一个很好的比喻——就好比我们都知道水是免费的,但还是有人会购买矿泉水、纯净水一样。对于收费软件的好处,除了可以减少用户在最初部署时候遇到的一系列调配难题之外,其售后的支持和服务也是用户所看重的部分。

  事实上,任何软件的开发都不能脱离硬件而单独存在,如何为用户提供更好的硬件也是实现Hadoop应用的前提条件。英特尔作为全球领先的IT公司,在行业规范及新技术普及方面一直引领着时代的潮流。今年3月发布的至强E5-2600作为至强5600的升级产品,在整体的表现上实现了飞跃,这也正好印证了英特尔一直坚持的摩尔定律,同时也为Hadoop的出现打下了坚实的物质基础。

  在谈到至强E5-2600的时候,核心数量的增加为用户提供了基础的硬件保障,从6核心提升到8核心所带来的性能增加是不言而喻的。而在多核心互联方面也有颇多改进,从CPU沟通内部来说是QPI通道由1条增加到的2条,而在于内存的外部联通方面,无论是4通道DDR3的出现或者是PCI-E 3.0的增加都提供了足够的带宽,再加上整合高级256位 AVX指令集、DDIO等功能使得至强E5-2600相比上一代有了明显的进步。

  通过实际用户的现身说法或许是我们了解至强E5-2600品质的最佳途径。中国石油东方地球物理公司研究院处理中心总工程师赖能和先生在谈到新至强E5处理器的时候曾表示相比上一代的产品提供了5-8倍的性能提升。而同样大规模使用至强E5-2600搭建数据中心的中国传媒大学高性能计算中心主任鲁永泉老师则表示:新一代的至强E5平台在虚拟桌面通过Hyper-V共享服务器上的GPU时可以实现20%的性能提升,而且在维护方面还可以节约20%的时间和精力,同时至强E5的节能优化也可以大量节省数据中心的冷却成本。

  总体说来,至强E5-2600系列处理器的出现对于原有的产品提供了非常大的提升,也为当下的Hadoop应用提供了良好的硬件平台。而在今年7月,英特尔更是推出了自家的Hadoop发行版,相比目前广泛的开源Hadoop来说,英特尔本次的发行版主要针对有需求但是没有自主研发实力的企业而提供,为它们实现了更好的易用性,提供了长期稳定性的保障。

  正如我们刚才提到的,英特尔Hadoop发行版主要在以下四个方面提供了更好的支持——性能、功能、管理和稳定性。首先我们来说性能:今年英特尔发布了全新一代的服务器平台Romely,也推出了最新基于SandyBridge-EP架构的至强E5-2600系列处理器,可以进一步帮助企业提升效率,有效降低运营成本。同时,作为英特尔自家的软件和硬件,在部署及运行的时候可以最大限度的降低兼容风险,提升平台利用率。

Hadoop应用与英特尔

  同时,对于英特尔Hadoop发行版来说,相比于开源Hadoop最大的不同就是提供了针对HDPS数据节点的高级均衡算法。在以往的Hadoop软件中,都是采用简单均衡算法,如果服务器的性能不够或者配置较低的话,不但不会达到良好的运行效果,反而适得其反降低服务器的整体运行效率。而应用了英特尔Hadoop发行版不仅仅提高的任务的扩展性,还可以应用于不同的计算集群,同时它所提供的双机热备和双向复制、容灾功能更为用户提供了有效的数据保障。