杨智雷:高带宽低延迟的网络系统是发展趋势

2011年5月18日,应用与创新第三届中国云计算大会云基地专场在北京云基地二层举办。中云网作为本届云计算大会云基地专场官方指定战略合作门户网站和官方指定的合作新闻中心,进行全方位的视频、图文采访与直播。

19日下午,“应用高峰论坛”在云基地召开,Mellanox杨智雷出席大会并发表主题演讲。

Mellanox杨智雷(中云网摄)

以下是Mellanox杨智雷的演讲全文:

杨智雷:

大家好!

我叫杨智雷,大家可能听到一些消息,就是几乎所有做高性能计算的厂商有另外一块新业务,就是我们今天讲的炙手可热的云计算,因为有很多云计算的平台是源自于以前高性能计算领域。现在Mellanox能给各位提供的是从芯片到卡、到交换机、软件是一个端到端的解决方案供应商。我们下面有一张表可以看到,所以在高性能计算,在云计算现在需要大带宽的虚拟化服务器环境里面会有很多客户会选择Mellanox。

今天我用很短的时间给各位介绍一下Mellanox在WEB2.0有哪些技术和新的方案帮助各位。在这里我们有趋势的分析,简单讲目前在WEB2.0市场里面,我们能看到的基本架构是前端的WEB服务器和中间的服务器和后面的存储服务器,这需要一个很大的带宽做支撑才可以。我们前端可能有很多互联网的个人用户通过WEB2.0或者是未来WEB3.0的服务获得一些相应的知识和服务。所以在整个市场里面,我们能看到比如说在互联网的很多客户,他们在使用的架构,现在我们听说的开原软件,我们在前端可能有很多客户端应用WEB Servers,通常情况下我们都会有很大量的中间缓存服务器。所以在这个中间架构里面我们看到它的网络实际上是非常大的瓶颈,目前我们能看到所有WEB2.0的互联网公司,几乎都有部署MemCached的服务器,我们在海外有很多像亚马逊、FaceBook等等都是Mellanox的客户,相对于以太网来说是延迟差不多是以太网的百分之一到千分之一。我们今天在国内的中国移动、百度、阿里巴巴,这些都在使用做数据挖掘的工作,当你使用类似于分布式计算的平台去做数据挖掘工作的时候,他有两个瓶颈,现在我们通常会看到WEB2.0客户,服务器相互之间通讯的带宽,当我们看到每个服务器CPU的核数越来越大单节点的计算能力已经很强了,所以它要求的数据吞吐量也越来越高,这个时候千兆网已经远远不能满足这个需求了,所以未来得需求就是换成其他的网络技术能够做系统的提升。

所以在WEB2.0领域里面,Mellanox能做的事情,我们能看到前端的WEB Servers到数据分析,我们通常用Mellanox的解决方案,我们差不多提高至少两倍的性能,在存储这个地方MemCacheD会有一些提升。为什么今天讲WEB2.0这个市场比较大呢?今天跟云计算相关的更多的应用都会未来部署在互联网上,会基于WEB2.0的应用平台上做。

这里面有一些测试的数据,举个例子我有一个TB的数据做排序,他用209秒的时间做数据排序,当时奠定了我们做WEB2.0应用客户里面它是基础架构软件,所以这里面使用万兆以太网我们做了评测,测试的平台很小,所以我们看到取得的成绩并不是非常明显,但是已经足够说明问题了,我们可以提高整个网络利用效率。我们把千兆网、万兆网使用了传统的千兆网和传统的以太网,相互之间我们做了评测,所以大家可以看到在基于WEB2.0应用的时候,能够实现更高带宽的通讯,能进一步缩减每一个排序作业和数据分析作业的时间,这是可以直接看到的结果。

在Memcached Test作业里面我们可以看的更明显,我们发现它的性能非常的客观,当你有更多的访问请求的时候,他会给各位提供更好的通讯带宽,也可以提供更好的效率。

这是在不同的平台上面我们做的测试结果,传统的万兆以太网和千兆网,我们看到千兆网的效率是很有限的。尤其当你交易的数据量上来的时候,你会发现带宽和数据的处理能力会非常快的下降。

简单介绍一下我们在做的一片网卡的技术叫做ConnectX,我们Mellanox提供的做出来的卡有两种功能,一种功能你可以拿这个卡装带宽,端到端的延迟是小于1.5微妙的延迟。另外一个就是它可以支持所有的数据中心的应用,可以支持FCoE和RDMA,大家可能会看,所有Mellanox的网卡,今天你能通过超云实际上它的端口可能有两种类型。在以太网领域里面,我们引入了RDMA的技术,叫做远程直接内存访问,这个技术基本上把所有服务器跟服务器通讯的瓶颈彻底打破了,逻辑上逻辑就是服务器A的CPU可以直接访问CPU的B内存,无论是传统的千兆网或者是现在的万兆以太网,你所有的数据包先封包传过去,这个过程要CPU参与,要有大量的握手协议做通讯。在这个领域里面我们使用RDMA技术,有点类似于以前小型计算的架构,这也是我们为什么听说过一个号称全球最快的服务器,他最核心的地方有两个,就是所有的服务器是用X86架构,都是基于六核的CPU去实现的,他要解决内部的瓶颈就是通过这个来实现的。所以我相信在未来会有很多的应用软件,依据这个协议会做一下编译可以提高很大的性能。RoCEE是标准管理,我们看到它的QoS的管理,包括地址的解析,它都可以用标准的以太网来实现。这是redhat发布的测试结果,使用了ConnectX它的处理时间是非常短的,另外我们之前跟IBM也做了WebSphere,在传统的以太网里面我们可以更好的实现性能。所以现在在我们的客户里面,像FaceBook、亚马逊、微软等等。

刚才讲到了这里面所有的网络全部都是来自于网卡、交换机、管理软件,它还有存储,它号称最快,一个是对外的响应,另外一个是对内的存储。比如说今天我们墙上挂的超云,它所有其他的服务器和存储服务器借助高速通道来实现高速互联通信,所以保证它所有的通道和平面都能达到水平线,所以这是能做到的。包括还有IBM的DB2,IBM在全球致力于推广这些都是我们的客户。

我在这里特意把这张表列出来,微软用880个节点做成一组,跟另外880个通过网络互联起来,所以是以880为一个规模的节点。这里面所有的交换机都是这样的,平均一个服务器获得的端口带宽是8GB,这是根据微软的设计需要,我们看这种架构,如果你想用思科、华为这些以太网交换机搭建架构的时候,全线速需要三层架构,两层以太网交换机,所以我的核心交换机只能有两台,你的核心层可以根据你的需要是十台或者是一百台,所以可以有很多小交换机去实现。以这样的架构去规划880节点,我只需要买一堆小交换机,因为每一个小交换机的成本是非常低的,现在我只需要用标准的边缘交换去实现,我们微软的客户也想到了服务器连起来,这些跟笔记本怎么连,你可以根据实际的以太网线缆可以去链接。所以它是一个非常标准的通信协议,这是我们在海外非常成功的案例,有很多WEB2.0的客户都在使用这样的案例,这是其中的一个。现在已经建了很多套了,大概有6000多个节点在后台运行。

这是eBay,这是纯粹的全线速万兆以太网的解决方案,这个规模只能做到576个节点,任何两个节点的带宽都能获得万兆的带宽,所以我们的核心层有两台288口的万兆交换机,小个是24口的交换机,拿出12个端口相连,这是最大规模的。如果用更大规模的以太网,我们Mellanox会有下一代产品,我相信在七八月份的时候可以看到,我们自己也可以做到几千个甚至上万个节点。

这里面提到另外一个概念,在数据库层面可以提高一百倍的性能,为什么可以做到这点呢?其实就是Storage Servers,我们通过Mellanox自己的一个软件,这是我们跟天云、超云未来合作很重要的方面,这是我们的配制,前面我们有超云的服务器,这个很贵了上TB的存储的时候我们怎么做,我们做整合配制的时候是这样一个设备,我们在海外有很多成功案例,因为时间比较有限所以能给各位汇报的就是这么多。还有一个话题,大家可能听说过Mellanox的公司并不是很多,我们在国内所有的科研院所,我们能听说过的曙光的千万次、百万次计算机,在国内我们基本上能在中央电视台看到的新闻里面,我们做的银河,包括之前做的天河,内部的网络设备全部都是Mellanox的,所以目前全球做HPC里面我们差不多占了90%的市场份额,但是在很多Servers厂商里面都是我们的合作伙伴,大家能看到未来有很多云的解决方案里面,内部的网络我相信有两种选择,一个是40GB的以太网,当你在一个Servers里面有很多虚拟机的时候,在虚拟机虚拟化云的平台里面,你会发现另外一个瓶颈,就是存储的瓶颈,当你在一个物理层面运行的时候,你会发现你的IO的瓶颈会非常快的达到峰值,借助于这种高速的网络,你会发现用40GB的以太网在短期内会把这个问题解决掉,所以这应该是个趋势,尤其是在云时代,大家会看到越来越多的服务器要连起来协同工作,这个时候服务器之间通讯的延迟和服务器带宽之间的需求会越来越大,这是我们未来的使命,Mellanox要做的事情就是提供高带宽低延迟的网络系统,谢谢大家!