超云产品经理梁曜中解读“云慧”

梁曜中:大家下午好,我是超云的产品经理梁耀忠,非常感谢刚才我的两位领导给大家做的比较精彩的演讲,比较生动,给我半个小时的时间给大家介绍一下云慧。


在我给大家介绍这款产品或者解决方案之前,我先给大家阐述一下我们公司对于大数据,以及大数据相应的解决方法在我们公司的一个相应的理念是什么。我们对于大数据想解决的三个问题或者是问客户的三个问题,有这么三个。第一个,客户实际需求是什么,他现在所处的大数据的环境,主要问题是什么,还有他在今后的三年到五年内,他的扩展规模是什么。这是第一个问题。第二个问题,我们会对我们的软硬一体实施的方案分别从软件层次和硬件层次分别进行调优,不浪费任何资源,不花费任何多余的成本。最后对我们提供的软硬一体设备进行一站式全方位比较贴近用户的支持和服务。所以,我们主要从三个方面和客户进行不同纬度的沟通。


希望大家在所处的领域和所处的行业对大数据的概念有了一部分的认识和有了一部分的接触,我给大家粗略的描述一下大数据到底是什么,大家都在谈大数据,这个大体现在哪方面?主要有三个方面,第一方面顾名思义就是数量庞大,庞大到什么程度呢?IDC给了一个预测,2020年数据的增长会是现在的44倍,达到35.2ZB,这些数据大的程度分布之广,类型之多,都是由于当下的应用和不同的处理方式以及之前累积沉淀下来的数据组成的,比如当下非常火爆的微博、视频网络,还有现在一些行业正在部署物联网,一些传感器,他们所产生的一些数据,这些都属于大数据的范围。还有一个是类型之多,和我们之前提到的数量是呈正比的,有视频类型,有文本类型,还有信号类型,就是传感器处理的文件保存形式类型。还包括一些中高档轿车上的一些导航,基本都是交互的,不仅是单项的输出信号,作为驾驶者对GPS有一定的询问方式,通过远程的协助方式,对导航信息进行一个互动,当然这个阶段还是比较初步的,今后的发展阶段可能会对问题进行回答,对路线进行指定。由它产生的信号,由它存储的数据和应用程序对它的处理可能更加复杂。


最后一个大是什么?是现在的客户和各个行业需要大数据的反应速度和处理速度之快,这个纬度上的大。关于大数据的处理速度,我们现在的关系型数据库对于大数据已经显示出无能力处理或者存储,无论从它技术的发展,还是从现有技术开拓的层面上,已经显示出了比较缓慢的增长趋势。所以,问题的产生对于大数据本身的技术往前推进并不是说它是来取代关系型数据库的,而是对现在的数据库技术一种很好的补充,是一个互补作用,并不是我们今后产生的所有数据都叫大数据,这是不对的,我们也可能产生很简单的就像文本文档,很简单的工作中产生的文档,这些还是需要我们关系型数据库去存储的,但是对于一些更为高端的或业界更为前沿的一些技术或者今后业务上更为需求的一种存储和计算技术来说,关系型数据库的处理能力和它今后的发展对于大数据的处理上已经产生了很大的制约作用。所以说在传统的BI,在数量达到TB级的时候,它的性能已经产生了明显的落后状态,还有现在对于数据的处理,它的数据量一直在增长,但是传统的数据库的处理速度却是逐渐在变慢,这对于客户来说,最直接的效果是什么?就是我看不着处理结果,但是我相应的软件已经升级到当前最新的版本,这是作为终端用户最为直观的一种反应。


如果我们的客户,或者如果现在行业中对于大数据的处理能够很稳当,很正确,而且切入点很适当的话,那么大数据所产生的利益和对于现阶段,以及今后3—5年内企业所节省的IT成本将产生一个非常可观的数字,这张图就可以看见。你比如说零售行业,还有航空、制造、食品、钢铁等等等等,这些行业中所产生的数据量、数据类型,还有他们对于大数据的需求是非常复杂的,他们一旦用了正确的方法,对于大数据的处理,他们的生产效率大家可以看到,基本上都是维持在20%之上,这个对于一个企业来说,或者对于一个行业来说,它的生产力直接转化成它的利润,它可以用更少的钱产生更大的社会价值或者产业价值,相应的通过左边的到右边的话,转换成相应的利润,这个数字也是相当可观的,这也就是我们说的大数据潜在的巨大的市场,而我们现在绝大部分行业、公司、客户他们对于大数据的认识还仅仅停留在如何用更大的存储去存这些数据,而不是如何去挖掘,去利用,去把这些数据转换成更好的生产力,带来更大的利润价值。


我们刚才说的那些数字,它在一些行业中有什么典型的应用呢?当然它会有许许多多的行业应用,对于我们超云来说,我们在五个方面,第一个方面是互联网行业,这是我们超云当前最大的客户,还有电子商务,也就是电商,第三个是商务智能,也就是BI这方面,其次是教育研究,也就是高校、研究所,最后一个方面也就是物联网,这是一个非常热的话题,现在大家都在说物联网,但是物联网的标准是什么,定义是什么,从什么切入点能更好的接近物联网的概念,把它从概念化到一个实地化,我觉得大数据是一个点。从超云来讲,希望从大数据这个点切入到物联网,从而开阔我们产品,包括基础设施对于物联网这个概念的理解。


刚才我介绍了互联网行业是我们超云最大的一个行业,在互联网行业中大数据是怎么运用的,或者它有哪些应用的领域,一个方面比如大量数据的并发访问,就像微博,微博上突然一个敏感事件发生了,大家对于这个话题会集中的去刷页面,刷微博,去看一看具体的一些比较有权威的机构对于这个事件的评说是什么,事实是什么,大家都好奇。所以,在某个时间点大量用户对于某个页面的访问将会产生大量的数据,而这个数据无论是上传数据还是访问数据,水平、文字,包括现在的动画,一些等等等等,都属于大数据的范畴,如何去处理这个问题,或者去面对问题,互联网行业现有架构能不能承担起这么大量的用户在某个时间点同时访问,它的数据量刚才说了,百万用户在某个时间点同时刷一个页面,它的数据量可能是GB,但是更可观的是像微博这种对于敏感事件的访问量,那可能是PB级,还有一些大数据典型应用,比如Web服务器里的一些日志,日志的保存是大数据的一个比较传统的应用。大家知道日志里包含的每一条记录,它所陈述的是事实,但是每条记录根据时间点所串起来的一件事儿,它可能反映出一个趋势,而这个趋势对某一个问题的解释是很好的一个佐证,这是对于数据本身的挖掘潜在的价值之一。网络设备的日志可以检测到某个网络设备宕机的前后呈现的不同状态,分析出原因。还有关系数据库日志,这个当然也是日志的一个。


电子商务也是大数据应用一个比较广泛的领域,像淘宝、百度这种电商、网商他们对于大数据的阐释,他们部署的架构对于大数据的适应性,大概在两年到三年之前,淘宝三年前就把它后台的技术架构已经偏向于以数据为驱动,以大数据应用为核心的技术架构,大量的交易信息和数据。大家知道,比如我们在网页上买一个东西,买一个鼠标,同样的配置买完之后,会有一个实物的对比,这个是通过什么比对的?就是通过用户在勾选不同规格的时候,后台的大数据应用从它所存储的数据终进行不断的检索,不断的对比所产生的相应的一个推荐方法,可能推荐方案不只一家,可能有微软的,还会有其他的厂商等等等等,所以,这个是大数据直接的应用,也就是数据对比,还有非交易类数据,比如应用和设备的日志文档,这是对厂商的数据中心、工程师而言。第三是大量的用户信息,干什么用的?一个用户上了网店他的轨迹是什么,去了哪家网店,他的消费行为是什么,他存储的价值和他对数据的挖掘价值对他今后的数据部署和业务分布,以及他整个网络商店的业务分配等等等等,都起了挺大的关键作用。


商务智能,现在最希望达到实时性,BI技术是不能达到的,它是实时查询,这是大数据技术给BI带来最大的撼动。


教育研究,这个方面从我的理解来说,是对大数据本身技术的推进。所以,在教育院校、科研院所,他们所针对大数据的理解并不是针对于应用层,而是针对于大数据本身算法,大数据本身对于硬件的匹配,它今后的发展方向和它再到技术细节,比如大数据算法里每个参数是怎么应用的,这个我觉得是教育研究机构他们最为关心的话题。所以,我们把它列出来,是为了我们能跟教育院所进行某些合作,而这个合作其实是对大算法本身的一个推进,一个技术的推进。物联网就像我刚才说的,超云是希望通过大数据这个切入点切入到物联网这个概念,再通过我们本身的基础设施的一个提供,能够很完整或者很全面给用户也好,给我们合作伙伴也好,对于物联网概念的描述我们希望也像云计算一样,能够实时的落地,我们希望对物联网做一些实事儿,这是我们从大数据切入的一个点。


其实就是做两件事儿,一个是分区,一个是冗余,分区是什么?分区就是如何有效高效的处理数据,快,这是它的一个字。还有一个是冗余,冗余是什么?冗余就是可靠,也就是说我希望我的服务是7×24小时不间断,哪怕×365也不间断,现在如果达到这种方式,可靠的方式就是通过冗余。


再回到第一点,大数据实时要快,既然已经存储了,已经沉淀了大量不同类型的数据,对于这些数据的分析挖掘提取再反馈,客户需要的是能够实时响应,我输入即我所见,当然客户的希望总是在不断的增加,而对于我们技术的提供者或者是设备的提供者来说,去满足客户,这是我们唯一的使命。现在单个服务器节点,它达到极致的话,也就是80%—95%,这是它的极致,如果达到这个阀值得话,他如果呈线性部署的话,对于大数据的问题依然是不能解决,它的能力是非常有限的,也就是对于这个算法本身,大数据问题的利用率只达到40%。所以把这个概念进一步扩大,单个不成,我们给它合起来,一个群的概念,也就是对于同一个问题,把它以大化小,把小的分散在不同的服务器上,通过某种机制,对最后的结果进行汇总,最后反馈给客户。所以,它相当于我们平时榨汁机,我们希望一个果汁里有香蕉,有苹果,有梨,三种水果放在一起,怎么榨?肯定是先切,不同水果切了放在一起榨,我们延伸一下,形象的比对一下,对于不同类型的数据,就像这三种水果一样,我们把它切分,切分小到榨汁机以最快的速度,我们规定15秒,以那个力度放在榨汁机里,最后汇总成一个结果反馈给客户,达到实时性。所以,大数据对于技术架构只需要做到这两点,一个是同一个大问题分散在不同的计算节点,打散,还有怎么提供更为可靠的计算环境。


超云对于大数据的解决方案是用了业界非常普遍的或者非常流行的一个方法叫Hadoop,首先是开源的,大家都可以用,它提供了一个参考的技术框架,但是不同公司用不同的Hadoop的版本会对Hadoop的不同版本内的不同功能模块进行不同的调优。对于我们超云来说,我们有不同的合作伙伴去针对Hadoop本身的算法进行一个深度挖掘,当然,我们选择不同合作伙伴的目的是什么?是为了不同的客户群,客户的需求是多种多样的,很难提供一个唯一的单项的技术方案或者技术产品给客户,满足他所有的需求,这是不现实的,尤其对于开源,这更具有挑战性。所以,超云我们所采取的方案或者策略是什么?是根据不同的客户需求,采用不同的合作伙伴的Hadoop技术,加上我们超云本身的高密度低能耗的相应的服务器汇总成软件一体机来解决或者为客户提供一系列一站式的大数据方案。


刚才说到Hadoop,我们之前如果大家关注超云的话,我们之前曾经发布过一版,是跟我们的兄弟公司天云趋势合作的一款大数据的一体机,今天介绍的是我们跟英特尔他们的软件部门一起共同开发的Hadoop一体机,这有什么特点呢?这个特点是,我们把Hadoop本身的算法调优到了可以说对超云的硬件来说,已经达到了极致。大家知道英特尔是个硬件厂商,他们对于CPU技术,对于主板技术,乃至对于能耗技术会有非常尖锐非常独到的认识,我们又是英特尔的合作伙伴。所以,双方的合作更为紧密。
回到Hadoop版本来说,这个版本最大的优点是什么?针对两个领域,一个领域BI领域,还有一个领域是电商领域。BI领域要求实时性,也就是对于客户所处理的单据也好,所处理的交易也好,可以最快的速度反馈给客户,这里面是通过实时数据库这个模块。还有Hive数据仓库,这两个模块进行调优,而且对于这两个模块的实现,英特尔和超云在Hadoop开源社区做了大量的工作,可以说比较有特点。所以,在实时数据库和数据仓库这两个模块,是这一版和之前那一版最大的不同。


下面给大家介绍我们的一体机到底是怎么组成的,它的架构是什么。左边是一个实物,大家可以看到是一个机柜,这个机柜的规模可以根据客户实际的业务需求和他现有的实际的业务发展状况我们进行分析,去进行部署。在机柜里有三个部分,第一个部分是网络部分,还有一部分我们叫名字节点,用来做什么?它是整个设备数据的出入口,它是整个系统的司令部,它把所有的数据不是集中在这儿,而是进行了一个分布式系统的索引,它知道每个数据存在什么地方,每个数据的备份存在什么地方,这叫名字节点,大家形象的想想叫司令部就可以。


最后一部分是数据节点,这是实际的存储数据的,所有的数据都存放在这里。在实际的运作过程当中,数据请求从名字节点先入,对于同一份数据我们的实现Hadoop的算法是将一份数据进行三份备份,一个数据进到我们的系统之后,会进行三倍于原来形式的备份,这样更为安全,不仅是冗余。


右边大家可以看到软硬一体的方案架构,上面我们具体实现的Hadoop的算法进行了相应的定制化、调优,底下是由超云定制化的服务器进行提供的。


这是一个实物,14U的机柜,里面是由超云的R6000系列服务器组成的,在这个机柜里全部是双路,对于它的指挥部我们是用了两台双路服务器,对于数据节点存储时机的数据的备份我们用了8个节点,每个节点都是双路,磁盘存储量达到了96TB,其中用了1.2TB的高速缓存,主要是用来做计算的时候对于数据的存储,削减它的RO瓶颈。


我们产品的几个主要特点,我就不一一介绍了,我想说大概两个比较有特色的,第一个是独特的硬件技术,我们是英特尔的合作伙伴,所以,我们和英特尔在共同开发这款产品的时候,英特尔方对我们的硬件架构,尤其是底层的硬件支持做了独特的或者是比较特殊的一个硬件优化,其中包括指令级优化,相应的扩大了指令级。还有多核多线程,从硬件工程师的角度来说可以更好的理解,把它单位计算处理的能力翻了一倍,还有为了提高它的数据的I/O吞吐量,对DCA这个技术进行了优化,一般的服务器硬件不具备的功能上对我们进行了单独的开发。所以,使我们的6000系列服务器都具有了提高I/0吞吐量的功能。


还有英特尔的SSD高速固态硬盘,这个硬盘一方面是刚才说了BI系统提高它实时的存储,实时的处理,还有它的虚拟仓库,大量的后台的分析这么一个能力。还有一个特点,我们开箱即用,对于客户的一般需求,是用我们刚才这款我们推荐的标准配置,客户所需要做两个动作,一个是插上电源,插上网线开机,还有经过工程师的简单调配,不是软件上再进一步的调优,而是对于软件和客户方的行业软件之间的接口做一个调优,平均时间是3天。也就是说从你买到整个机柜,到实际的机柜的部署上需要三天。对于一个典型的BI应用,大家稍微有点儿经验,这个时间就不是三天,三个月可能都要打个问号。大数据在行业的快速部署和应用是有极大的优势的。


当客户买了这个产品之后我们能提供给客户什么?我们作为一体的方案提供给客户,不仅仅是产品本身,还有产品本身附带的价值,客户能得到什么。有这么几点,第一点是集群配置和平台建议,我们的工程师会对整个客户的需求和客户3—5年的需求做一个比较概述的分析和总结,针对我们的方案特点进行一个总结,有针对性的进行调优。无论是从客户的数据容量的分析,还是硬件的选择,操作系统的建议,软件的安装,行业已有软件的调优,接口的设计,等等,都会做出一系列的分析。还有对客户所部署的整个一体机的运营环境,集成环境进行支持,包括对于客户已有数据的导入我们有专门的方法,还有专门的工具进行导入,还有对于客户在部署过程中会发现各种各样的,无论是软件层次,还是硬件层次的错误,我们会进行侦测、检查、排错。对于客户方部署好的一体机的集群,会对它的各个硬件层次进行一个监控,无论是能耗监控还是使用率监控,还是对于某个节点的故障的监控,等等等等,我们是有个平台级支持的。


最后一个方面,Hadoop是开源的,这个开源的版本大家都知道它的更新是非常快的,它的更新周期不是用几周完成,而是平均每三天,对于Hadoop来说,一个正式版本的发布就是平均三天。所以,我们会对Hadoop相应的产品进行相应的升级,这是由我们的工程师进行提供的。对于我们的产品您购买之后我们会提供上述的一系列服务之外,我们还提供对于Hadoop本身来说的专业培训服务。比如您方买了我们的一体机之后,可能没有相应的技术人员懂Hadoop技术,我们可以从购买机器之时对您方的技术人员进行相应的Hadoop培训,能使贵公司的技术人员在购买了之后可以立马上手,对相应的产品进行一个指导安装维护,等等等等。


我们对于这款产品的售后服务,包括现场支持,我们会有相应的售后团队,从软件技术和硬件技术都会进行相应的支持,远程当然是电话、Email,这些是可以达到的。最后是安装调试,就像我刚才说的,我们一体机的概念只有两部分,一部分插电,插网线,还有一部分是进行应用软件接口的调优,在这个过程中肯定会有一系列问题,尤其是第二部分问题,对已有的应用软件的问题,可能这个问题会涉及到软件工程师对于代码层和接口层的进一步的调优工作。所以,这部分工作我们也是包括在整个方案当中的。


这页中的大部分我之前已经给大家介绍了,企业为什么要部署Hadoop,为什么要去部署大数据这个问题或者是采用相应的大数据解决方案。所以,从我们超云来说,对于大数据的部署,就像我之前说的,只想针对两个领域,尤其是这版,一个是BI领域,还有一个是电商这两个领域。所以,这版我们对于大数据进一步的沟通,或者跟英特尔方进一步的合作,我们信达到两个目的。一个目的是对于硬件技术和软件技术能更好地结合,将Hadoop本身的算法和它的性能能推到一个新的高度,还有一个也就是能从大数据这个问题本身能有一个新的切入点,对于物联网和云计算的结合能提出一个我们新的认识,这是我们希望通过我们这版产品达到的两个目的。


这三个方面的客户收益,之前我跟大家提到了,一占式,省去了中间很多步骤,不需要布网、组网,不需要对硬件方面调试,已经调试好了。还有一方面软硬一体,为客户节省大量的运营成本,IT计算成本等等,还有我们的超云服务器是低功耗的,在电源能耗管理和对于成本的节省方面,我们是有独到的一些技术的。这三方面对于我们整个一体机的产品,对于客户来说还是能收到三点明显的益处的。


我们对于大数据本身这个问题也是在不断的认识过程中,我们在思考大数据不是一成不变的,而且数据量的变化,数据类型的变化和处理速度的变化,不仅仅是大数据本身所要面临的问题,可能随着业务环境更加复杂,大数据的部署当中遇到的困难更为繁杂的话,我们对大数据或者相应的解决方案的认识也会更进一步,我们同时也在思考,我们不是推出一款产品之后对于大数据就是一成不变的,我们会思考以什么样的合作方式,什么样的处理方式帮客户解决大数据或者数据量增大,实时要求增高的比较棘手的问题,同时我们也想推荐大数据和Hadoop算法技术本身在行业当中的一个推广度,这是我们从超云的角度来说,作为一个硬件提供商,希望能绑定相应的软件解决方案,以增强我们基础设施提供商方面的作用吧。所以,希望大家从不同的渠道,不同的合作伙伴能给我们超云更多的意见,无论是建设性的也好,还是破坏性的也好,建设性的当然更好,只要能把事情往前推进,对整个方案是有帮助的,我们都是欢迎的。好,谢谢大家。