浪潮张东:大数据时代,挑战与解决之道

首先,第一个环节就是数据存储。我们作为一个大数据平台首先把数据存下来。如果能够更好的更多的存这些数据并且更快。这里有很多技术,包括全局的负载均衡技术,动态可编码的多副本,采用多步是的环存,提升存储速度等等。

其次,是集群。我们知道大数据处理平台最终仍然是一个集群,在集群的计算里面、计算、存储和网络三个环节紧紧扣在一起,考虑任何一个优化每一个环节都不可或缺。如何让结点之间传输效率或者数据交换效率更高?我们提出了大数据互联交换芯片,如何让更不同的结点之间数据交换的的效率更高?我们在之前跟用户沟通过,当然简单的做一个文本要求可能不那么高。但是现在大数据已经慢慢向传统的高性能计算领域进行拓展,处理数据的量超过我们现在看到的很多应用。而对不同结点数据交换要求很高,数据需要在里面不停的倒腾,不仅基于网络模式也是提升的关键。

大数据的概念

第二个讲的概念,现在讲大数据处理好像是单一的事情。我们针对于大数据的特点画了一个图,抽取出来几个特性。一个数据如何分析它的应用的特点?去看它的数据总量,这是大数据首先的要求。但是,数据量只代表了数据可能大,可能小,但是并不以为这数据量大就一定很困难。比如说全中国人民每人都分一块任务干的话,每个任务就很小了。但是要看你做的事情是结构化还是非结构化,大家相互的关联耦合度有多高。另一个是更新模式,你是需要银行业务或者交易业务不断的做事务处理,在原来数据上更新还是保持原来的数据不变不断的叠加。再一个就是响应处理,比如我每天处理一次还是说提交一个请求要求多少豪秒之间就要进行返回。

数据的总量、更新和处理

从这几个角度来讲不同的数据有不同的特点。我们大概把这个进行了分离,画了三个圈,不一定非常严格。从我们做产品做平台的角度来讲,如何去推出不同的东西来应对不同的应用需求。最里面的一个圈是大家见到的非常夺得,就是最传统的数据库的应用,银行里的应用、民航的应用,类似第三方支付的应用。它现在仍然是数据库最主要的部分,现有的很多分布式技术在这儿做的非常少。最外面这一圈完全是数据虽然规模很大,但是是松散的,可以充分的分布化处理。原来传统高性能的数据就可以划到这里面来。还有中间的一层就是文本的搜索数据挖掘的很多数据都可以在中间这一层。