华为徐兴海、区波:面向业务创新的大数据平台及商业实践

  企业对大数据的需求

  走向了广泛部署以后,现在的企业需要的是什么样的大数据,企业需要是大数据平台,有三类企业。

  第一类是大客户,是跨国的公司。 他给我的关键词是第一我需要大数据平台要可持续,一定要平台的可持续,要能保证三到五年甚至十年的持续供应,不能跟我合作一两年以后你这个公司不存在。可持续对大客户非常重要,因为心里技术变化非常快,社区开源新技术变化非常快,客户的消化能力也非常限,客户的主业不在技术,可持续是非常重要。另外一个是云化,一个是内部的云化,为什么,因为大客户内部有很多部门,上百部门都需要数据分析来做支撑,如果你的数据平台是烟囱式的不能做云化,内部做服务化的支撑,内部云化的混合化的提供,对他负担非常重。

  第二个是国内零售的银行。 跟他们CTO讲的时候,他讲原来的数据确实是烟囱式的,每个子系统都有整个的系统,在12年开始采用华为公司的产品,在各条业务线已经开展了很多的大数据集群,从去年华为就把20多个大数据汇集到统一的平面,形成了第二经营平面,大数据已经作为经营平面支撑企业日常分析活动。

  第三是中小企业。 技术变化这么快,新技术处在混战的实地,这些中小企业的主业,这个能源公司主要是搞能源,不是搞技术,每天风机在转,风机转跟天气的关系是什么关系,如何做到提前预测,这种公司难道搭建一个大数据平台吗?不可能,IT人员可能一两个人,这种客户迫切需要的是大数据云服务,大数据云服务对中小企业来说也是非常重要的。

  面向业务创新的大数据平台

  未来第一阶段从传统的收仓交易为中心,第二是数据为中心,第三阶段是以人为中心的全渠道数据的整合,这个时候非常重要的一个标志就是数据处理和云服务的结合,跨地域。这个架构多样化的引擎,现在社区有很多的技术,你的平台框架能否引入新的引擎来处理不同的场景,因为现在不是一个引擎包大天下的时代,未来引擎的多样化和大数据云服务非常重要,这是华为FusionInsight大数据平台,简单来说最底层有两个产品,一个是ITD,做一个统一入口,让客户不用关心数据在哪里,可以做一个全量全局的查询,上面这一层非常重要,因为Hadoop1.0(阶段)是给开发者用,2.0(阶段)是期望给分析师用,明年开始大数据的数据分析一定走入业务人员,他是没有办法看到底层这么复杂的技术,他需要是做交互式探索的,大数据不是做定量的分析,是做关联分析,就是在不断的探索过程当中发现数据的价值,不断的修整和反馈,我们提供这个产品能做全量数据的探索,就是没有模式,没有西格玛,可以自动识别出有哪些模式供你选择,你不需要很多搜索条件,给你提供很多自动的(英语)的识别,这是非常重要的。

  另外提供一个Farmer的产品,这个产品非常重要,因为客户关键应用,比如征信、审计类的实时应用,跟Hadoop有距离,不能直接用,需要在Hadoop托管之上使用的平台,包括能处理事件和流的决策平台,这个平台架构在Hadoop之上,客户只需要关心自己的应用逻辑,在上面写逻辑就可以了,华为的Farmer已经完成了数据位置到服务的管理,同时也做实时决策的分析,比如你要关心我需要什么样的客户,我推荐什么样的商品,这个逻辑就会运算到下面的大数据平台,这是华为这一层的产品。

  从开源的重要性再谈一下,华为持续回馈开源社区,从09年开始在Hadoop、Spark社区辛勤的耕耘,华为在两个社区都是排名第四,Spark排名在上升,很重要的几个标志事件,是今年6月份我们获得了国内首张Spark的 商用发行版认证,而Spark的图算法,华为在社区里有核心的贡献,今年11月份,PrefixSpan算法发布。

  最后看一下案例,华为的大数据平台分两个交互模式,一个是线上,一个是线下,线下主要跟企业客户提供大数据平台,跟合作伙伴来开发应用,一起为支撑客户的应用创新。

  第一个是招商银行信用卡的案例,从周到分钟,之前客户发信用卡以周为单位,申请以后需要做很多要素的审核,你的消费习惯,你有没有上黑名单,你的风险承受能力,你的信贷情况,其中有很多环节是要人工参与的,采用华为大数据平台,以后发卡周期变成以分钟为单位,当场就可以发卡,华为的平台给他提供了一条非常容易的多条规则并行的计算,给客户提供非常真实的征信情况,当时可以发临时卡,这是一个变化。