星环信息孙元浩:Hadoop推动现代数据仓库技术的深刻变革

在这一块,上层我们会借助这个容器把这个东西所有的标准化容器放在一个里面,所有的服务都可以自动通过组装方式来构建这个应用。整个实现了两个特点,一个是解决了应用标准化的问题,通过容器来实现,另外是实现了运维自动化的问题,整个平台我们通过调度器来进行管理,自动扩容、自动收缩,出故障会自动修复,在运维上极大的减轻了IT部门的压力。这一块因为采用容器,隔离性非常好,可以使得不同部门之间共享一套平台。

这个设计模式是借助流处理,我们在这里不详细讲了。现在随着工业4.0的发展,物联网越来越多,大家需要通过新的技术对数据进行实时处理。过去能够完成数据的实时存储,但是不能做实时分析。应用的需求总是希望越来越复杂,需要对这个计算平台的能力越来越高,这一块我们需要在流上面支持复杂的SQL,比如说存储过程,甚至是机器学习。目前这一款产品也是我们比较有特色的,要远远超过国外友商的产品,我们可以在流的产品上面支持非常复杂的SQL,也能够在流上做机器学习。这也是我们用流数据来实现的一个重要手段。

这个设计架构基本上要从原来对于历史数据的分析转变成对于数据规律的探索以及未来的预测上面。这一块我们采用的方式,其实是分成几个阶段,首先是数据清洗,选取特征,再就是建模,还有就是把一个计算模型能够应用或者是展现,作为决策支持。我们在这一块我们是通过SQL引擎来做加工,对外完整的提供接口,所有的对表的措施都是用原生操作来实现的,内部我们会自动的定义。另外我们也是现在的算法,分类、聚类、反样回归的神经网络,做时序的关联分析,都已经整个用分布式方法重新实现了一遍,也提供了二元的接口,用户可以直接来做这个数据建模。这一块我们现在看到在国内应用不是特别多,大概只有8%的客户在用机器学习。当然趋势是非常快的,有一些客户建好这个Hadoop平台以后,在想怎么从数据当中发掘价值,就需要这种产品。其实有很多咨询机构,包括大数据应用的第一个难点是没有一个好的工具来做数据挖掘,不能从数据当中发挥价值,妨碍大家去应用这种新的技术。我们的目标是希望提供一个非常易用的,但是非常强大的一个工具,让大家能够非常容易的发掘数据的价值。

综合起来我们看到,在整个数据仓库建设当中,我们可以借助新的平台,就可以把原来的架构重新设计一下,整个数据源通过实时和半实时的方式,可以进入一个逻辑数据仓库,甚至可以跨多个数据源进行访问。同时底下是容器化的平台来对外提供数据的隔离和访问控制。

我再介绍一下工信部电信研究院最近在做的性能测试,这个其实是结合了国内20多家大数据的企业共同制定的一个标准,是比较公平客观的标准,也是能反映大数据的行业应用的一些需求的特点,同时包括今天上午我们也给其他大数据厂商做了一个证书的颁发,我们希望有更多的厂商能够参与到这个测试当中,也给客户提供一个客观公正的标准。

我今天的演讲就到这里,谢谢大家!