中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日大数据技术与产品创新分论坛中东方金信联合创始人石棋玲以《海盒大数据技术与产品创新》为题做了精彩的分享。
东方金信联合创始人石棋玲
以下是石棋玲的演讲实录:
石棋玲:大家好,很高兴在这里为大家介绍我们北京东方金信科技有限公司的海盒大数据技术与产品创新。我本次演讲主要介绍一下大数据的通用技术与我们海盒大数据产品。本次演讲首先会介绍大数据的技术发展近况,其次会介绍我们海盒大数据平台产品创新,然后讲解创新点的应用实践,再就是大数据行业的趋势。
首先我介绍大数据产业发展的近况。我国的大数据产业市场规模越来越大,国家也推出了很多很好的政策,比如说工信部很多的政策对我们大数据技术的研发有很大的推动作用。我们就大数据在金融行业的广泛应用大家可以看到有很多的案例,我本身在美国PNC银行从事风险管理很多年,我们在美国大的银行也有很多的大数据应用。大数据在通信行业也有很多的应用,逐渐渗透到很多的行业,我所知道的像医疗、政府,还有很多其他的行业可以看到大数据的应用。
这是一张大数据产业生态图,这只是一个简单的例子,大数据有很多的组件,我列举了一些例子,像分布式文件系统,今天我们用的最多的就是这个。HBase等等大家都比较熟悉,其他的组件,很多都是我们常用的。我们公司根据客户的需求,深度定制大数据平台不同的组件,去满足客户的需求。
现在在大数据发展的热潮中,很多技术点开始成为大家热切关心的一个方面,像数据存取,现在要求数据存取的速度不断的提升,催生了数据实时处理的一些需求。云计算的发展,现在催生了很多大数据本地部署和云端部署的结合。大数据平台的不断扩展,催生了数据管理安全的必要性。有些像商务方面的发展,我们就有很多像移动商务与大数据平台的结合。其他方面,有一些像预测性的分析、规范文本分析的发展应用。
下面我介绍我们公司海盒大数据平台的一些产品创新。首先我介绍一下我们公司,今年数据中心联盟第一批大数据产品认证通过的企业,这个认证是国内首家考察商用大数据平台能力的测试。多家业界领先的企业都参与了测试,高可用、多租户我们都通过了测试,而且这个测试非常全面,包括功能、运维、安全、兼容性等各个指标,对大数据平台的能力进行了全面的考察,有很多的测试专家全程监控整个测试的现场,由参测的厂家,还有客户专家、学术专家构成的评审委员会,测试非常公正严谨。
我们海盒大数据平台一个主要的技术创新就是一个高效的实时处理技术。我们通过实时处理的技术,能够实现首先是数据的连续性,然后是实时信息的访问,之后是实时数据的展现,能降低IT成本。我们怎么去实现实时的技术?我们有一个专门的海盒实时同步工具,首先是解析日志的文件,实现数据同步的功能。另一方面我们也使用了很多Hadoop的开源组件或者是其他的组件进行封装,能够实现准实时的同步。另外我们平台的一个创新点在于,在我们的大数据平台上我们做了很多数据仓库的理论创新,因为我本身自己就是做金融行业很多年,我们在数据行业积累了很多的经验。所以首先在数据仓库层面形成了四个方面的理论创新,海盒平台实现了仓库式的数据存储,我们构建了数据仓库的多层数据模型,我们有数据层等等各种数据仓库的层次。我们实现了基于大数据的一个主题模型和数据管控,因为金融主题模型和数据管控是传统数据仓库的核心,怎么建立总框架图,通过这些模型的管控,实现数据仓库的核心价值。在展现方面,我们有多种图形的展示方式,能够满足各种业务的需求。我们创新大数据与云的结合,我们SeaBox大数据的平台可以跑到多可用,我们把各种封装跑在Docker里,Docker可以跑在IaaS服务器上,通过多种平台实现大数据的结合。