北京因特睿CTO 张颖:燕云,大数据平台

中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日下午的大数据技术与产品创新分论坛上北京因特睿公司的CTO张颖给我们带来了主题为《燕云DaaS-大数据服务平台-打破信息孤岛、创新数据价值》的精彩演讲。

500-333文章照片-大数据技术与产品创新-张颖(不确定)

北京因特睿公司的CTO张颖

以下是张颖演讲实录:    

张颖:今天很高兴有这个机会向大家介绍一下北京大学以及北京大学的产学用基地,北京因特睿软件公司在我们大数据方面的工作。

我们认为,信息化建设已经经历了两次浪潮,我们把它称之为数字化阶段和网络化阶段。在数字化阶段的时候,我们大多数人用计算机主要是处理一些个人的东西,比如说之前的WPS,写一些资料,通过打印共享给各个部门。接下来第二个阶段我们称之为网络化阶段,这个阶段大量的可以在部门内部、行业内部共享的信息系统,像雨后春笋这样快速的出来。经历了这两个阶段过后,接下来我们看到,就像别人在写有第三次浪潮一样,我们认为信息化建设也会经历第三次浪潮。我们总结第三次浪潮的特征是数据开放、共享、融合。

为什么要这么讲?首先从实际需要来看,比如说现在的不动产登记需要去整合土地、林地、房产等格式各样的数据,这就是一个实际的需要。我们再来看国家政策,从国务院发布促进大数据行动纲要,2017年的时候要实现数据开放共享目录,2018年的时候要实现内部共享,2020年的时候要实现可以向公众开放的数据开放给公众。2015年习主席说要加快城市建设,打破数据孤岛和分割。再到今年的政府工作报告,要实现部门间内部的数据共享,让企业少跑腿,好办事,这都是从国家政策来看,从实际需求来看,就是要实现数据的开放、共享、融合。

在这个过程当中有一个很关键的问题,我们认为有一个巨大的挑战就是信息孤岛的挑战。我们来看一下原来信息系统的建设,经常是为了某一个业务我们就上一套系统,或者是某一个领导新官上任我们就上一套系统。导致我所有的系统之间边界是非常清晰的,但是这种清晰的边界导致我们的数据孤岛的形成,每个系统都有它自己整个的一套配置。这些系统我们称之为是孤岛系统,这些孤岛系统有哪些呢?大多数的政企内部业务系统,大量的App系统,10万计的PC应用,这些都是我们称之为的数据孤岛。为什么它是数据孤岛?我们看这些系统不遵循标准的协议,很难类似于被爬虫去爬取,大量的这些信息系统占到整个数据量的96%。

我们来举两个例子看一下,这是某运营商的一个人资系统,我这个系统是由不同的领导、不同的部门分不同的时间开发的。每当要月末发放工资的时候,就要从考勤系统里面去拿到这个基地每天人们进出这个园区的时间,统计他的考勤信息。然后导出来,放到Excle统计过后,再填到相应的工资发放系统去发放,这是在同一个体系之内,不同的信息系统之间需要交换共享数据,但是却难以交换共享。再讲第二个例子,这是某个市的公检法司希望打造的一个共享平台,现在是两条腿办事,文本送去,还要把相应的公安的信息系统从公安系统里面导出来刻成光盘送到检察院,检察院从光盘里面把数据读出来,再进行处理之后再刻成光盘,再传递到其他的单位。我们也看到,在不同的体系之内,也需要进行相应的数据共享和融合,也需要把这个信息孤岛打破。

要打破信息孤岛,就要有一个颠覆式的新技术,我们看一下存在信息孤岛的本质是什么。我们看很多的信息系统开发团队不在了,文档源代码缺失,还有一些金蝶、用友这样的商业系统,我们要去理解它,要从这些系统里面拿到相应的数据,这个理解、学习和重构系统的工作量是非常巨大的。有的人说我可以直接拿到数据库,但是不是所有的信息系统数据都存在数据库里面,我们要把数据库开放给对方,实际上有改变数据的风险。其实对于很多不同的厂商、不同的部门开发的这些信息系统,这些孤岛系统,你很难拿到它的数据库。并且如果你要拿到它的数据库,必须要确保作为甲方把数据读写出来,还要确保读写权限和时效性,这个带来的风险是非常大的。其实最主要的就是不愿意,要去协调相关的利益相关者去开放和共享他的数据,其实这个时间成本是非常大的。很多的集成商,很多的公司发现我的一个项目要做这样的事,宁愿不接这样的项目,也不愿意去趟这些浑水。正是因为不会、不敢、不愿,导致我们整个信息系统围绕着数据的生命周期来看,90%的精力都花在了如何开采、管理数据上面,只有花了不到10%的精力在整个应用处理上面。因此,围绕大数据来讲,我们本身不是说数据多了,而是说大量的企业是没有数据,是无源之水、无本之木。