南大通用杜国旺:数据库如何支撑中国制造2025

需要哪些数据?第一,一些基本信息。这个叶片是哪个厂家生产的、哪个型号,需要关系型数据库,都可以记录它这些信息,以及吊装更换的流程,货物生产周期,都是可以量化的。但是怎么提前两个月发现这个设备会坏,我们需要对设备的状态进行监控。叶片不是天天转的,风大了开始转,风小不转,每一个风机的工作使度,比如下大雪它是不是转了。以及表面的平整度,阻尼系数,叶轮转的时候遇到的阻力系数。发电运行状态进行数据的采集。数据的特点是格式固定,不同特性的特征采集周期不一致,采集点的数量极其多,一个风机上面采集点的数量都是成千上万的。采集到的数据需要高压缩存储,高压缩存储有一个典型的特点,第一次采到的值是这个值,第二次采到的如果跟第一次一样我就不变了。不可更改,一旦记录下来就不用更改了。预警模型,达到什么状态要提前预警告知。

必要时场景在线,比如在工业化的工厂里出现了什么故障。一家著名工控厂提到轧钢机的工控机,银行的业务可以停一小时、两小时算只顾,停15分钟不算事故,但是对于一个钢厂来说一个设备停3秒钟、2秒钟可能就是事故,为什么?钢水上来以后,如果控制系统停了一秒钟,轧钢机可能就坏掉了。遇到问题以后要提前预警,或出现问题以后要回过头来把当时的场景调出来,分析为什么会出现这种问题。一系列的数据记录都需要数据库支持时间序列特征。

风机数据采集下来怎么办,下边有一个盒子,盒子里有数据传输回来。盒子要存数据就要内嵌一个数据库,要支持嵌入式的特性。

超长的车来了以后,为什么直接走到那台风机上,它要跟地理位置信息很好的兼容。

是在一个风和日丽的时间来的,它要对地理信息等等复杂信息进行记录,这些都是非结构化的。有一款数据库产品叫做GBase 8t,它就是支持这种工业化生产需求的。

某化工集团在德国引进技术新建工厂,包括厂房建设、生产工艺等等,德国那边怎么干我把它完全搬过来怎么办。刚开始德国过来一组工程师指导,跟德国的生产效果差不多。然后这个集团说既然这样一样的做法又建了两家工厂,建完两家工厂以后发现,这两家工厂能耗比第一家工厂要高,原材料投入比第一家工厂高,就是产出怎么也赶不上第一家。

他们把德国专家叫过来分析也没戏了,怎么办?他们借了一套系统,对整个系统的运行状况、经营分析状况、生产状况进行了跟踪。这个状况的跟踪极其艰苦,要跟踪每一个工艺环节的执行时间、执行时差、温度、气压等等。跟踪之后发现他们这么多的数据与过去的记录,最初他们说找两台计算机记录下来就行了,后来发现记录不下来,这么多数据存储需要有数据库的特性。记录是用结构化的数据记录,同时它是海量运行数据存储,要支持P级,甚至EP级这样大数据量的存储。

用两台机器不行,再扩展两台、四台、六台,一直扩展到上百台,他有这样的扩展要求。

同时对所有的数据进行分析之后,用甲骨文去分析的话,可能有一个master级,执行不出来,遇到执行瓶颈,是不是每一台机器都能提供分析结果。提供无master最后汇总的需求。

最后是支持海量数据高速加载。分析系统推数据的时候要求的时间窗口很短,时间长了加载不进来就无效了、作废了。

在满足这种大数据要求的时候,我们还有一种产品叫GBase 8a mpp,支持无master大数据的查询、存储、复杂分析,金融行业有一个比较典型的例子,农行的数据仓库已经是P级数据了,上百台机器的集群了,后面移动、电信都有,工业化这一块我们希望也找到自己的落脚点。

刚才介绍了两个产品,这两个产品是南大通用做的。南大通用成立于2004年,是一家专门做国产数据库的公司。

南大核心产品有三款,一款产品是GBase 8a,基于大数据的复杂分析。另一款产品就是GBase 8t,针对交易型的数据库。还有一款是内存数据库,内存数据库是我们买了韩国内存数据库的原码以及一个团队。