三位一体的工业大数据综述

三位一体的工业大数据综述

工业大数据的目的是为了改变以往工业价值链从生产端向消费端、上游向下游推动的模式,实现以客户价值为核心的定制化产品和服务,以及与之相适应的全产业链协同优化。为此,工业大数据应满足用户需求定义、工业智能制造、活动协同优化三方面的应用。

在这些应用中,工业大数据的落地需要与之相适应的技术架构作为支撑。目前,李杰教授提出的“5C”架构体现了工业大数据“数据->知识->应用”的信息架构,而工业互联网参考架构(IIRA)和工业4.0参考架构(RAMI4.0)均是顶层系统架构,还有一些公司企业依据自身的业务提出了自定义的技术架构,如通用的Predix、三一的根云等。

我们知道技术架构应由应用场景的特征来决定,就现状而言,工业大数据还处在产业的初级阶段,对工业大数据应用场景的认知还不太深入,但大数据在互联网的应用已具备成熟的技术体系和应用框架,因此,本文主要通过比较工业应用场景和互联网应用场景的差异性,期望能够修正互联网大数据的相关应用技术框架,以满足工业大数据落地对技术框架的要求。

工业大数据和互联网大数据的技术架构都具备数据环境、知识环境和应用环境三个层,如下图所示。

数据环境

三位一体的工业大数据综述1

从数据环境来看,首先,互联网大数据和工业大数据具备不同特征。如下表所示:

三位一体的工业大数据综述2

三位一体的工业大数据综述3

三位一体的工业大数据综述4

由于上述对数据的差异性,互联网大数据更多的是关注数据的持久化,其技术架构侧重于实现异构数据的存储、访问的一致性,满足多负载的并行读能力。所以,互联网催生了大量的非关系型数据库、实时数据库、分布式文件存储的技术。

工业大数据同样关注数据持久化,但工业大数据部署应用的一个原则是将应用尽可能部署在离数据产生源越近的地方。这是因为,就近部署其可靠性、实时性越高。需要按照业务需要进行部署,因此,很多应用部署在设备、生产车间等。所以,与互联网大数据集中式存放的方式相比,工业大数据对数据存放更加离散化,在空间中形成跨网的分布式存储,且各数据节点对数据存放、访问的能力要求不一样。比如以在某一公司实施的智能风场项目为例,在风机上部署的采集终端,需要存储结构化且要求实时性高的技术方案;在相应业务端,如生产系统或调度系统,数据是半结构化且实时性要求一般;在公司数据中心,数据是非结构化且需要语义组织。因此,需要抽象和设计一个统一的数据持久化环境,为工业大数据的上层应用提供基于语义的数据发现和相适宜的访问能力。

另外,工业大数据的数据环境,更关注数据采集的能力。工业大数据的数据采集依赖于物联网(IOT)的实现,IOT关注的采集的可靠性,实现数据接入的总线化,但工业大数据对IOT提出了更多的需要。以在某一公司实施的智能风场项目为例,在设计数据采集时,考虑了如下一系列的需要。

一、IOT终端需要具备边缘计算能力,首先是风机高频运行状态数据没必要全部上传,只需要上传从风机运行状态数据提取的相应特征数据,在必要时,如发生故障需要原始数据进行深入分析或者为训练模型需要原始数据,才需要终端上传数据。因此IOT终端需要运行特征提取算法;

二、IOT终端需要具备对采集数据的辨伪能力,需要对数据质量进行预判和修复。在采集风机运行数据时,数据大多是通过传感器,传感器本身存在故障、标定、存在寿命等问题,产生错误数据的概率较大,而坏数据对基于物理关联和因果分析的模型影响相对于互联网应用基于统计分析的影响更高;