2)大数据永远是物理世界的“小”样本:以SMT(Surface Mount Technology)生产线为例,最终产品质量由工艺参数、材料特性、生产设备等上千个参数共同影响,生产检测大数据仅仅覆盖了很小的参数组合空间(curse of dimension)。并且不是所有关键因素都有测量,测量值也不一定能反映分布式参数系统的全部(比如回流焊的温度监测值并不等于电路板的表面温度)。工业数据分析更需要利用先验知识缩小搜索空间,同时保持一种“大胆探索、小心求证”的态度。
3)对分析有直接意义的样本比例通常很小:工业通常是运行在设计的常态模式下,对不期望的干扰因素会进行很多压制,造成绝大部分数据对应非常相似的环境与过程。特别对于故障分析、残次品因素分析等大数据分析,样本不均衡程度非常高(biased data)。虽然物理系统相对社会系统更容易做一些控制性实验,但由于很多工业领域控制实验(比如风机叶片断裂、油气管道泄漏等)成本或风险太高,实际上也很难提供足够的异常情形样本。
因此,工业大数据的“大”不能仅从数据量、数据类型、产生速度、质量等角度来看,而应考虑以下两个方面。
1)维度之大:风力发电机组的健康分析应该从时间(过去故障记录、整机性能演化等)、空间(相同机型在不同风场的表现)、环境(气象、地理)、业务运作(设计、维修、限电等)等多个维度综合来看。独立看似异常的事件,很多其实是正常业务操作引起的(如风机功率低可能是由于启动限功率运行模式以降低对居民区的影响)。对于工业数据,更应构建全面的上下文(context model),才有可能分析出一些有价值的结果。
2)先验知识基础之大:工业领域通常有大量的机理模型、专家经验的深厚积累,可以为数据分析缩小参数空间、提供有用的特征变量(如齿轮箱震动的倒谱参数),数据分析也应思考如何有这些基础更好的互动与融合,以期创造更大的价值。