数据挖掘|概率图模型(一)

物联网

  下来我们将花两篇小专栏的时间对概率图模型进行简单的介绍,主要是一些概率的基础与证明,比较理论化。但个人觉得还是很有必要。因为后期的一些算法是以这个为模型基础的,所以现在首先构建一个理论基础,后面谈到应用的时候可能会更好的理解。

  本篇可能写的有些抽象,如果有更好的建议,欢迎提出~

  ------------------------萌萌哒的分割线------------------------

  贝叶斯网络基础

  为了将事件的关联性用图的方式,清楚的呈现在我们眼前,Pearl开发了一种叫 概率图(PGM) 的模型。这个模型抽象了一些事件,还有他们的联系。简而言之,就是把一系列事件画成圆圈,如果事件相互之间有 联系 ,那么就在在两个圈上连上一条线。如果是 因果关系 的话,那么就在这个线上标个箭头。

  基本的概率图模型主要是:贝叶斯网络,马尔科夫随机场。其中,贝叶斯网络通过有向无环图(Directed Acyclic Graph)来表现。有向指的是因果关系(就是图中的箭头),无环指的是因果关系不构成环状,也就是没有A→ B,B→ C,C→ A的这种情况。整个贝叶斯网络反映的就是: 在一系列随机事件中,一些事件的发生对另一些事件概率的影响 。(这里也可以理解为 条件概率 ,或者是 因果关系 ,就像感到饿了的这个事件会对吃东西这个事件产生影响一样)。

  下面是一个简单的贝叶斯网络:

物联网

我们用

表示上图的七个时间 全部发生 ,那么这个 图的概率模型 为:

公式推广可以得到:

其中, 表示 的所有 父节点 (也就是所有对这个事件有影响的因) 这个公式就代表,上面的7个事件全部都发生了 。在概率上,如果事件a和b独立,也就是说a的发生对b没有影响,就成立:

如果已经发生了c,那么说明a,b独立的式子将变为:

  我们考察a,b两个事件是否有关系,就是看,是否能证明上面的式子。对于任意的一个贝叶斯网络,我们为了 考察中其中a,b两个事件是否在c发生的情况下独立(也可以说a,b是否对于从独立) ,那么首先从这个图的 基础的结构 来分析。

  下面有三种基础结构,证明将从图概率公式出发,考察ab是否独立:

tail-to-tail

物联网

  1) c未知:a,b不独立。 证明如下:

此式子不能推出:

所以,a,b不独立。

  2) c已知:a,b独立。 证明如下:

  也就是说tail-to-tail的情况下,a,b对于c独立。可以看成c把a到b的线给砍断了。

tail-to-head

物联网

  1) c未知:a,b不独立。 这个和上面的情况一样。

  2) c已知:a,b独立。 证明如下: