常识:数据挖掘最常见的十种方法

7、OLAP分析(On-Line Analytic Processing;OLAP)

严格说起来,OLAP分析并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8、神经网络(Neural Networks)

神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。

9、判别分析(Discriminant Analysis)

当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,判别分析为一非常适当之技术,通常应用在解决 分类的问题上面。若因变量由两个群体所构成,称之为双群体 —判别分析 (Two-Group Discriminant Analysis);若由多个群体构成,则称之为多元判别分析(Multiple Discriminant Analysis;MDA)。

  • 找出预测变量的线性组合,使组间变异相对于组内变异的比值为最大,而每一个线性组合与先前已经获得的线性组合均不相关。
  • 检定各组的重心是否有差异。
  • 找出哪些预测变量具有最大的区别能力。
  • 根据新受试者的预测变量数值,将该受试者指派到某一群体。

10、罗吉斯回归分析(Logistic Analysis)

当判别分析中群体不符合正态分布假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机 率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协 率开始减小,故机率值介于0与1之间。

更多详细信息,请您微信关注“计算网”公众号: