数据挖掘在医学上的应用

使用聚类分析工具探索性地分析糖尿病患者的基本指标数据,通过良好的划分类均值来产生聚类。本案例中,对于已有的3个不同的数据集进行聚类分析,产生的聚类数在5到8之间,每个聚类中的病人数量有多有少,运算聚类所消耗的时间大约在5秒钟到4分钟之间。

通过聚类分析,专家们在所有3个数据集中共得到4种类型的患者:

·患者为肥胖(体重指数> 56 ),但血压正常;
·患者基本指标(BMI,BP)是正常的 ;
·患者血压在正常范围内,但体重指标异常 ;
·患者基本指数(BMI,BP)异常 ;

以上4种糖尿病的聚类结果揭示了糖尿病患者典型的四个分型,在临床上具有重要意义。

2. 关联规则分析在医学上的应用

关联规则是一个发现医疗数据中隐藏关联模型的有前途的技术。通常,关联规则在医疗数据中挖掘出大量的规则,规则数量不仅相当大,而且其中大部分规则在医学上是无关紧要的。对于有用的一些规则,医学专家寻找的速度很慢,而且发现了规则以后解释起来也很困难。在这项工作中,我们引入搜索约束,以只发现在医学上有意义的关联规则,并使规则搜索更有效。

例如,应用关联规则分析发现心脏灌注测量和病人危险因素与四个特殊的动脉狭窄程度紧密相关。我们通常用关联规则的支持度、置信度、以及LIFT指标来评价其在医学上的意义,如图一所示。

数据挖掘