大鲲逍遥居分享 http://blog.sciencenet.cn/u/sjk

博文

宋杰鲲-SPSS Clementine讲义2

已有 6045 次阅读 2013-4-20 17:37 |系统分类:科研笔记| SPSS, 数据挖掘, 讲义, Clementine

示例1  药物治疗(勘察表/C5.0)

在本章中,假设您是一位正在汇总研究数据的医学研究员。您已收集了一组患有同一疾病的患者的数据。在治疗过程中,每位患者均对五种药物中的一种有明显反应。您的任务就是通过数据挖掘找出适合治疗此疾病的药物。

1.1概述

此示例使用名为 druglearn.str的流,此流引用名为 DRUG1n的数据文件。可以从任何 Clementine Client 安装软件的 Demos目录下找到这些文件,也可以通过从 Windows 的“开始”菜单选择 Start > [All] Programs > SPSS Clementine 11.1 > Demos访问这些文件。文件 druglearn.str位于 Classification_Module 目录中。

此 demo 中使用的数据字段包括:

年龄

(数值)

性别

M 或 F

BP

血压:高、正常或低

胆固醇

血液中的胆固醇含量:正常或高

Na

血液中钠的浓度

K

血液中钾的浓度

药品

对患者有效的处方药

1.2读取文本数据

您可以使用变量文件节点读取定界文本数据。可以从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。

然后,双击新添加的节点以打开相应的对话框。单击紧挨“文件”框右边以省略号“...”标记的按钮,浏览到您系统中的 Clementine 安装目录。打开 demos目录,然后选择名为 DRUG1n的文件。选择读取文件中的字段名,并注意已载入此对话框中的字段和值。

单击数据选项卡,覆盖和更改“Cholesterol”的存储。注意,存储不同于类型或数据字段的用途。

类型选项卡可帮助您了解数据中的更多字段类型。还可以选择读取值来查看各个字段的实际值,具体取决于您在值列中的选择,此过程称为实例化。单击“读取值”,弹出对话框:

选择“确定”,对话框如下:

1.3添加表

现在您已载入数据文件,可以浏览一下某些记录的值。其中一个方法就是构建一个包含表节点的流。要将表节点添加到流中,可双击选项板中的表节点图标,该节点将自动与流工作区中的选定节点相连接。

要查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。

1.4创建分布图

数据挖掘过程中,创建汇总视图通常有助于研究数据。Clementine 提供了若干不同类型的图表供您选择,具体取决于您要汇总分析的数据类型。例如,要找出每种药物的对症患者的比例,请使用分布节点。将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的选项。选择药品作为要显示其分布的目标字段。

然后,在对话框中单击执行。最终图表将有助于您查看数据的结构。结果表明,药品 Y 的对症患者最多,而药品 B 和药品 C 的对症患者最少。

此外,您还可以添加并执行数据审核节点,建立其与源节点的连接,双击数据审核节点,“执行”,可快速浏览所有字段的分布图和直方图。

1.5创建散点图

现在我们来看一下有哪些因素会对药品(目标变量)产生影响。作为研究员,您一定知道钠和钾的浓度在血液中有着重要的影响。由于两者都是数值,您可以用颜色区分药品,创建一个关于钠和钾的散点图。

将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑。在“散点图”选项卡中,选择 Na 作为 X 字段,选择 K 作为 Y 字段,并选择药品作为交叠字段。

然后单击执行。

此散点图清楚地显示一个阈值,在此阈值上方,对症药品始终是 Y,在此阈值下方,对症药品均不是 Y。此阈值是一个比率,即钠(Na)和钾(K)的比率。

1.6创建网络图

因为很多数据字段均可分类,您也可尝试绘制网络图,此图表将反映不同类别之间的联系。首先,将网络节点与您工作区中的源节点相连接。在“网络节点”对话框中,选择 BP(血压)和药品。

然后单击执行。此图显示,药品 Y 与三种级别的血压均相关。这并不奇怪,因为您早已看出 Y 是最佳药品。

要关注其他药品,您可以隐藏此药品。右键单击药品 Y,然后选择隐藏并重新计划。

简图中隐藏了药品 Y 及其所有链接。现在您可以清楚地看到,只有药品 A 和 B 与高血压有关。只有药品 C 和 X 与低血压有关。只有药品 X 与正常血压有关。此时,您仍然无法在药品 A 与 B 或药品 C 与 X 之间为指定患者作出选择。此时建模可以助您一臂之力。

1.7导出新字段

钠与钾的比例似乎可以用来预测何时可以使用药品 Y,因此您可以为每条记录导出一个包含此比例值的字段。该字段稍后可用于构建模型以预测何时可使用五种药品中的每一种药品。

首先,在流中插入一个导出节点,然后双击此节点对其进行编辑。将新字段命名为Na_to_K。由于是通过将钠值除以钾值获取新字段,所以请在公式中输入Na/K

您还可通过单击紧挨“公式”右侧的图标来创建公式。此操作将打开表达式构建器,这是一种使用函数、操作数、字段及其字段值的内置列表交互式创建表达式的方式。

您可以通过将直方图节点添加到导出节点来检查新字段的分布情况,同时,需要将导出节点与源节点相连。在直方图节点对话框中,将Na_to_K指定为要绘制的字段,并将药品指定为交叠字段。

执行流时,将在此显示图表。您可以根据显示结果得出以下结论:当Na_to_K字段的值大于或等于 15 时,应选择药品 Y

1.8构建模型

通过研究和操作数据,您能够得出某些假设结论。血液中钠与钾的比例以及血压似乎都会影响药品的选择。但您还不能完全解释清楚所有关系。此时似乎可以通过建模找出某些答案。此种情况下,您可以尝试使用规则构建模型 (C5.0) 来拟合数据。

由于使用的是导出字段 Na_to_K,您可以过滤掉原始字段 Na和 K,以避免在建模算法中重复操作。上述操作可通过过滤节点完成。添加过滤节点,建立其与导出字段 Na_to_K的连接。双击该过滤节点,在“过滤”选项卡上,单击 Na 和 K 旁边的箭头,如果箭头上显示红色 X,则表示该字段已被过滤。

然后,继续添加一个类型节点,将类型节点连接到过滤节点。类型节点允许您指出要使用的字段类型以及如何使用这些字段预测结果。在“类型”选项卡上,将药品字段的方向设置为输出,表明您要预测该药品字段。将其他字段的方向设置为输入,表示这些字段将用作预测变量。

要评估此模型,请将节点 C5.0 置于工作空间,然后将此节点附加到流的末端。单击绿色“执行”按钮执行流。

1.9浏览模型

执行 C5.0 节点时,生成的模型节点(带有 gem 图标)将被添加到窗口右上角的“模型”选项卡中。要浏览模型,请右键单击此图标,然后从上下文菜单中选择浏览。

规则”浏览器以决策树形式显示 C5.0 节点所生成的规则集。最初,决策树处于折叠状态。要展开决策树,请单击所有按钮显示所有层。

谜团将因此而解开。对于钠钾比例小于 14.642 的高血压患者,年龄将决定如何选择药品。对于低血压患者,胆固醇含量似乎是最有力的预测变量。

通过单击查看器选项卡,还可以更复杂的图表形式查看同一决策树。通过此图表形式,您可以更轻松地查看各个血压类别的观测值数量以及各个观测值的百分比。

或者采用其他视图,如

1.10使用分析节点

可以使用分析节点评估模型的精确度。首先,将 C5.0 模型添加到流,然后添加分析节点(从输出节点选项板中)。

单击右键,执行该分析节点。

分析节点输出显示,使用该假设数据集,此模型已正确预测该数据集中大部分记录的药品选择。在真正的数据集中,未必能做到完全正确,但分析节点可帮您确定模型的精确度能否满足特殊使用要求。



https://blog.sciencenet.cn/blog-71538-682200.html

上一篇:宋杰鲲-SPSS Clementine讲义实例
下一篇:关于《基于LMDI的山东省能源消费碳排放因素分解》的若干问题
收藏 IP: 218.58.243.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-19 00:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部