||
作为一种数据挖掘应用程序,Clementine 提供了用以寻找大数据集中有用关系的策略性方法。与较为传统的统计方法有所不同,您在开始时不必知道您在寻找的是什么。您可以通过拟合不同的模型和研究不同的关系来探索您的数据,直至发现有用的信息。
各种不同的组织都选择 Clementine 来帮助他们挖掘庞大的数据存储库。以下示例展示了数据挖掘可以帮助解决的各类问题。
(1)公共部门。各国政府都使用数据挖掘来探索大规模数据存储,改善群众关系,侦测欺诈行为(譬如洗黑钱和逃税),检测犯罪行为和恐怖分子行为模式以及进一步扩展电子政务领域。
(2)CRM。客户关系管理可以通过对客户类型的智能分类和客户流失的准确预测而得到提高。Clementine 已成功帮助许多行业的企业吸引并始终保有最有价值的客户。
(3)Web 挖掘。Clementine 包含的相关工具具有强大的顺序确定和预测算法,对于准确发现网站浏览者的行为以及提供精确满足浏览者需求的产品或信息而言,这些工具是不可或缺的。从数据准备到构建模型,全部的数据挖掘过程均可在 Clementine 内部操控。
(4)药物发现和生物信息学。通过对由试验室自动操作获得的大量数据进行分析,数据挖掘有助于药物和基因组的研究。Clementine 的聚类和分类模型帮助从化合物库中找出线索,与此同时顺序检测则有助于模式的发现。
总之,作为一款将高级建模技术与易用性相结合的数据挖掘工具,Clementine 可帮助您发现并预测数
据中有趣且有价值的关系。可以将 Clementine 用于决策支持活动,如:
• 创建客户档案并确定客户生命周期价值。
• 发现和预测组织内的欺诈行为。
• 确定和预测网站数据中有价值的序列。
• 预测未来的销售和增长趋势。
• 勾勒直接邮递回应和信用风险。
• 进行客户流失预测、分类和细分。
• 自动处理大批量数据并发现其中的有用模式。
这些只是使用 Clementine 从数据中提取有价值信息的众多方式的一部分。只要有数据,且数据中正好包含所需信息,Clementine 基本上都能帮您找到问题的答案。
1.2 Clementine 窗口当您第一次启动 Clementine 时,工作区将以默认视图打开。中间的区域称作流工作区。在 Clementine 中,这将是您用来工作的主要区域。
Clementine 中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过滤数据,创建图形和构建模型。
要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后释放。随后可将各个图标连接以创建一个表示数据流动的流。
1.3 Clementine 管理器窗口的右上方是输出和对象管理器。这些选项卡用于查看和管理各种 Clementine 对象。
“流”选项卡包含了当前会话中打开的所有流。您可以将这些流保存并关闭,也可将其添加到工程中。
“输出”选项卡包含了由 Clementine 中的流操作产生的各类文件。您可以显示、重命名和关闭此处所列的表格、图形和报告。
“模型”选项卡是一个功能强大的工具,包含了在一次会话中产生的所有模型(即,已在 Clementine 中构建完毕的模型)。通过它,可以对模型作更深入的查看、将其添加至流中、导出或为其加注解。
1.4 Clementine 工程窗口右侧底部的部分是工程工具,它用来创建和管理数据挖掘工程。查看您在 Clementine 中创建的工程有两种方式:类视图或 CRISP-DM 视图。
依据“跨行业数据挖掘过程标准”,这一业内认可且无所属的方法理论,“CRISP-DM”选项卡提供了一种组织工程的方式。不论是有经验的数据挖掘人员还是新手,使用 CRISP-DM 工具都会使您事半功倍。
“类”选项卡提供了一种在 Clementine 中按类别(即,按照所创建对象的类别)组织您工作的方式。当要获取数据、流、模型等对象的详尽目录时,这种视图十分有用。
1.5 Clementine 模块Clementine Base 模块中包括一部分最常用的分析节点,客户可以使用这些节点开始数据挖掘工作。Clementine 还支持多种建模方法,包括分类(决策树)、细分或聚类、关联及统计方法。还有许多专用分析模块可以作为 Base 模块的附件使用,汇总如下。
(1)Base 模块中包括下列节点:
分类和回归树(C&RT)节点生成可用于预测和分类未来观测值的决策树。该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。如果节点中 100% 的观测值都属于目标字段的一个特定类别,则该节点将被认定为“纯洁”。目标和预测变量字段可以是范围字段,也可以是分类字段;所有分割均为二元分割(即分割为两组)。 |
| ||
| QUEST 节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型 C&RT 分析所需的处理时间,同时也减少在分类树方法中发现的趋势以便支持允许有多个分割的预测变量。预测变量字段可以是数字范围的,但目标字段必须是分类的。所有分割都是二元的。 |
| |
CHAID 使用卡方统计量来生成决策树,以确定最佳的分割。CHAID 与 C&RT 和 QUEST 节点不一样,它可以生成非二元树,这意味着有些分割将有多于两个的分支。目标和预测变量字段可以是范围字段,也可以分类字段。Exhaustive CHAID 是 CHAID 的修正版,它对所有分割进行更彻底的检查,但计算时间比较长。 |
| ||
K-Means 节点将数据集聚类到不同分组(或聚类)。此方法将定义固定的聚类数量,将记录迭代分配给聚类,以及调整聚类中心,直到进一步优化无法再改进模型。k-means 节点作为一种非监督学习机制,它并不试图预测结果,而是揭示隐含在输入字段集中的模式。 |
| ||
广义规则归纳法(GRI)节点将发现数据关联规则。例如,购买了剔须刀的客户在购买剔须膏之后,还可能会购买剔须霜。GRI 基于某项指数抽取了信息量最大的规则,此指数考虑了规则的普遍性(支持)和准确性(置信度)。GRI 可以处理数字型和分类型输入,但目标必须是分类型。 | |||
| 主成份分析/因子节点提供了功能强大的数据缩减技术,以此来降低数据的复杂性。主成份分析(PCA)可找出输入字段的线性组合,该组合最好地捕获了整个字段集合中的方差,且组合中的各个成分相互正交(相互垂直)。因子分析则尝试识别底层因素,这些因素说明了观测的字段集合内的相关性模式。对于这两种方法,其共同的目标是找到可对原始字段集合中的信息进行有效总结的少量导出字段。 |
| |
线性回归是一种通过拟合直线或平面以实现汇总数据和预测的普通统计方法,它可使预测值和实际输出值之间的差异最小化。 |
| ||
| | | |
(2)分类模块
分类模块可帮助组织预测已知的结果,例如顾客是否购买或某交易是否符合某种已知的犯罪模式。其建模方法包括机器学习(神经网络)、决策树(规则归纳法)、子组标识、统计方法和多模型生成。包括下列节点:
二元分类器节点用于创建和对比二元结果(是或否,流失或不流失等)的若干不同模型,使用户可以选择给定分析的最佳处理方法。由于支持多种建模算法,因此可以对用户希望使用的方法、每种方法的特定选项以及对比结果的标准进行选择。节点根据指定的选项生成一组模型并根据用户指定的标准排列最佳候选项的顺序。 | |
神经网络节点使用的模型是对人类大脑处理信息的方式简化了的模型。此模型通过模拟大量类似于神经元的抽象形式的互连简单处理单元而运行。神经网络是功能强大的一般函数估计器,只需要最少的统计或数学知识就可以对其进行训练或应用。 | |
C5.0 节点构建决策树或规则集。该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本。目标字段必须为分类字段。允许进行多次多于两个子组的分割。 | |
决策列表节点可标识子组或段,即,显示了与总体相关的给定的二值结果,其似然度的高低。例如,您或许在寻找那些最不可能流失的客户或最有可能对某个商业活动作出积极响应的客户。通过定制段和并排预览备选模型来比较结果,您可以将自己的业务知识体现在模型中。 | |
时间序列节点估计时间序列数据的指数平滑模型、单变量自回归整合移动平均 (ARIMA) 模型和多变量 ARIMA(即变换函数)模型,并生成预测数据。在时间序列节点之前必须有时间区间节点。 | |
特征选择节点会根据某组条件(例如缺失百分比)筛选可删除的预测变量字段,对于保留的预测变量,随后将对其相对于指定目标的重要性进行排序。例如,假如某个给定数据集有上千个潜在预测变量,那么哪些变量最有可能用于对患者结果进行建模呢? | |
Logistic 回归是根据输入字段值对记录进行分类的统计技术。它类似于线性回归,但采用的是类别目标字段而非数字范围。 | |
虽然判别分析有着比 logistic 回归更为严格的假设,但是当这些假设成立时,判别分析将是 logistic 回归分析的一种有意义的替换或补充。 | |
广义线性模型对一般线性模型进行了扩展,因变量将通过指定的连接函数与因子和协变量产生线性关系。而且该模型允许因变量具有非正态分布。它包括统计模型大部分的功能,其中包括线性回归、logistic 回归、用于计数数据的对数线性模型以及区间删失生存模型。 | |
自学响应模型(SLRM)节点可用于构建一个包含单个新观测值或少量新观测值的模型,通过此模型,无需使用全部数据进行训练即可对模型进行重新评估。 |
(3)细分模块
在不知道特定结果的情况下(例如,需要识别新犯罪模式或在客户群中识别利益群体时),建议使用细分模块。聚类模型主要用来确定相似记录的组并根据它们所属的组来为记录添加标签。此方法的优点在于,不用提前了解这些组及其特征就可以使用,它使聚类模型(其中没有需要模型预测的预定义输出或目标字段)区别于 Clementine 中的其他机器学习技术。对于这些模型来说,没有正确或错误的结果之分。模型的值由它们捕获数据中相关分组的能力,以及提供这些分组的有效说明的能力来确定。聚类模型通常用于创建在后续分析中用作输入的聚类或段(例如,将潜在用户分成几个相似的子组)。
此模型包括下列节点:
Kohonen 节点会生成一种神经网络,此神经网络可用于将数据集聚类到各个差异组。此网络训练完成后,相似的记录应在输出映射中紧密地聚集,有差异的记录则应彼此远离。您可以通过查看生成模型中每个单元所捕获观测值的数量来找出规模较大的单元。这将让您对聚类的相应数量有所估计。 | |
TwoStep 节点使用两步聚类方法。第一步完成简单数据处理,以便将原始输入数据压缩为可管理的子聚类集合。第二步使用层级聚类方法将子聚类一步一步合并为更大的聚类。TwoStep 具有一个优点,就是能够为训练数据自动估计最佳聚类数。它可以高效处理混合的字段类型和大型的数据集。 | |
“异常检测”节点确定不符合“正常”数据格式的异常观测值(离群值)。即使离群值不匹配任何已知格式或用户不清楚自己的查找对象,也可以使用此节点来确定离群值。 |
(4)关联模块
关联模块在预测多个结果时非常有用,—例如,购买了产品 X 的顾客也购买产品 Y 和 Z。对于可手动找到的关联,关联规则算法可通过可视化技术(例如 Web 节点)自动找到。关联规则算法相对于更标准的决策树算法(C5.0 和 C&RT)的优势在于,它可以找到任何属性间存在的关联。决策树算法只使用单一结论来构建规则,而关联算法则试图找到更多规则,且每个规则具有不同的结论。包括下列节点:
“先验”节点从数据抽取一组规则,即抽取信息内容最多的规则。“先验”节点提供五种选择规则的方法并使用复杂的索引模式来高效地处理大数据集。对于大问题而言,“先验”通常用于训练时比 GRI 处理速度快;它对可保留的规则数量没有任何限制,而且可处理最多带有 32 个前提条件的规则。“先验”要求输入和输出字段均为分类型字段,但因为它专为处理此类型数据而进行优化,因而处理速度快得多。 | |
CARMA 模型在不要求用户指定 In(预测变量)或 Out(目标)字段的情况下从数据抽取一组规则。与“先验”节点和 GRI 节点不同的是:CARMA 节点提供构建规则设置支持(前项和后项支持),而不仅仅是前项支持。这就意味着生成的规则可以用于更多应用程序,例如用于找到后项为想在节日期间促销的商品的产品或服务(前项)的列表。 | |
序列节点可发现连续数据或与时间有关的数据中的关联规则。序列指趋向于以可预测的顺序发生的项目集合的列表。例如,一个购买了剃刀和须后水的顾客可能在下次购物时购买剃须膏。序列节点基于 CARMA 关联规则算法,该算法使用有效的两步法来发现序列。 |
Clementine 窗口顶部有一个图标工具栏,其中包含许多有用功能。下表列出了这些工具栏按钮及其功能:
创建新流 | 打开流 | ||
保存流 | 打印当前流 | ||
打开 Clementine 应用程序模板 (CAT) | 剪切并移到剪贴板 | ||
复制到剪贴板 | 粘贴选择 | ||
撤消上次操作 | 恢复 | ||
编辑流属性 | 执行当前流 | ||
执行流选择 | 停止流(仅在流执行期间处于激活状态) | ||
添加超节点 | 放大(仅对超节点有效) | ||
缩小(仅对超节点有效) |
|
|
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-19 01:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社