Skip to main content

Decision Tree Tool Icon 决策树工具

单个工具示例

“决策树”具有单个工具示例。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

使用“决策树”工具根据决策树学习方法创建一组 if-then 拆分规则来优化模型创建条件。规则的形成取决于目标字段类型:

  • 如果目标字段属于分类类别,“决策树”则构建分类树。

  • 如果目标字段是连续变量,则构建回归树。

使用一个或多个变量字段预测目标字段(如分类或连续目标回归问题)时,可以使用决策树工具。

此工具使用 R 工具。转到选项 > 下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。请访问下载和使用预测工具

连接输入

决策树工具需要输入......

  • 目标字段

  • 一个或多个预测字段

模型估计中使用的包因输入数据流而异。

  • Alteryx 数据流使用开放源 R rpart 函数。

  • 来自 XDF 输入工具或 XDF 输出工具的 XDF 元数据流使用 RevoScaleR rxDTree 函数。

  • 来自 SQL Server 数据库的数据流数据使用 rxBTrees 函数。

  • Microsoft 机器学习服务器安装利用 RevoScaleR rxBTrees 函数来处理 SQL Server 或 Teradata 数据库中的数据。这要求本地计算机和服务器配置 Microsoft 机器学习服务器,从而允许在数据库服务器上进行处理,并且大幅度提高性能。

RevoScaleR 功能

与开放源 R 函数相比,基于 RevoScaleR 的函数可以分析更大的数据集。但是,基于 RevoScaleR 的函数必须创建一个 XDF 文件,这会增加间接成本,使用一种多次传递数据的算法,增加运行时间,并且无法创建一些模型诊断的输出。

常规处理下的工具配置

这些选项是生成决策所必需的。

  • 输入模型名称:可供其它工具引用的模型名称。模型名称或前缀必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。R 区分大小写。

  • 选择目标变量:要预测的数据字段,也称为响应或因变量。

  • 选择预测变量:影响目标变量值的数据字段,也称为特征或自变量。预测因子字段最少需要一个,但是选择数量没有上限。目标变量本身不应用于计算目标值,因此目标字段不应包含在预测因子字段中。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。

选择自定义以调整其他设置。

自定义模型

模型选项卡

用于更改模型评估数据的方式以及模型构建方式的选项。

选择算法:选择 rpart 函数或 C5.0 函数。后续选项因您选择的算法而异。

  • rpart:一种基于 Breiman、Friedman、Olshen 和 Stone 的研究成果的算法;被认为是标准。如果您要创建回归模型或需要剪枝图,请使用 rpart。

    • 模型类型和样本权重:根据目标变量和样本权重的处理来控制模型类型。

      • 模型类型:用于预测目标变量的模型类型。

        • 自动:模型类型会根据目标变量类型自动选择。

        • 分类:模型预测一个类别或组的离散文本值。

        • 回归:模型预测连续数值。

      • 在模型估计中使用样本权重:这个选项让您能选择一个字段,该字段用于判断每条记录的重要性,并在创建模型估计时对每条记录进行相应的加权。

        如果字段同时用作预测因子和样本权重,则输出权重变量字段名称前面将加上“Right_”。

    • 拆分标准和替代法:控制模型如何确定拆分以及如何在评估数据模式中使用替代。要使用的拆分标准:选择模型采用何种方式估算应该拆分树的时间。

      • 使用回归模型时的拆分标准始终为最小二乘法。

        • 基尼系数

        • 使用基尼不纯度。

        • 信息索引

      • 替代使用:选择在拆分过程中使用替代的方法。替代项是与主变量相关的变量,用于确定缺少信息的记录的拆分结果。

        • 在主要分裂规则中忽略包含缺失值的观测值:在确定拆分时不考虑缺少备选变量的记录。

        • 拆分缺少备选变量的记录:缺少备选变量的所有记录在拆分中均匀分布。

        • 如果所有替代项均缺失,则向大多数方向发送观测值:缺少备选变量的所有记录将被推送到包含更多记录的拆分一侧。

      • 选择最佳替代拆分,根据:选择从一组可能的变量中挑选出最佳变量进行拆分的标准。

        • 备选变量的正确分类数量:根据正确分类的记录总数选择变量进行拆分。

        • 备选变量的正确分类百分比:根据正确分类的记录所占百分比选择变量进行拆分。

    • 超参数:控制模型的先验分布。根据先前的分布调整处理。

      • 拆分所需的最小记录数:设置拆分发生前必须存在的记录数。如果记录数少于最小数目,则不允许进一步拆分。

      • 终端节点允许的最小记录数:设置终端节点中可以存在的记录数。较小的数值会导致树末端最终终端节点的潜在数量增加。

      • 交叉验证中用来修剪树的折叠数:设置测试模型时应将数据分成的组数 (N)。折叠数默认为 10,但其他常用值为 5 和 20。折叠数越大,树的准确度就越高,但可能需要更长的时间来处理。当使用复杂度参数修剪树时,交叉验证可确定树中有多少拆分或分支。在交叉验证中,N - 1 折用于创建模型,而另一折用作样本,确定最适合保留折的分支数,以避免过度拟合。

      • 最终树中任何节点允许的最大深度:设置从根节点到距离根最远的节点之间允许的分支级数,以限制树的整体大小。

      • 每个数值变量应使用的最大箱 (bin) 数:输入用于每个变量的箱数。默认情况下,会根据拆分所需的最小记录数来计算该值。

        仅限 XDF 元数据流

        仅在输入到工具中的是 XDF 元数据流时,此选项才适用。实现可缩放决策树的 Revo ScaleR 函数 (rxDTree) 通过等距分箱过程处理数值变量,以降低计算复杂性。

      • 设置复杂度参数:用于控制决策树大小的值。值越小会导致树中的分支越多,而值越大会导致分支越少。如果未选择复杂度参数,则会根据交叉验证确定该参数。

  • C5.0:一种基于 Quinlan 的研究成果的算法;如果您的数据被分类到少数互斥类别之一,请使用 C5.0。提供了可能与类别分配相关的属性,但某些数据可能具有未知或不适用的值。

    • 结构选项:控制模型的结构。默认情况下,模型的结构为决策树。

      • 树分解为基于规则的模型:将输出算法的结构从决策树更改为一系列无序的简单 if-then 规则。选择用于规则分组的区段(bands)阈值数,以选择用于规则分组的区段(bands)阈值数,其中设置的数字是区段(bands)阈值。

    • 详细选项:控制模型的拆分和特征。

      • 模型在分裂时应评估离散预测变量组:将分类预测变量分组在一起。选择此选项可在重要离散属性具有超过四个或五个值时减少过度拟合。

      • 使用预测因子 winnowing(如特征选择):选择此选项可通过尝试排除无用的预测变量来简化模型。

      • 修剪树:选择此选项可通过删除树的分支来减少过度拟合,从而简化树。

      • 评估数据中的高级分裂:选择此选项可使用次要变量执行评估,以确认哪个分支是最准确的预测。

      • 对提升使用停止方法:选择此选项可评估提升迭代是否变得无效,如果是,则停止提升。

    • 数值超参数:控制模型的基于数值的先验分布。

      • 选择提升迭代的次数:选择 1 以使用单个模型。

      • 选择置信因数:这是 rpart 的复杂度参数的模拟。

      • 选择必须至少进行两次拆分的样本数:数字越大,树越小,越简单。

      • 从训练数据中保留的用于模型评估的数据百分比:选择用于训练模型的数据部分。使用默认值 0 可使用所有数据来训练模型。选择一个较大的值,以保存训练和模型准确性评估中的数据百分比

      • 为算法选择随机种子:选择种子的值。该值必须是正整数。

交叉验证选项卡

控制如何有效利用可用信息来自定义验证方法。

选择使用交叉验证来确定对模型质量的评估,以执行交叉验证来获取各种模型质量指标和图表。某些指标和图表显示在 R 输出中,而其他指标和图表显示在 I 输出中。

  • 交叉验证折叠数:数据被划分为用于验证或训练的子样本数。折叠数越大,模型估计质量越高,折叠数越少,工具运行速度越快。

  • 交叉验证试验次数:交叉验证过程的重复次数。每次试验所选的折叠数不同,并且结果取所有试验的平均值。折叠数越大,模型估计质量越高,折叠数越少,工具运行速度越快。

  • 设置种子以进行外部交叉验证:确定随机采样的抽取顺序的值。尽管选择方法是随机的且与数据无关,但它导致数据中相同的记录被选择。使用选择随机种子的值进行交叉验证以选择种子值。该值必须是正整数。

图表选项卡

选择并配置输出报告中显示的图表。

  • 显示静态报告:选择此选项可显示来自 R 输出锚点的模型摘要报告。默认选中。

  • 树图:决策树变量和分支的图表。使用显示树图切换开关可在模型报告输出中包含决策树变量和分支的图表。

    • 均匀的分支距离:选择此选项能够以均匀长度或与拆分在预测目标时的相对重要性成比例的长度来显示树分支。

    • 节叶点汇总:确定树图中最终叶节点上显示的内容。如果显示记录数,请选择计数。如果显示总记录所占百分比,请选择比例

    • 图表大小:选择以英寸还是厘米为单位显示图表。

    • 宽度:使用在“图表大小”中选择的单位设置图表宽度。

    • 高度:使用在“图表大小”中选择的单位设置图表高度。

    • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x(96 dpi)2x(192 dpi);或 3x(288 dpi)

      • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

      • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

  • 基本字体大小(点):选择图表中字体的大小。

    剪枝图:决策树的简化图表。

  • 在报告中使用剪枝图

    • 显示剪枝图:单击以在模型报告输出中包括决策树的简化图表。

    • 图表大小:选择以英寸还是厘米为单位显示图表。

    • 宽度:使用在“图表大小”中选择的单位设置图表宽度。

    • 高度:使用在“图表大小”中选择的单位设置图表高度。

    • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x(96 dpi);2x(192 dpi);或 3x(288 dpi)。较低的分辨创建相对较小的文件,最适合在显示器上查看。更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

    • 基本字体大小(点):设置图表中字体的大小

用于数据库内处理的工具配置

“决策树”工具支持 Microsoft SQL Server 2016 和 Teradata 数据库内处理。有关数据库内支持和工具的详细信息,请访问数据库内概述

当将决策树工具与另一个数据库内工具一起放置在画布上时,该工具会自动更改为数据库内版本。要更改该工具的版本,请右键单击该工具,指向“选择工具版本”,然后单击该工具的其他版本。有关预测型数据库内工具支持的详细信息,请访问预测分析

所需参数选项卡

  • 模型名称:需要为每个模型命名,以便以后可以对其进行识别。

    • 特定模型名称:输入您希望用于该模型的模型名称。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。

    • 自动生成模型名称:Designer 会自动生成满足所需参数的模型名称。

  • 选择目标变量:从要预测的数据流中选择字段。

  • 选择预测变量:从您认为“导致”目标变量值更改的数据流中选择字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。

  • 在模型估计中使用样本权重(可选):选择此选项可从输入数据流中选择一个字段,以用于样本权重。

  • 选择样本权重字段:从数据流中选择权重字段以估计使用样本权重的模型。字段用作预测变量和权重变量。权重变量会出现在输出中的模型调用中,并且其前面带有字符串“Right_”。

自定义模型选项卡

  • 模型类型:选择要使用的模型类型。

    • 分类:用于预测分类目标的模型。如果使用分类模型,还应选择拆分标准。

      • 基尼系数

      • 基于熵的信息索引

    • 回归:用于预测连续数值目标的模型。

  • 拆分所需的最小记录数:如果树的一组分支上的记录数少于所选的最小数目,则不允许进一步拆分。

  • 复杂度参数:此参数用于控制如何执行拆分(换句话说,树中的分支数)。值应该小于1,值越小,则最终树中的分支越多。“自动”值或删除值将导致基于交叉验证选择“最高”复杂性参数。

  • 终端节点允许的最小记录数:终端节点中必须包含的最小记录数。减少此数目会增加最终终端节点的潜在数量。

  • 替代使用:此选项组用于控制如何处理特定拆分中预测变量内缺少数据的记录。第一种选择是忽略(移除)具有拆分中所用变量缺失值的记录。第二种选择是使用“替代”拆分,其中记录的发送方向基于对一个或多个具有几乎相同结果的其他变量的替代拆分。第三种选择是在拆分时向大多数方向发送观测值。

    • 在主要拆分规则中忽略包含缺失值的观测值

    • 使用替代以便拆分缺少候选变量的记录

    • 如果所有替代项均缺失,则向大多数方向发送观测值

    • 潜在备选变量的正确分类的总数

    • 针对备选变量的非缺失值上计算的正确百分比

  • 交叉验证中用来修剪树的折叠数:当通过使用复杂度参数修剪树时,交叉验证用于确定树中有多少拆分,也就是分支。这是通过使用交叉验证完成的,其中 N - 1 折用于创建模型,而第 N 折用作样本,确定最适合保留折的分支数,以避免过度拟合。用户可以更改的一项内容是应将数据分成的组数 (N)。默认值为 10,但其他常用值为 5 和 20。

  • 最终树中任何节点允许的最大深度:此选项通过指示从根节点到距离根最远的节点之间允许的级数来限制树的整体大小。

  • 每个数值变量应使用的最大箱 (bin) 数:实现可缩放决策树的 Revo ScaleR 函数 (rxDTree) 通过等距分箱过程处理数值变量,以降低计算复杂性。这些选项为“默认”,它使用基于拆分所需的最小记录数的公式,但用户可以手动设置。仅在输入到工具中的是 XDF 元数据流时,此选项才适用。

图表选项卡

  • 树图:此组选项用于控制与绘制决策树相关的多个选项。

    • 节叶点汇总:此选项下的第一选择是节叶点汇总的性质。此选项用于控制是否在树图的最终叶节点中输出计数或比例。

      • 计数

      • 比例

    • 均匀的分支距离:第二个选项为是否应使用均匀的分支距离。此选项用于控制已绘制的树分支的长度是反映拆分在预测目标时的相对重要性,还是在树图中具有均匀长度。

  • 图表大小:设置输出树图的尺寸。

    • :设置图的宽度高度

    • 厘米:设置图的宽度高度

    • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x(96 dpi)2x(192 dpi);或 3x(288 dpi)

      • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

      • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

    • 基本字体大小(点):字体大小(以点表示)。

  • 剪枝图:选择此选项可在模型报告输出中包括决策树的简化图表。

    • 图表大小:选择以英寸还是厘米为单位显示图表。

      • 宽度:使用在“图表大小”中选择的单位设置图表宽度。

      • 高度:使用在“图表大小”中选择的单位设置图表高度。

    • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x(96 dpi)2x(192 dpi);或 3x(288 dpi)

      • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

      • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

    • 基本字体大小(点):设置图表中字体的大小

查看输出

将“浏览”工具连接到每个输出锚点以查看结果。

  • O(输出):在“结果”窗口中显示模型名称和对象大小。

  • R(报告):显示模型摘要报告,其中包括摘要和图表。

  • I(交互式):显示允许您执行缩放、悬停鼠标指针和单击操作的可视化交互式仪表板。

预期行为:图表精度

使用决策树工具进行标准处理时,交互式输出显示的数值精度比报告输出更高。