Skip to main content

Spline Model Tool Icon “样条模型”工具

单个工具示例

“样条模型”有一个“单个工具示例”。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

“样条模型”工具提供 Friedman 的多元自适应回归样条 (MARS) 算法。*该方法是一种现代统计学习模型:(1) 自行确定哪个字段子集最能预测感兴趣的目标字段;(2) 能够捕捉字段之间的高度非线性关系和交互,并且能够以对用户透明的方式自动解决广泛的回归和分类问题(用户只需指定一个目标字段和一个预测字段集,但高级用户可以对该工具进行各种微调)。

该工具适用于各种问题,例如分类、计数数据和连续目标回归问题。该方法使用两步法来开发模型。第一步(称为前向传递,类似于“决策树”工具中使用的递归分区算法)是确定对预测目标最重要的变量,并找到变量中合适的“分割点”(称为“结点”)。然而,与决策树不同的是,相邻结点之间的线(称为“项”)是拟合的,而不是像决策树中那样使用离散跳跃。这会导致为每个变量构建一个分段线性函数,该函数可以高度逼近目标变量和预测变量之间的任何关系。第二步(称为后向或剪枝传递)移除变量中的一些结点(拉长剩余项中的线段),以尽量减少模型与估计样本过拟合的几率,以及捕捉到估计样本噪声而非潜在信号的几率。

此工具使用 R 工具。转到选项 > 下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。访问下载和使用预测工具

输入

一种 Alteryx 数据流,包括感兴趣的目标字段以及一个或多个可能的预测字段。

配置工具

使用所需参数选项卡为样条模型设置必需的控制。

  • 模型名称:需要为每个模型命名,以便以后可以对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其他特殊字符,R 区分大小写。

  • 选择目标字段:从要预测的数据流中选择字段。

  • 选择预测因子字段:从数据流中选择您认为“导致”目标变量值发生变化的字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。

  • 包括效应图?:如果选中,则将生成效应图,以图形方式显示预测变量与其他预测字段在固定水平(数值预测因子的中位数,因子的第一个水平)目标之间的关系。可选择只显示对目标具有主效应的字段,只使用透视图显示字段之间的双向交互效应,或者同时显示主效应和双向交互效应。

使用自定义模型(可选)选项卡对模型进行更具体的调整。

  • 指定目标类型和 GLM 族:支持五种类型的目标字段:

    • 连续目标(例如,数值目标,其中任何给定的唯一值在所有实例中所占百分比都相对较小)。

    • 伽马分布式目标(严格意义上的正数值目标,响应值较低的比例偏高,但响应值较高的比例偏小)

    • “计数”目标(例如,整数值目标,其中大多数唯一值在所有实例中所占百分比都相当高,例如,一个人一年中到医生办公室就诊的次数)。

    • 二元分类目标(例如“是/否”类型的目标字段)。

    • 多项分类目标(例如,离散结果数量有限的目标字段,如“A”、“B”或“C”)。每种类型的目标字段都可能有一个或多个相关的分布函数(与算法试图最小化的测量相关)。

    Each type of target field can have one or more possible associated distribution functions (related to the measure the algorithm is attempting to minimize).

    • Continuous targets can have either no explicit distribution or Gaussian (in other words, Normal) distribution.

    • In the case of a Gamma distributed target, the choice is the link function to use (the relationship between the means of the distribution and linear predictor).

    • Count (integer) targets minimize a loss function based on the Poisson distribution and use either a log (preferred) or identity link function.

    • Binary categorical targets can use a logit (also used in classical logistic regression), a probit, or a complementary log-log link function.

    • A multinomial categorical response is treated in a nonstandard way. Specifically, instead of estimating a true multinomial model, a set of binary models (using a logit link function) are estimated. For instance, if the possible responses are "A", "B", or "C", what is estimated is a model of: "A" against any other choice, "B" against any other choice, and "C" against any other choice.

  • 缩放目标变量:如果目标变量是连续变量,且选择了该选项,则将对其进行 z-score(均值为 0,标准差为 1)转换,此举有助于确保算法前向传递(第一阶段)中的数值稳定性。

  • 最大结点数量或自动确定 (Auto):此选项控制算法前向传递(第一阶段)中,预测字段中可能的结点(分割点)数量。如果选择“Auto”,则根据预测字段的数量计算结点数。前向传递的实际结点数通常会小于允许的结点数上限。

  • 交互深度:预测字段之间的交互级别。

    • 如果 2 个预测字段相互之间存在双向交互,则一个预测因子对目标的影响取决于第二个预测因子的级别。

    • 在三向交互的情况下,其中一个预测字段对目标的影响将取决于其他两个预测字段的值。

    • 最多可以指定五向交互(交互深度为 5)。该参数的默认值设置为 1(隐含地假设预测字段之间没有交互)。提升交互深度可以大大增加模型的运行时间。

  • 项或结点惩罚:要优化的函数包含惩罚成分,以减少最终模型与估计样本数据过拟合的可能性。仅针对主要效应模型,默认值为 2;如果允许双向或更高交互,则默认值为 3。值为 -1 时,不会对所应用的结点或项进行惩罚,而值 0 则仅对项应用默认惩罚。

  • 添加额外结点所需的最小决定系数 (R-Squared) 改进:此项的值越高,模型添加结点所需的决定系数 (R-Squared) 改进就越高。

  • 结点之间的最小距离:如果选择 0,则根据公式计算出允许的最短距离,如果值为 1,则预测变量的任何值都可以是结点(仅当数据噪音很少时才有效),否则需要提供一个介于 0 和 1 之间的数值,该数值以预测变量范围的百分比表示距离。

  • 新变量惩罚:在模型中加入新变量时,目标函数中附加的惩罚项。默认值为 0(无),该值的范围为 0 到 0.5。与项或结点惩罚一样,其目的是控制过拟合

  • 前进传递中每一步考虑的最大父项数:该项控制在前向传递中创建的项的数量,这可以加快执行速度。特殊值 0 对项没有限制,而大于 0 的数字则会指定最大项数。默认值为 20 项,常见值为 20、10 和 5。

  • Fast MARS aging(快速 MARS 老化)系数:请参阅 Friedman (1993) 第 3.1 节,了解对此参数的解释。

  • 执行交叉验证分析:相对于算法使用的广义交叉验证方法,该选项允许进行交叉验证评估,以了解是否进行了充分的剪枝。如果选择了该选项,则用户可以指定单独交叉验证运行的次数、每次交叉验证运行的折数、交叉验证样本是否分层,以便针对分类目标具有可比较的响应组合(例如,针对二元分类变量具有可比较的“是”和“否”回复数量),以及为创建样本而生成的随机数的随机种子值。

  • 剪枝方法:选项有“后退清除”、“无”、“详尽搜索”、“前进选择”和“后续替换”。

    • 后退清除法(默认设置)从前向传递中发现的所有结点和项开始,然后首先移除预测性最低的项(对受影响的其余项进行适当调整),然后比较相对于完整模型,相应操作对广义交叉验证测量的影响。如果移除项的做法没有改进广义交叉验证测量,则返回到前向传递后创建的模型。如果广义交叉验证测量有所改善,则将该项从模型中移除,然后对其余项重复这一过程。如果在任何时候,相对于上一次迭代创建的模型而言,移除一项并不能改善广义交叉验证测量,那么这个过程就会终止。

    • 如果选择“无”,则在前向传递中找到的所有项都将在最终模型中使用。

    • 在详尽搜索法中,系统会对前向搜索步骤中发现的所有项组合进行检查,但计算成本非常高。

    • 在前向删除法中,除截距之外的所有项都会被移除,然后确定在前向传递中找到的最佳项并将其包含到模型中(假设它相对于仅截距模型改进了广义交叉验证测量)。此过程将持续进行,直到无法再添加任何可改进广义交叉验证测量的其他项为止。

    • 在后序替换法中,一个具有既定项数的解决方案中,会有一项被前向传递中发现的所有其他可能的剩余项替换,而这一项尚不是剪枝传递中的项。如果发现一个新的项,其广义交叉验证测量相对于原来的项有所提高,那么原来的项就会被新的项所取代。

  • 剪枝模型中的最大项数:如果选择 0(默认值),那么最终模型将使用剪枝传递中应用过其他条件后剩余的所有项,否则,最终模型将只保留所选数量以内的最重要项。

Use the Graphics Options tab to set the controls for the graphical output:

  • Plot size: Select inches or centimeters for the size of the graph.

  • Graph Resolution: Select the resolution of the graph in dots per inch: 1x (96 dpi), 2x (192 dpi), or 3x (288 dpi).

    • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

    • A higher resolution creates a larger file with better print quality.

  • Base font size (points): Select the size of the font in the graph.

查看输出

将“浏览”工具连接到每个输出锚点以查看结果。

  • O 锚点:包含序列化模型及其模型名称的表格。

  • R 锚点:由“样条模型”工具生成的报告片段组成:基本模型摘要、变量重要性图(表示不同预测字段的相对重要性)、基本模型诊断图和(可选)效应图。

*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines

**Freidman, Jerome H., "Multivariate Adaptive Regression Splines", Stanford University, August 1990

***Freidman, Jerome H., "Fast MARS", Technical Report No. 102, Department of Statistics, Stanford University, May 1993