“样条模型”工具
单个工具示例
“样条模型”有一个“单个工具示例”。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
“样条模型”工具提供 Friedman 的多元自适应回归样条 (MARS) 算法。*该方法是一种现代统计学习模型:(1) 自行确定哪个字段子集最能预测感兴趣的目标字段;(2) 能够捕捉字段之间的高度非线性关系和交互,并且能够以对用户透明的方式自动解决广泛的回归和分类问题(用户只需指定一个目标字段和一个预测字段集,但高级用户可以对该工具进行各种微调)。
该工具适用于各种问题,例如分类、计数数据和连续目标回归问题。该方法使用两步法来开发模型。第一步(称为前向传递,类似于“决策树”工具中使用的递归分区算法)是确定对预测目标最重要的变量,并找到变量中合适的“分割点”(称为“结点”)。然而,与决策树不同的是,相邻结点之间的线(称为“项”)是拟合的,而不是像决策树中那样使用离散跳跃。这会导致为每个变量构建一个分段线性函数,该函数可以高度逼近目标变量和预测变量之间的任何关系。第二步(称为后向或剪枝传递)移除变量中的一些结点(拉长剩余项中的线段),以尽量减少模型与估计样本过拟合的几率,以及捕捉到估计样本噪声而非潜在信号的几率。
此工具使用 R 工具。转到选项 > 下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。访问下载和使用预测工具。
输入
一种 Alteryx 数据流,包括感兴趣的目标字段以及一个或多个可能的预测字段。
配置工具
使用所需参数选项卡为样条模型设置必需的控制。
模型名称:需要为每个模型命名,以便以后可以对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其他特殊字符,R 区分大小写。
选择目标字段:从要预测的数据流中选择字段。
选择预测因子字段:从数据流中选择您认为“导致”目标变量值发生变化的字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。
包括效应图?:如果选中,则将生成效应图,以图形方式显示预测变量与其他预测字段在固定水平(数值预测因子的中位数,因子的第一个水平)目标之间的关系。可选择只显示对目标具有主效应的字段,只使用透视图显示字段之间的双向交互效应,或者同时显示主效应和双向交互效应。
使用自定义模型(可选)选项卡对模型进行更具体的调整。
指定目标类型和 GLM 族:支持五种类型的目标字段:
连续目标(例如,数值目标,其中任何给定的唯一值在所有实例中所占百分比都相对较小)。
伽马分布式目标(严格意义上的正数值目标,响应值较低的比例偏高,但响应值较高的比例偏小)
“计数”目标(例如,整数值目标,其中大多数唯一值在所有实例中所占百分比都相当高,例如,一个人一年中到医生办公室就诊的次数)。
二元分类目标(例如“是/否”类型的目标字段)。
多项分类目标(例如,离散结果数量有限的目标字段,如“A”、“B”或“C”)。每种类型的目标字段都可能有一个或多个相关的分布函数(与算法试图最小化的测量相关)。
Each type of target field can have one or more possible associated distribution functions (related to the measure the algorithm is attempting to minimize).
Continuous targets can have either no explicit distribution or Gaussian (in other words, Normal) distribution.
In the case of a Gamma distributed target, the choice is the link function to use (the relationship between the means of the distribution and linear predictor).
Count (integer) targets minimize a loss function based on the Poisson distribution and use either a log (preferred) or identity link function.
Binary categorical targets can use a logit (also used in classical logistic regression), a probit, or a complementary log-log link function.
A multinomial categorical response is treated in a nonstandard way. Specifically, instead of estimating a true multinomial model, a set of binary models (using a logit link function) are estimated. For instance, if the possible responses are "A", "B", or "C", what is estimated is a model of: "A" against any other choice, "B" against any other choice, and "C" against any other choice.
缩放目标变量:如果目标变量是连续变量,且选择了该选项,则将对其进行 z-score(均值为 0,标准差为 1)转换,此举有助于确保算法前向传递(第一阶段)中的数值稳定性。
最大结点数量或自动确定 (Auto):此选项控制算法前向传递(第一阶段)中,预测字段中可能的结点(分割点)数量。如果选择“Auto”,则根据预测字段的数量计算结点数。前向传递的实际结点数通常会小于允许的结点数上限。
交互深度:预测字段之间的交互级别。
如果 2 个预测字段相互之间存在双向交互,则一个预测因子对目标的影响取决于第二个预测因子的级别。
在三向交互的情况下,其中一个预测字段对目标的影响将取决于其他两个预测字段的值。
最多可以指定五向交互(交互深度为 5)。该参数的默认值设置为 1(隐含地假设预测字段之间没有交互)。提升交互深度可以大大增加模型的运行时间。
项或结点惩罚:要优化的函数包含惩罚成分,以减少最终模型与估计样本数据过拟合的可能性。仅针对主要效应模型,默认值为 2;如果允许双向或更高交互,则默认值为 3。值为 -1 时,不会对所应用的结点或项进行惩罚,而值 0 则仅对项应用默认惩罚。
添加额外结点所需的最小决定系数 (R-Squared) 改进:此项的值越高,模型添加结点所需的决定系数 (R-Squared) 改进就越高。
结点之间的最小距离:如果选择 0,则根据公式计算出允许的最短距离,如果值为 1,则预测变量的任何值都可以是结点(仅当数据噪音很少时才有效),否则需要提供一个介于 0 和 1 之间的数值,该数值以预测变量范围的百分比表示距离。
新变量惩罚:在模型中加入新变量时,目标函数中附加的惩罚项。默认值为 0(无),该值的范围为 0 到 0.5。与项或结点惩罚一样,其目的是控制过拟合
前进传递中每一步考虑的最大父项数:该项控制在前向传递中创建的项的数量,这可以加快执行速度。特殊值 0 对项没有限制,而大于 0 的数字则会指定最大项数。默认值为 20 项,常见值为 20、10 和 5。
Fast MARS aging(快速 MARS 老化)系数:请参阅 Friedman (1993) 第 3.1 节,了解对此参数的解释。
执行交叉验证分析:相对于算法使用的广义交叉验证方法,该选项允许进行交叉验证评估,以了解是否进行了充分的剪枝。如果选择了该选项,则用户可以指定单独交叉验证运行的次数、每次交叉验证运行的折数、交叉验证样本是否分层,以便针对分类目标具有可比较的响应组合(例如,针对二元分类变量具有可比较的“是”和“否”回复数量),以及为创建样本而生成的随机数的随机种子值。
剪枝方法:选项有“后退清除”、“无”、“详尽搜索”、“前进选择”和“后续替换”。
后退清除法(默认设置)从前向传递中发现的所有结点和项开始,然后首先移除预测性最低的项(对受影响的其余项进行适当调整),然后比较相对于完整模型,相应操作对广义交叉验证测量的影响。如果移除项的做法没有改进广义交叉验证测量,则返回到前向传递后创建的模型。如果广义交叉验证测量有所改善,则将该项从模型中移除,然后对其余项重复这一过程。如果在任何时候,相对于上一次迭代创建的模型而言,移除一项并不能改善广义交叉验证测量,那么这个过程就会终止。
如果选择“无”,则在前向传递中找到的所有项都将在最终模型中使用。
在详尽搜索法中,系统会对前向搜索步骤中发现的所有项组合进行检查,但计算成本非常高。
在前向删除法中,除截距之外的所有项都会被移除,然后确定在前向传递中找到的最佳项并将其包含到模型中(假设它相对于仅截距模型改进了广义交叉验证测量)。此过程将持续进行,直到无法再添加任何可改进广义交叉验证测量的其他项为止。
在后序替换法中,一个具有既定项数的解决方案中,会有一项被前向传递中发现的所有其他可能的剩余项替换,而这一项尚不是剪枝传递中的项。如果发现一个新的项,其广义交叉验证测量相对于原来的项有所提高,那么原来的项就会被新的项所取代。
剪枝模型中的最大项数:如果选择 0(默认值),那么最终模型将使用剪枝传递中应用过其他条件后剩余的所有项,否则,最终模型将只保留所选数量以内的最重要项。
Use the Graphics Options tab to set the controls for the graphical output:
Plot size: Select inches or centimeters for the size of the graph.
Graph Resolution: Select the resolution of the graph in dots per inch: 1x (96 dpi), 2x (192 dpi), or 3x (288 dpi).
较低的分辨创建相对较小的文件,最适合在显示器上查看。
A higher resolution creates a larger file with better print quality.
Base font size (points): Select the size of the font in the graph.
查看输出
将“浏览”工具连接到每个输出锚点以查看结果。
O 锚点:包含序列化模型及其模型名称的表格。
R 锚点:由“样条模型”工具生成的报告片段组成:基本模型摘要、变量重要性图(表示不同预测字段的相对重要性)、基本模型诊断图和(可选)效应图。
*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
**Freidman, Jerome H., "Multivariate Adaptive Regression Splines", Stanford University, August 1990