预测分析
Designer 包含一套使用 R 的预测工具,R 是一种用于统计和预测分析的开源代码库。
这些工具包括数据探索、用于准备数据以进行预测性分析的专用元素、预测性建模、用于比较和评估不同模型功效的工具、以系统方式对记录和字段进行分组的工具,以及用于帮助部署预测性分析解决方案的工具。
预测工具使用 R 编程语言。转到 选项 > 下载预测工具 ,并登录到 Alteryx 下载和许可证 门户以安装 R 和 R 工具 使用的软件包。
数据库内支持
六种预测工具具有数据库内支持。
将具有数据库内支持的预测性工具与另一个数据库内工具一起放置在画布上时,该预测性工具会自动更改为数据库内版本。要更改该工具的版本,请右键单击该工具,指向“选择工具版本”,然后单击该工具的其他版本。有关数据库内支持和工具的详细信息,请查看 数据库内概述 。
预测分析工具
此类别包括用于分类(分类目标字段)和回归(数字目标字段)模型的常规预测建模的工具,以及用于模型对比和与预测建模相关的假设测试的工具。这组用于常规预测建模的工具可进一步细分为传统统计模型和更现代化的统计学习方法。一个单一的“评分”工具提供从两种类型的常规预测建模工具获取模型预测的机制。
传统统计模型和更现代化的统计学习方法之间的一个重要区别是用户在建模过程中的直接干预程度。传统统计模型需要更大程度的用户干预和专门知识,这样才能开发一个具有足够预测功效的模型。具体而言,用户必须预先选择重要的预测因子字段,并且将可能需要对数值字段应用适当的转换,以捕获目标字段和连续预测因子之间的非线性效果。对于传统模型,可以使用逐步回归来辅助选择重要的预测因子(忽略由于非线性关系而可能出现的问题)。相比之下,现代统计学习方法利用算法内部解决预测因子选择和目标与数值预测变量之间可能存在的非线性关系。
传统的统计模型因所预测的目标字段的性质而彼此之间有所不同。所有这些模型都基于估计(广义)线性模型。虽然所有统计学习算法都具有相同的内部处理预测因子选择和非线性效应属性,但它们确实有方法上的不同。因此,在用户可能遇到的一组问题上,没有一种方法优于所有其他方法。
传统统计模型的工具








现代统计学习方法的工具




预测性模型对比和假设测试工具







用于预测所有常规预测建模工具值的工具

用于创建交互式网络可视化和密钥摘要统计的工具

用于生成生存模型以及估计相对风险和受限平均生存时间的工具


此类别包含多个常规(数据时间间隔,如月度),单变量时序绘图和预测工具。其中最重要的是用于创建 ARIMA(差分整合移动平均自回归)和扩展指数平滑预测模型的工具,这些模型可用于创建每周销售预测模型等项目。这两种方法都是根据目标变量值中与时间相关的系统元素来进行预测的。具体而言,它们会拾取趋势因素(较长期,目标变量的上下移动相当一致)和周期性因素(随时间重复变化的循环类型)。
提供这些因素的具体示例:平板电脑销售的时序模型可能会显示销售的积极趋势,同时在临近圣诞节和学年开始之前呈现强劲的周期性销售增长模式。如果目标变量中即不存在趋势也不存在周期性,则目标变量的预测值很可能会基于目标的最近值的加权平均值呈直线下降。对于用户来说,这可能是一个令人不满意的结果,但它表明数据中仅与时间相关的元素(趋势和周期性)没有实际结构。在这些情况下,与时序工具相比,更通用的预测建模方法在开发预测时可能更有用。
除了用于创建预测的工具外,还有一些工具可以帮助用户比较不同时序预测模型的相对效力。完整的时序工具组合包括:









此类别包含将记录或字段分组为更少的组的工具。将记录组合在一起的常见应用是根据采购模式创建客户细分市场,或是创建一组商店小组。创建这两个领域的分组的最终目标是创建更少的分组,以便能够以从业务角度判断可行的方式定制方案和活动。
例如,一家在其网络中拥有 500 家门店的零售商可能会发现,开发针对 500 家门店中每家门店的特定销售和定价计划压力巨大。但是,如果根据门店销售模式的相似性,将门店分为数量较少的门店组(例如 10 组),那么制定 10 种不同的销售和定价计划是零售商可以成功实施的方案。同样,许多组织都有它们希望做好分析的数据库表,这些表非常广泛,其中许多字段相互高度相关。在这些情况下,处理大量高度相关的测量会使对这些数据进行的任何分析变得非常复杂。因此,将原始字段组缩减为更方便进行分析的更小组合字段组可能是有意义的。在这两种情况下,都需要降低数据的维度方可使其可操作。
将记录组合在一起最常用的方法是群集分析。实际上有许多不同类型的群集分析,但到目前为止,业务应用中最常用的群集方法是基于 K-Centroids 算法。Alteryx 提供的工具可帮助确定应形成的相应群集(组)数量,创建最终的群集组,并将特定记录所属的群集附加到数据(无论该记录是否用于确定群集组)。相关工具(查找最相邻项)允许用户围绕一个或多个特定记录形成给定大小的特设组。例如,这些工具让用户能够根据过去的购买行为找到最像客户“X”的五位客户。对字段分组的可用方法是主要组件。
购物篮分析工具有助于确定哪些商品在销售数据点处汇总,或者哪些问题组合往往会在缺陷报告和工单系统中共同出现。类别中的工具决定了数据中的“规则”集(例如,“产品缺陷 A 在同时观察到产品缺陷 B 和 C 时更有可能出现”),并提供筛选工具,根据一组与更可能使规则更重要的规则相关联的标准,缩小可能规则的范围。
此类别中的工具包括:








