逻辑回归工具
单个工具示例
“逻辑回归”具有一个“单个工具示例”。转至 示例工作流 以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
“逻辑回归”工具创建一个模型,该模型将目标二元变量(如“是/否”、“通过/未通过”)与一个或多个预测变量相关联,以获得目标变量的两种可能响应各自的估计概率。常见的逻辑回归模型包括 logit、probit 和 complementary log-log。访问逻辑回归。
此工具使用 R 工具。转到选项 > 下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。访问下载和使用预测工具。
常规处理下的工具配置
连接输入
连接 Alteryx 数据流或 XDF 元数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测字段。
如果输入数据来自 Alteryx 数据流,则使用开源 R glm 函数以及(glmnet 软件包中的)glmnet 和 cv.glmnet 函数进行模型估计。
如果输入数据来自“XDF 输出”工具或“XDF 输入”工具,则使用 RevoScaleR rxLogit 函数进行模型估计。使用基于 RevoScaleR 的函数的优势在于,它允许分析更大(超出内存)的数据集,但代价是创建 XDF 文件需要额外开销,造成无法创建开源 R 函数提供的某些模型诊断输出,而且只能使用 logit 链接函数。
配置工具
输入模型名称:为模型输入一个名称,以在其他工具中引用该模型时对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (.) 和下划线 (_)。不允许使用其他特殊字符,R 区分大小写。
选择目标变量:选择要预测的数据。目标变量也称为响应变量或因变量。
选择预测变量:选择要用于影响目标变量值的数据。预测变量也称为功能或自变量。虽然可以选择任意数量的预测变量,但目标变量不应也是预测变量。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。
选择自定义来修改模型、交叉验证和图表设置。
自定义模型
在模型估计中使用样本权重:选择一个变量,以确定创建模型估计时每个记录的重要性。如果某值既用作预测变量,又用作权重变量,则权重变量将显示在模型调用的报告输出中,并以字符串“Right_”为前缀。
使用正则化回归:选择此选项,以平衡误差平方和的相同最小化与系数大小的惩罚项,并生成简化模型。
输入 α 值:选择一个介于 0(岭回归)和 1(套索回归)之间的值,以衡量对系数的重视程度。
标准化预测变量:选择此选项,以根据所使用的算法,让所有变量具有相同的大小。
使用交叉验证确定模型参数:选择此选项,以进行交叉验证,获取各种模型参数
折叠数:选择分割数据的折叠数量。折叠数量越大,模型估计质量越高,折叠数量越小,工具运行速度越快。
哪类模型:选择模型的类型以确定系数。
更简单的模型
样本内均方误差较低的模型
设置种子:选择此选项,以确保交叉验证的可重复性,并选择用于将记录分配到折叠的种子值。每次运行工作流时选择相同的种子,可保证相同的记录每次都位于相同的折叠中。该值必须是正整数。
输入目标变量的正类(可选):该工具在二元分类案例中报告的一些度量值(例如真正率)需要指定正类。要执行二元分类,请键入目标变量的两个正类之一。如果留空,则系统会自动将其中一个类确定为正类。此选项仅适用于分类模型。
选择模型类型:选择用于预测目标变量的模型的类型。
logit
probit
complementary log-log
自定义交叉验证
使用交叉验证来确定对模型质量的评估:选择此选项,以执行交叉验证并获取各种模型质量指标和图表。一些指标和图表将展示 R 输出中,其他指标和图表将展示在交互式 I 输出中。
折叠数:选择分割数据的折叠数量。折叠数量越大,模型估计质量越高,折叠数量越小,工具运行速度越快。
试验次数:选择重复执行交叉验证过程的次数。每次试验中选择的折叠不同,并且总体结果是所有试验的平均值。折叠数量越大,模型估计质量越高,折叠数量越小,工具运行速度越快。
使用分层交叉验证:选择此选项,让每个折叠中每个类的占比情况与整个数据集中的占比情况相同。此选项仅适用于分类模型。
设置种子:选择此选项,以确保交叉验证的可重复性,并选择用于将记录分配到折叠的种子值。每次运行工作流时选择相同的种子,可保证相同的记录每次都位于相同的折叠中。该值必须是正整数。
自定义图表
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x(96 dpi);2x(192 dpi);或 3x(288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
查看输出
将“浏览”工具连接到每个输出锚点以查看结果。
O(输出):在“结果”窗口中显示模型名称(Name)和对象(Object)大小。
R(报告):显示模型摘要报告,其中包括摘要和图。
I(交互式):显示带有辅助视觉效果的交互式仪表板,允许您缩放、悬停和单击。
用于数据库内处理的工具配置
“逻辑回归”工具支持 Oracle、Microsoft SQL Server 2016 和 Teradata 数据库内处理。有关数据库内支持和工具的详细信息,请访问数据库内概述。
将“逻辑回归”工具与另一个数据库内工具一起放置在画布上时,该工具会自动更改为数据库内版本。要更改该工具的版本,请右键单击该工具,指向“选择工具版本”,然后单击该工具的其他版本。有关预测型数据库内工具支持的详细信息,请访问预测分析。
连接输入
连接数据库内数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测字段。
如果输入来自 SQL Server 或 Teradata 数据库内数据流,则将使用 Microsoft 机器学习服务器 rxLogit 函数(来自 RevoScaleR 软件包)进行模型估计。只要本地计算机和服务器都配置了 Microsoft 机器学习服务器,即可在数据库服务器上进行处理,从而显著提高性能。
如果输入来自 Oracle 数据库内数据流,则使用 Oracle R Enterprise ore.lm 函数(来自 OREmodelsOREmodels 软件包)进行模型估计。只要本地计算机和服务器都配置了 Oracle R Enterprise,即可在数据库服务器上进行处理,从而显著提高性能。
对于 Oracle 数据库中的数据库内工作流,仅当“逻辑回归”工具直接与库内连接工具相连接并选择单个完整表单时,或在“逻辑回归”工具之前,使用“库内写入数据”工具将估计数据表保存到数据库中,才会激发相应下游模型对象的全部功能。Oracle R Enterprise 利用估算数据表提供完整的模型对象功能,例如计算预测区间。
配置工具
模型名称:需要为每个模型命名,以便以后可以对其进行识别。您可以选择提供名称,也可以选择自动生成名称。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其他特殊字符,R 区分大小写。
选择目标变量:从要预测的数据流中选择字段。
选择预测变量:从您认为“导致”目标变量值更改的数据流中选择字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。
省略模型常量:如果要从模型中省略常量,请选中此条目。如果有明确的理由,则应执行此操作。
Oracle 特定选项:此选项可配置仅与 Oracle 平台相关的附加选项。
模型类型:选择用于预测目标变量的模型的类型。
logit
probit
complementary log-log
将模型保存到数据库中:此举将估计的模型对象保存至数据库中,建议选中此选项,以将模型对象和估算表集中保存在 Oracle 数据库中的某一位置。
使用样本权重进行模型估计:选中此复选框,然后从数据流中选择权重字段以估计使用采样权重的模型。如果某字段既用作预测变量,又用作加权变量,则加权变量将显示在模型调用的输出中,并以字符串“right_”为前缀。
Teradata 特定配置:Microsoft Machine Learning Server 需要有关所使用的特定 Teradata 平台的其他配置信息,特别是 Teradata 服务器上可访问 R 二进制可执行文件的路径,以及 Microsoft Machine Learning Server 使用的临时文件的写入位置。此信息需要由本地 Teradata 管理员提供。
查看输出
将“浏览”工具连接到每个输出锚点以查看结果。
O 锚点:输出。在“结果”窗口中显示模型名称(Name)和对象(Object)大小。
R 锚点:报告。显示模型摘要报告,其中包括摘要和图。