“逻辑回归”工具
单个工具示例
“逻辑回归”具有一个“单个工具示例”。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
“逻辑回归”工具创建一个模型,该模型将目标二元变量(如“是/否”、“通过/未通过”)与一个或多个预测变量相关联,以获得目标变量的两种可能响应各自的估计概率。常见的逻辑回归模型包括 logit、probit 和 complementary log-log。访问逻辑回归。
此工具使用 R 工具。转到选项 > 下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。访问下载和使用预测工具。
常规处理下的工具配置
连接输入
连接 Alteryx 数据流或 XDF 元数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测字段。
如果输入数据来自 Alteryx 数据流,则使用开源 R glm 函数以及(glmnet 软件包中的)glmnet 和 cv.glmnet 函数进行模型估计。
如果输入数据来自“XDF 输出”工具或“XDF 输入”工具,则使用 RevoScaleR rxLogit 函数进行模型估计。使用基于 RevoScaleR 的函数的优势在于,它允许分析更大(超出内存)的数据集,但代价是创建 XDF 文件需要额外开销,造成无法创建开源 R 函数提供的某些模型诊断输出,而且只能使用 logit 链接函数。
配置工具
输入模型名称:为模型输入一个名称,以在其他工具中引用该模型时对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (.) 和下划线 (_)。不允许使用其他特殊字符,R 区分大小写。
选择目标变量:选择要预测的数据。目标变量也称为响应变量或因变量。
选择预测变量:选择要用于影响目标变量值的数据。预测变量也称为功能或自变量。虽然可以选择任意数量的预测变量,但目标变量不应也是预测变量。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。
选择自定义来修改模型、交叉验证和图表设置。
自定义模型
在模型估计中使用样本权重:选择一个变量,以确定创建模型估计时每个记录的重要性。如果某值既用作预测变量,又用作权重变量,则权重变量将显示在模型调用的报告输出中,并以字符串“Right_”为前缀。
使用正则化回归:选择此选项,以平衡误差平方和的相同最小化与系数大小的惩罚项,并生成简化模型。
输入 α 值:选择一个介于 0(岭回归)和 1(套索回归)之间的值,以衡量对系数的重视程度。
标准化预测变量:选择此选项,以根据所使用的算法,让所有变量具有相同的大小。
使用交叉验证确定模型参数:选择此选项,以进行交叉验证,获取各种模型参数
折叠数:选择分割数据的折叠数量。折叠数量越大,模型估计质量越高,折叠数量越小,工具运行速度越快。
哪类模型:选择模型的类型以确定系数。
更简单的模型
样本内标准错误较低的模型
设置种子:选择此选项,以确保交叉验证的可重复性,并选择用于将记录分配到折叠的种子值。每次运行工作流时选择相同的种子,可保证相同的记录每次都位于相同的折叠中。该值必须是正整数。
Enter positive class for target variable (optional): Some of the measures reported by the tool in binary classification cases (such as true positive rate) require a positive class to be designated. To perform binary classification, type one of the two positive classes of the target variable. If left blank, one of the classes is automatically determined as the positive class. This option is only available for classification models.
选择模型类型:选择用于预测目标变量的模型的类型。
logit
probit
complementary log-log
自定义交叉验证
使用交叉验证来确定对模型质量的评估:选择此选项,以执行交叉验证并获取各种模型质量指标和图表。一些指标和图表将展示 R 输出中,其他指标和图表将展示在交互式 I 输出中。
折叠数:选择分割数据的折叠数量。折叠数量越大,模型估计质量越高,折叠数量越小,工具运行速度越快。
试验次数:选择重复执行交叉验证过程的次数。每次试验中选择的折叠不同,并且总体结果是所有试验的平均值。折叠数量越大,模型估计质量越高,折叠数量越小,工具运行速度越快。
使用分层交叉验证:选择此选项,让每个折叠中每个类的占比情况与整个数据集中的占比情况相同。此选项仅适用于分类模型。
设置种子:选择此选项,以确保交叉验证的可重复性,并选择用于将记录分配到折叠的种子值。每次运行工作流时选择相同的种子,可保证相同的记录每次都位于相同的折叠中。该值必须是正整数。
自定义图表
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x(96 dpi);2x(192 dpi);或 3x(288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
查看输出
将“浏览”工具连接到每个输出锚点以查看结果。
O(输出):在“结果”窗口中显示模型名称(Name)和对象(Object)大小。
R(报告):显示模型摘要报告,其中包括摘要和图。
I(交互式):显示带有辅助视觉效果的交互式仪表板,允许您缩放、悬停和单击。
用于数据库内处理的工具配置
“逻辑回归”工具支持 Oracle、Microsoft SQL Server 2016 和 Teradata 数据库内处理。有关数据库内支持和工具的详细信息,请访问数据库内概述。
将“逻辑回归”工具与另一个数据库内工具一起放置在画布上时,该工具会自动更改为数据库内版本。要更改该工具的版本,请右键单击该工具,指向“选择工具版本”,然后单击该工具的其他版本。有关预测型数据库内工具支持的详细信息,请访问预测分析。
连接输入
连接数据库内数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测字段。
如果输入来自 SQL Server 或 Teradata 数据库内数据流,则将使用 Microsoft 机器学习服务器 rxLogit 函数(来自 RevoScaleR 软件包)进行模型估计。只要本地计算机和服务器都配置了 Microsoft 机器学习服务器,即可在数据库服务器上进行处理,从而显著提高性能。
如果输入来自 Oracle 数据库内数据流,则使用 Oracle R Enterprise ore.lm 函数(来自 OREmodelsOREmodels 软件包)进行模型估计。只要本地计算机和服务器都配置了 Oracle R Enterprise,即可在数据库服务器上进行处理,从而显著提高性能。
对于 Oracle 数据库中的数据库内工作流,仅当“逻辑回归”工具直接与库内连接工具相连接并选择单个完整表单时,或在“逻辑回归”工具之前,使用“库内写入数据”工具将估计数据表保存到数据库中,才会激发相应下游模型对象的全部功能。Oracle R Enterprise 利用估算数据表提供完整的模型对象功能,例如计算预测区间。
配置工具
模型名称:需要为每个模型命名,以便以后可以对其进行识别。您可以选择提供名称,也可以选择自动生成名称。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其他特殊字符,R 区分大小写。
选择目标变量:从要预测的数据流中选择字段。
选择预测变量:从您认为“导致”目标变量值更改的数据流中选择字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。
省略模型常量:如果要从模型中省略常量,请选中此条目。如果有明确的理由,则应执行此操作。
Oracle 特定选项:此选项可配置仅与 Oracle 平台相关的附加选项。
模型类型:选择用于预测目标变量的模型的类型。
logit
probit
complementary log-log
将模型保存到数据库中:此举将估计的模型对象保存至数据库中,建议选中此选项,以将模型对象和估算表集中保存在 Oracle 数据库中的某一位置。
使用样本权重进行模型估计:选中此复选框,然后从数据流中选择权重字段以估计使用采样权重的模型。如果某字段既用作预测变量,又用作加权变量,则加权变量将显示在模型调用的输出中,并以字符串“right_”为前缀。
Teradata 特定配置:Microsoft Machine Learning Server 需要有关所使用的特定 Teradata 平台的其他配置信息,特别是 Teradata 服务器上可访问 R 二进制可执行文件的路径,以及 Microsoft Machine Learning Server 使用的临时文件的写入位置。此信息需要由本地 Teradata 管理员提供。
查看输出
将“浏览”工具连接到每个输出锚点以查看结果。
O 锚点:输出。在“结果”窗口中显示模型名称(Name)和对象(Object)大小。
R 锚点:报告。显示模型摘要报告,其中包括摘要和图。