Skip to main content

K-Centroids Cluster Analysis Tool Icon K-Centroids 聚类分析工具

K-Centroids 表示一类用于执行分区聚类分析的算法。这些方法的工作原理是获取数据库中的记录,并根据某些标准将它们划分(分区)成“最佳”K 组。几乎所有分区聚类分析方法都是根据每条记录与数据中某个 K 点(或“形心”)的邻近程度来确定群集成员资格,从而实现其目标。这些聚类算法的目的是针对数据中预先指定的群集数量,根据群集的形心与分配给该群集的点之间的距离,找到能优化某些标准的形心位置。在用于定义群集形心的标准和用于定义群集中的点与该群集形心的邻近程度的距离测量方法上,具体算法各不相同。

可通过此工具执行三种特定类型的 K-Centroids 聚类分析:K-均值、K-中值和神经气聚类。“K-均值”使用群集中各点的字段的均值来定义形心,并使用欧几里得距离来测度点与形心的邻近程度。*“K-中值”使用群集中各点的字段的中值来定义形心,并使用曼哈顿(也称为城市区块)距离来测量邻近程度。**神经气聚类与 K-均值类似,它使用点与形心之间的欧几里得距离将该点分配到特定的群集。***然而,该方法在计算群集形心的方式上不同于 K-均值,群集的形心位置涉及所有数据点的加权平均值,分配给正在构造形心的群集的点获得的权重最大,来自离焦点群集最远的群集的点获得的权重最小,而给中间群集中的点的权重则随着焦点群集与点所分配到的群集之间的距离增加而减少。

此工具使用 R 工具。转至选项 > 下载预测工具,并登录到 Alteryx 下载和许可门户以安装 R 和 R 工具使用的包。请参考下载和使用预测工具

配置工具

配置选项卡

使用配置选项卡为聚类分析设置控件。

  1. 解决方案名称:需要为每个群集解决方案命名,以便以后进行识别。解决方案名称必须以字母开头,可包含字母、数字和特殊字符句点(“.”)和下划线(“_”)。不允许使用其它特殊字符,R 区分大小写。

  2. 字段(选择两个或更多):选择要用于构建群集解决方案的数字字段。

  3. 标准化字段…:选择此选项可选择通过 z-score 或单元间隔标准化来对变量进行标准化。

    • z-score 转换是指从字段的值中减去每个字段的均值,然后除以字段的标准差。这会产生一个均值为 0,标准差为 1 的新字段。

    • 单元间隔转换是指从字段值中减去字段的最小值,然后除以字段的最大值和最小值之间的差值。这会产生一个值范围从 0 到 1 的新字段。聚类解决方案对数据的数量级非常敏感,当一个字段与另一个字段的数量级相差很大时尤为如此。因此,应该考虑对数据进行缩放。

  4. 聚类方法:从 K-均值K-中值神经气 中选择一种。

  5. 群集数量:选择解决方案中的群集数量。

  6. 起始种子数量:K-Centroids 方法会在开始时将随机选择的点作为初始形心。每种方法确定的最终解决方案都可能会受到初始点的影响。如果使用了多个起始种子,则将保留一组解决方案中的最佳解决方案作为最终解决方案。

绘图选项选项卡

使用绘图选项选项卡为绘图设置控件。

  1. 绘图点:选中后,将绘制数据中的所有点,并用解决方案中每个点所分配到的群集编号表示。

  2. 图形心:选中后,将绘制群集形心,并用以其为形心的群集的编号表示。

  3. 要包含在双标图中的最高维数:双标图是在较小维度空间中直观呈现聚类解决方案(通过主因子)的一种方法。每次完成的维度为 2 个维度。此选项可设置要在直观呈现中使用的维度上限。例如,如果将此参数设置为“3”,则双标图会将第一和第二、第一和第三、第二和第三主因子包含在 3 个独立的图中。

图表选项卡

使用图表选项选项卡为输出设置控件。

  • 图表大小:选择英寸或厘米来丈量图表大小。

  • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x (96 dpi)2x (192 dpi);或 3x (288 dpi)

    • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

    • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

  • 基本字体大小(点):选择图表中字体的大小。

查看输出

将“浏览”工具连接到每个输出锚点以查看结果。

  • O 锚点:包含一个含有模型名称和对象大小的序列化模型的表格。

  • R 锚点:包含由 K-Centroids 聚类分析工具生成的报告片段:统计摘要和群集解决方案图。

*zh.wikipedia.org/wiki/K-平均算法

**en.wikipedia.org/wiki/K-medians_clustering

***en.wikipedia.org/wiki/Neural_gas