K-Centroids 诊断工具
K-Centroids 诊断工具旨在让用户能够根据数据和所选聚类算法(K-均值、K-中值或神经气),评估要指定的群集的适当数量。该工具为图形化工具,基于对一系列聚类解决方案原始数据的自举法重复样本计算两种不同的统计量,这些聚类解决方案在指定的群集数量上有所不同。采用此方法的原因是,如果数据库中的记录确实属于一组稳定的群集,那么从这些记录中随机抽取一组不同的样本,除了由于随机样本的变异性和一般 K-Centroids 算法中通过随机选择 K 点来生成起始形心集的方法所引起的随机性所造成的微小差异外,其结果应与在自举法重复中得到的一组群集大致相同。所检查的两个衡量标准是调整兰德指数和 Calinski–Harabasz 指数(也称为方差比准则和伪 F 统计量)。
调整兰德指数提供了两个不同聚类解决方案之间的相似性度量,当两个聚类解决方案完全重叠时,最大值为 1。*该指数可用于通过比较成对的解决方案(每对解决方案均基于不同的客户数据样本),确定聚类解决方案的相对再现性和绝对再现性。成对解决方案之间的重叠程度越高,意味着群集结构的再现性越高。
Calinski–Harabasz 指数基于比较群集间平方和(群集分离程度的测度)与群集内平方和(群集内点的密集程度的测度)的加权比得出。理想情况下,群集应很好地分离,因此群集间平方和的值应该较大,但群集内的点应尽可能相互靠近,从而使群集内平方和的测度值较小。由于 Calinski–Harabasz 指数是一个比率,分子是群集间平方和,分母是群集内平方和,因此指数值较大的群集解决方案比指数值较小的群集解决方案“更好”。
该工具的输出是有关两个统计量在不同群集数量的自举法重复中的分布的信息。这些信息通过两个盒须图(调整后的兰德指数和 Calinski-Harabasz 指数各一个)以及两个测度值的汇总统计量来传达。基于每种测度方法的首选群集数应与所比较的解决方案中均值和中值最高的群集数相对应。此外,计算出的统计量在自举法重复中的离均差最好不要太大。
此工具的计算非常密集。计算强度取决于计算中使用的记录数(可通过使用子集表达式选项来改变)、所检查的不同聚类解决方案的数量(由最小群集数和最大群集数之间的范围决定)、自举法重复数以及每个群集解决方案所使用的不同起始种子数(起始种子数选项)。减少要使用的自举法重复数可以大大减少所需的计算机时间,但精确率会大打折扣。在实际分析中,建议用户不要使用少于 100 个自举法重复,并尽可能使用更多的重复。
此工具使用 R 工具。转到选项 > 下载预测工具,并登录到 Alteryx 下载和许可门户以安装 R 和 R 工具使用的软件包。请参考下载和使用预测工具。
配置工具
配置选项卡
字段(选择两个或更多):选择要用于构建群集解决方案的数字字段。
标准化字段…:选择此选项可选择通过 z-score 或单元间隔标准化来对变量进行标准化。
z-score 转换是指从字段的值中减去每个字段的均值,然后除以字段的标准差。这会产生一个均值为 0,标准差为 1 的新字段。
单元间隔转换是指从字段值中减去字段的最小值,然后除以字段的最大值和最小值之间的差值。这会产生一个值范围从 0 到 1 的新字段。聚类解决方案对数据的数量级非常敏感,当一个字段与另一个字段的数量级相差很大时尤为如此。因此,应该考虑对数据进行缩放。
群集最小数量:选择解决方案中要考虑的最小群集数。
群集最大数量:选择解决方案中要考虑的最大群集数。
自举法复制:要用于计算两个指数的自举法复制数。可能的值在 50 到 200 之间。
起始种子数量:K-Centroids 方法会在开始时将随机选择的点作为初始形心。每种方法确定的最终解决方案都可能会受到初始点的影响。如果使用了多个起始种子,则将保留一组解决方案中的最佳解决方案作为最终解决方案。
图表选项卡
使用图表选项选项卡为输出设置控件。
图表大小:选择英寸或厘米来丈量图表大小。
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x (96 dpi);2x (192 dpi);或 3x (288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
基本字体大小(点):选择图表中字体的大小