Skip to main content

K-Centroids Diagnostics Tool Icon K重心診断ツール

Kセントロイド診断ツールは、ユーザーが所定のデータと選択されたクラスタリングアルゴリズム(K平均、K中央値、またはニューラルガス)を指定して、適切なクラスタ数の評価を行えるように設計されています。このツールはグラフィカルで、指定されたクラスタ数が異なるクラスタリングソリューションの範囲について、元のデータのブートストラップ複製サンプルに対する2つの異なる統計を計算することに基づいています。このアプローチの背後にある動機は、データベース内のレコードが本当に安定した一連のクラスターに分類される場合、ランダムサンプルの変動性と、一般的なKセントロイドアルゴリズムにおいて、ランダムにKポイントを選択することによって、重心の開始セットの生成に使用されるメソッドによって誘導されるランダム性との小さな差異を除けば、それらのレコードの異なる一連のランダムサンプルが、ブートストラップ再現全体におよぶクラスターのセットになるはずです。調査された2つの測定は、調整されたRand指数とCalinski-Harabasz指数(分散比基準と擬似F統計量とも呼ばれる)です。

調整ランド指数は、2つの異なるクラスタリングソリューション間の類似度を測定し、2つのクラスタリングソリューションが完全に重複している場合に最大値1を取ります*。この指数は、各ペアが顧客データの異なるサンプルに基づいている場合、ソリューションのペアを比較することで、クラスタリングソリューションの相対的および絶対的な再現性の両方を決定するために使用できます。ソリューションのペアの間の重なりが大きいほど、クラスター構造の再現性は必然的に高くなります。

Calinski-Harabasz指数は、クラスターの平方和(クラスター分離の測定)とクラスター内の平方和(クラスター内のポイントがどれくらい詰まっているかを示す測定)の間の加重比率を比較することに基づいています。理想的には、クラスターは十分に分離されている必要があるため、クラスター間の二乗和の値は大きくなければならず、クラスター内のポイントは可能な限り近くになければなりません。Calinski-Harabasz指数は、分子におけるクラスターの平方和と分母におけるクラスター内の平方和の間の比率であるため、指数の値が大きいクラスターソリューションは、より小さい値のクラスターソリューションよりも「優れた」ソリューションに相当します。

このツールの出力は、ブートストラップレ再現の全体でクラスターの数が異なる場合の2つの統計情報の分布に関する情報です。情報は、2つの箱ひげ図(調整されたランドインデックスとCalinski-Harabasz指数のそれぞれ1つ)と2つの測定の要約統計量を介して伝達されます。各測定に基づくクラスターの好ましい数は、比較されるソリューションの最高平均および中央値を有するものに相当します。さらに、ブートストラップにわたって計算された統計量の分散があまり大きくないことが望ましいと言えます。

このツールは計算を大量に使用します。強度には、計算で使用されるレコードの数サブセット式オプションを使用して変更可能)、調べたさまざまなクラスター化ソリューションの数(クラスターの最小数と最大数の間の範囲で決定)、数ブートストラップ(再現の数、および各クラスターソリューションに使用される異なる開始シードの数(開始シードオプションの数)が含まれます。使用するブートストラップの再現数を減らすと、必要なコンピュータ時間が大幅に削減されますが、コストは非常に高くなります。実際の分析のために、ユーザーが100未満のブートストラップ再現を絶対に使用せず、できればもっと多く使用することを強くお勧めします。

このツールはRツールを使用します。[オプション] > [予測ツールのダウンロード] に移動し、Alteryx ダウンロードとライセンス ポータルにサインインして、R ツール で使用するパッケージと R ツールをインストールします。参照: 予測ツールのダウンロードと使用

ツールの設定

構成タブ

  1. フィールド(2つ以上を選択): クラスターソリューションの構築に使用する数値フィールドを選択します。

  2. フィールドの標準化...: このオプションを選択すると、zスコアまたは単位間隔標準化を使用して変数を標準化できます。

    • zスコア変換は、フィールドの値から各フィールドの平均値を減算し、フィールドの標準偏差で除算することを含みます。これにより、平均値がゼロで標準偏差が1の新しいフィールドになります。

    • 単位間隔変換は、フィールド値からフィールドの最小値を引いた後、フィールドの最大値と最小値の差で除算することを含みます。これにより、0から1の範囲の値を持つ新しいフィールドが作成されます。クラスター化ソリューションは、特にあるフィールドが別のフィールドと非常に異なるスケールにある場合、データのスケーリングに対して非常に敏感です。その結果、データのスケーリングは何か考慮すべきものとなります。

  3. クラスタリングメソッド: K平均K中央値ニューラルガスのいずれかを選択します。

  4. クラスターの最小数: ソリューションで考慮するクラスターの最小数を選択します。

  5. クラスターの最大数: ソリューションで考慮するクラスターの最大数を選択します。

  6. ブートストラップの複製: 2つの指数の計算に使用するブートストラップの複製数。可能な値は50〜200です。

  7. 開始シードの数: K重心メソッドの開始には、無作為に選択されたポイントが初期重心となります。各メソッドによって決定される最終的なソリューションは、初期ポイントによって影響を受けることがあります。複数の開始シードを使用する場合、一連のソリューションの中から最良のソリューションを最終的なソリューションとして保持します。

[グラフィックオプション]タブ

[グラフィックオプション]タブを使用して、出力のコントロールを設定します。

  • プロットサイズ: グラフのサイズをインチとセンチメートルのどちらにするかを選択します。

  • グラフの解像度: グラフの解像度を1インチあたりのドット数で選択します: 1x (96 dpi)2x (192 dpi)3x (288 dpi)

    • 解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。

    • 解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。

  • ベースフォントサイズ(ポイント): グラフ内のフォントのサイズを選択します。

*en.wikipedia.org/wiki/Rand_index