K重心クラスター分析ツール

Kセントロイドは、パーティショニングクラスタ分析と呼ばれる処理を行うアルゴリズムのクラスです。これらの方法は、データベース内のレコードを取り出し、それらをいくつかの基準に基づいて「最良の」Kグループに分割（パーティショニング）することによって機能します。ほぼすべてのパーティショニングクラスター分析メソッドは、各レコードの近傍にあるクラスターメンバーシップをデータ内のKポイント(またはセントロイド)の1つに基づいて、目的を達成します。これらのクラスタリングアルゴリズムの目的は、クラスターの重心とそのクラスターに割り当てられたポイントとの間の距離に関するいくつかの基準を最適化する重心の位置を、データ内の予め指定された数のクラスターに対して見つけることです。特定のアルゴリズムは、クラスター重心を定義するために使用される基準と、そのクラスターの重心に対するクラスター内の点の近接度を定義するために使用される距離測定値の両方において、互いに異なります。

このツールを使用して、K平均、K中央値、ニューラルガスという3種類のK重心クラスター分析を実行できます。K平均は、フィールドの平均値を使用してクラスター内のポイントの重心を定義し、ユークリッド距離を使用してポイントの重心までの距離を測定します*。K中央値は、フィールドの中央値を使用してクラスター内のポイントの重心を定義し、マンハッタン(都市ブロック)距離を使用して近接度を測定します**。ニューラルガスクラスタリングは、ポイントと重心の間のユークリッド距離を使用してそのポイントを特定のクラスターに割り当てるという点で、K平均に似ています***。しかしながら、このメソッドは、重心がどのように計算され、クラスターの重心の位置が全てのデータ点の加重平均を含み、重心が構築されているクラスターに割り当てられて、最大の重みを受け取るのは、最も低い重みを受け取るフォーカルクラスターから最も離れたクラスターからのポイントであり、ポイントが割り当てられたフォーカルクラスターとクラスターとの間の距離が減少するにつれて、中間クラスターのポイントに与えられる重みが増加する点でK平均とは異なっています。

このツールはRツールを使用します。[オプション] > [予測ツールのダウンロード]に移動し、[Alteryxダウンロードとライセンス]ポータルにサインインして、Rツールで使用するパッケージとRツールをインストールします。参照: 予測ツールのダウンロードと使用

ツールの設定

構成タブ

[設定]タブを使用して、クラスター分析のコントロールを設定します。

ソリューション名: 各クラスターソリューションに、後で識別できるように名前を付ける必要があります。ソリューション名は文字で始まり、文字、数字、および特殊文字ピリオド(「.」)および下線(「_」)を含む必要があります。その他の特殊文字は使用できません。Rは大文字と小文字を区別します。
フィールド (2 つ以上を選択): クラスターソリューションの構築で使用する数値フィールドを選択します。
フィールドの標準化...: このオプションを選択すると、zスコアまたは単位間隔標準化を使用して変数を標準化できます。
- zスコア変換は、フィールドの値から各フィールドの平均値を減算し、フィールドの標準偏差で除算することを含みます。この結果、平均値がゼロで標準偏差が1の新しいフィールドが作成されます。
- 単位間隔変換は、フィールド値からフィールドの最小値を引いた後、フィールドの最大値と最小値の差で除算することを含みます。これにより、0から1の範囲の値を持つ新しいフィールドが作成されます。クラスター化ソリューションは、特にあるフィールドが別のフィールドと非常に異なるスケールにある場合、データのスケーリングに対して非常に敏感です。その結果、データのスケーリングは何か考慮すべきものとなります。
クラスタリングメソッド: K平均、K中央値、ニューラルガスのいずれかを選択します。
クラスター数: ソリューション内のクラスターの数を選択します。
開始シードの数: K重心メソッドの開始には、無作為に選択されたポイントが初期重心となります。各メソッドによって決定される最終的なソリューションは、初期ポイントによって影響を受けることがあります。複数の開始シードを使用する場合、一連のソリューションの中から最良のソリューションを最終的なソリューションとして保持します。

[プロットオプション]タブ

[プロットオプション]タブを使用して、プロットのコントロールを設定します。

プロットポイント: チェックすると、データ内のすべてのポイントがプロットされて、ソリューションで各ポイントが割り当てられているクラスター番号で表されます。
プロット重心: チェックすると、クラスタ-重心がプロットされて、重心であるクラスターの番号で表されます。
バイプロットに含める次元の最大数: バイプロットは、小さな次元空間で(主成分分析により)クラスタリングソリューションを視覚化する方法です。一度に2つの次元で実行されます。このオプションは、視覚化で使用する次元の上限を設定します。たとえば、このパラメーターが「3」に設定されている場合、バイプロットでは、第1と第2、第1と第3、第2と第3の主成分分析が、別々の3つの図に含まれます。

[グラフィックオプション]タブ

[グラフィックオプション]タブを使用して、出力のコントロールを設定します。

プロットサイズ: グラフのサイズをインチとセンチメートルのどちらにするかを選択します。
グラフの解像度: グラフの解像度を1インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)
- 解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
- 解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
ベースフォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力の表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

Oアンカー: モデル名とオブジェクトのサイズで順に並んだモデルのテーブルで構成されます。
Rアンカー: K重心クラスター分析ツールによって生成されたレポートスニペットで構成される、統計的要約とクラスターソリューションプロット。

*en.wikipedia.org/wiki/K-means_clustering

**en.wikipedia.org/wiki/K-medians_clustering

***en.wikipedia.org/wiki/Neural_gas

このセクションの内容: