Skip to main content

Principal Components Tool Icon 主成分分析ツール

主成分分析ツールを使用すると、データベース内の次元(数値フィールドの数)を減らすことができます。元のフィールドセットを、データの分散(情報)の大部分を占める小さなセットに変換することによって、データベース内のディメンションを減らします。新しいフィールドは、ファクタまたは主成分分析と呼ばれます。

主成分分析は順次に抽出され、第1の主成分分析はデータのほとんどの分散を考慮に入れています。直感的には、第1主成分分析は、データが最も広がっている方向を指すベクトルです。第2主成分分析も同様に設定されますが、第1主成分分析と無相関でなければならないという追加の制約があります。後続の各主成分分析は、データのばらつきのパーセンテージがますます低くなり、前に抽出された主成分分析と相関関係はありません。データには、数値フィールドと同じ数の主成分分析が存在します。ただし、元の数値フィールドの完全なセットではなく、最初のいくつかの主成分分析を使用して、データの差異をキャプチャすることは通常可能です。主成分分析は、元の数値フィールドの加重線形結合で構成されています。これらを一緒に使用すると、各次元が他の次元と無相関な新しい座標系を形成することができます。

高度な相関変数が使用されている場合に発生する可能性のある問題を回避しながら、予測モデルの元のフィールドの代わりに主成分分析を使用することはできますが、モデル解釈を難しくするという犠牲を払います。さらに、この方法を使用すると、共同して相互に関連性が高いフィールドのグループを決定し、フィールドが予測モデルから除外する決定を導くのに役立てることができる。最後に、多数のフィールドを少数の主成分分析に「崩壊させる」能力は、しばしばデータの関係を視覚化する上で利点があります。

このツールはRツールを使用します。[オプション] > [予測ツールのダウンロード]に移動し、[Alteryxダウンロードとライセンス]ポータルにサインインして、Rツールで使用するパッケージとRツールをインストールします。参照: 予測ツールのダウンロードと使用

ツールの設定

構成タブ

[設定]タブを使用して、主成分分析と関連するバイプロットのコントロールを設定します。

  • フィールド(2つ以上を選択): 主成分分析で使用する数値フィールドを選択します。

  • 各フィールドの単位分散を調整しますか?: データを標準化し、自己共分散行列の代わりに自己相関行列を分析のベースに使用するには、このオプションを選択します。

  • バイプロットに含める主成分分析の最大数: バイプロットは、主成分分析ソリューションで一度に2つの成分を視覚化する手段です。このオプションは、分析に使用する主成分分析の上限を設定します。えば、このパラメーターが「3」に設定されている場合、バイプロットは、第1と第2、第1と第3、第2と第3の主成分分析を3つの別たと個の図形に含めます。

  • 主成分分析をデータストリームに付加する: 元のデータと一緒に、付加された主成分分析の追加フィールドを出力する場合に選択します。追加されたフィールドはPC1、PC2などの名前が付けられます。追加する主成分分析の数を設定します。

[グラフィックオプション]タブ

[グラフィックオプション]タブを使用して、グラフィック出力のコントロールを設定します。

  • プロットサイズ: グラフのサイズをインチとセンチメートルのどちらにするかを選択します。

  • グラフの解像度: グラフの解像度を1インチあたりのドット数で選択します: 1x (96 dpi)2x (192 dpi)3x (288 dpi)

    • 解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。

    • 解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。

  • ベースフォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力の表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • Oアンカー: 主成分分析が付加された入力データストリームで構成されます。

  • Rアンカー: 主成分分析ツールによって生成されたレポートスニペット(統計的な要約、基本的なプロット、バイプロット)で構成されます。

*https://en.wikipedia.org/wiki/Principal_component_analysis