スプラインモデルツール
ツールごとに学習
スプラインモデルには、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designerでこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。
スプラインモデルツールには、フリードマンの多変量適応回帰スプライン(MARS)アルゴリズムが用意されています。*この方法は現代的な統計学習モデルです。これは、(1)フィールドのどのサブセットが関心のあるターゲットフィールドを最もよく予測するかを自己決定し、(2)フィールド間の高度に非線形の関係や相互作用を捉らえることが可能で、ユーザーにわかりやすい方法で広範な回帰と分類の問題に自動的に対処します(ターゲットフィールドと一連の予測フィールドを指定するだけで使用できますが、上級ユーザーはこのツールを広範囲にわたって微調整することができます)。
このツールは分類、カウントデータ、および連続ターゲット回帰の問題など、幅広い問題に適用できます。この方法では、2段階アプローチを使用してモデルを作成します。最初のステップ(フォワードパスとして知られ、決定木ツールで使用される再帰的分割アルゴリズムに似ています)では、ターゲットを予測する上で最も重要な変数と、適切な「スプリットポイント」(「ノット」として知られています)変数の中で見つけられます。しかし、決定木とは異なり、決定木で行われるように離散ジャンプを使用するのではなく、隣接するノット(項と呼ばれる)間の線が適合します。これにより、各変数の区分線形関数が構築され、ターゲットと予測変数間のあらゆる関係を接近させることができます。モデルが推定サンプルをオーバーフィットしている可能性を最小限に抑え、根底にある信号とは対照的に推定サンプルノイズをようにキャプチャするために、第2ステップ(逆方向またはプルーニングパスとして知られている)は、変数のノットのいくつかを削除します(残りの項で線分を伸ばします)。
このツールはRツールを使用します。オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツール で使用されるパッケージをインストールします。予測ツールのダウンロードと使用 を参照してください。
入力
対象のターゲットフィールドと1つ以上の予測フィールドの候補を含むAlteryxデータストリーム。
ツールの設定
[必須パラメーター]タブを使用して、スプラインモデルの必須コントロールを設定します。
モデル名: 各モデルには後で識別できるように名前を付ける必要があります。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド(.)とアンダースコア(_)を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲットフィールドを選択: 予測するデータストリームからフィールドを選択します。
予測フィールドを選択: ターゲット変数の値が変更される「原因」と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
効果プロットを含めますか?: チェックマークを入れると効果プロットが生成され、他の予測フィールドの固定レベル(数値予測の場合は中央値、係数の場合は最初のレベル)で予測変数とターゲットの関係をグラフィカルに示します。ターゲットに主効果があるフィールドだけを表示するオプション、遠近法プロットを使用してフィールド間の双方向の相互作用効果のみを表示するオプション、そして主効果と双方向の相互作用効果の両方を表示するオプションがあります。
[モデルのカスタマイズ(オプション)]タブを使用して、モデルをより具体的に調整します。
ターゲットタイプとGLMファミリを指定する: サポートされるターゲットフィールドには次の5つのタイプがあります。
連続ターゲット(例えば、インスタンス総数に対する特定の固有値のパーセンテージが比較的低い数値的ターゲット)。
ガンマ分散ターゲット(厳密には正の数値ターゲットであり、かなり低い応答値の高いパーセンテージを持つが、比較的高い数値のパーセンテージは低い)
「カウント」ターゲット(例えば、ほとんどの固有値のインスタンス総数に対するパーセンテージがかなり高い整数値のターゲット。例えば、ある医師の診察室にある患者が1年間で来院する回数)。
バイナリカテゴリターゲット(例えば、「はい/いいえ」のばらつきがあるターゲットフィールド)。
多項式カテゴリターゲット(例えば、「A」、「B」、または「C」などの限られた数の離散的結果を持つターゲットフィールド)。各タイプのターゲットフィールドは、1つ以上の関連する可能な分散関数(アルゴリズムが最小化しようとしている尺度に関連する)を持つことができます。
Each type of target field can have one or more possible associated distribution functions (related to the measure the algorithm is attempting to minimize).
Continuous targets can have either no explicit distribution or Gaussian (in other words, Normal) distribution.
In the case of a Gamma distributed target, the choice is the link function to use (the relationship between the means of the distribution and linear predictor).
Count (integer) targets minimize a loss function based on the Poisson distribution and use either a log (preferred) or identity link function.
Binary categorical targets can use a logit (also used in classical logistic regression), a probit, or a complementary log-log link function.
A multinomial categorical response is treated in a nonstandard way. Specifically, instead of estimating a true multinomial model, a set of binary models (using a logit link function) are estimated. For instance, if the possible responses are "A", "B", or "C", what is estimated is a model of: "A" against any other choice, "B" against any other choice, and "C" against any other choice.
ターゲット変数をスケーリングする: ターゲット変数が連続変数であり、このオプションが選択されている場合、zスコアリング(平均ゼロ、1の標準偏差)の変換が行われ、アルゴリズムのフォワードパス(第1段階)の数値安定性に役立ちます。
ノットの最大数または自動的に決定する(自動): このオプションは、アルゴリズムのフォワードパス(第1段階)の予測フィールドで可能なノット数(スプリット数)を制御します。「オート」を選択した場合は、予測フィールドの数に基づいてノット数が計算されます。フォワードパスの実際のノット数は、しばしば許容される最大値よりも小さくなります。
相互作用の深さ: 予測フィールド間の相互作用のレベル。
双方向の相互作用を有する2つの予測フィールドの場合、1つの予測がターゲットに及ぼす影響は、2つ目の予測因子のレベルに依存します。
3方向相互作用の場合、ターゲット上の予測フィールドの効果は、他の2つの予測フィールドの値に依存します。
最大5方向の相互作用(5の相互作用の深さ)を指定することができます。このパラメーターのデフォルト値は1に設定されています(予測フィールド間に相互作用がないという暗黙の想定)。相互作用の深さを増やすと、モデルの実行時間が大幅に長くなります。
項またはノットごとのペナルティ: 最適化される関数は、最終モデルが推定サンプルデータに匹敵する可能性を減少させるペナルティ構成要素を含みます。デフォルトは、主効果専用モデルの場合は2、2向以上の相互作用が許可されている場合は3です。-1の値はノットや項に適用されてもペナルティを発生しませんが、値0はデフォルトのペナルティを項にのみ適用します。
ノットを追加するために必要なR二乗の最小の改善: この項の値が高ければ高いほど、ノットを追加するために、モデルに対してR二乗の高い改善が必要です。
ノット間の最小距離: 0が選択されている場合、許容される最小距離は式に基づいて計算され、1の値は予測変数の任意の値をノットにします(データにほとんどノイズがない場合のみ有効です)。そうでない場合は、0と1の間の数値を指定して、予測変数の範囲のパーセンテージとして距離を与える必要があります。
新しい変数のペナルティ: モデルに新しい変数を追加するための目的関数に付加された追加のペナルティ項。デフォルトは0(なし)で、この値の範囲は0〜0.5です。ノットや項ごとのペナルティと同様に、目的はオーバーフィットを制御することです
フォワードパスの各ステップで考慮される親項の最大数: この項は、フォワードパスで作成される項の数を制御し、これにより、実行が高速化されます。0の特別な値は項に制限を設けませんが、0より大きい数は最大数の項を指定します。デフォルトは20項で、これに共通の値は20、10、および5です。
高速MARSエージング係数: このパラメーターの説明については、Friedman(1993)のセクション3.1を参照してください。***
クロスバリデーション分析を行う: このオプションを使用すると、アルゴリズムで使用される一般的なクロスバリデーション方法と比較して十分なプルーニングが行われたかどうかのクロスバリデーション評価が可能になります。このオプションが選択されている場合、ユーザーは、個別のクロスバリデーションの実行回数、各クロスバリデーションあたりのフォールド数、クロスバリデーションサンプルを階層化してカテゴリターゲットに対する応答の比較可能なミックスを持つか(例えば、バイナリカテゴリ変数に対する匹敵する数の「はい」および「いいえ」応答の比較可能な数)、およびサンプルを作成するために生成された乱数のランダムなシード値を指定できます。
プルーニング方法: 選択肢は、「後退除去」、「なし」、「網羅的な検索」、「前方選択」、および「順次置換」です。
後退除去(デフォルト)は、フォワードパスで見つかったすべてのノットおよび項で始まり、次に、最も予測性の低い項を最初に削除します(影響を受けた残りの項を適切に調整)。その後、全モデルに対して一般化されたクロスバリデーション測定への影響を比較します。項を削除しても一般化されたクロスバリデーションの測定が改善されない場合は、フォワードパスの後に作成されたモデルが返されます。一般化されたクロスバリデーションの測定が改善されている場合、この項はモデルから削除され、残りの項に対してプロセスが繰り返されます。いずれかの時点で、項を削除しても、最後の反復で作成されたモデルに対して一般化されたクロスバリデーション測定が改善されない場合、プロセスは終了します。
選択肢が「なし」の場合、フォワードパスで見つかったすべての項が最終モデルで使用されます。
網羅的な検索では、前方検索ステップで見つかった項のすべての組み合わせが調べられますが、計算コストは非常に高くなります。
前方選択では、インターセプトを除くすべての項が削除され、フォワードパスで見つかった中で最善の項が決定され、モデルに含まれます(インターセプト専用モデルに対して一般化クロスバリデーション測定が改善されると想定した場合)。このプロセスは、一般化されたクロスバリデーション測定を改善する付加的項が追加されなくなるまで続けられます。
逐次置換では、特定数の項を持つ解において、フォワードパスで見つかった他の可能な残りすべての項で一連のプルーニングパスの項にはすでに含まれていない1つの項に置き換えられます。元の項に対して一般化されたクロスバリデーション測定を改善する新しい項が見つかった場合、元の項は新しい項に置き換えられます。
プルーニングされたモデル内の項の最大数: 0が選択されると(既定)、他の基準に沿ってプルーニングパスで使用された後に残っているすべての項が最終モデルで使用されます。そうでなければ、選択された番号までの最も重要な項のみが最終モデルに保持されます。
Use the Graphics Options tab to set the controls for the graphical output:
Plot size: Select inches or centimeters for the size of the graph.
Graph Resolution: Select the resolution of the graph in dots per inch: 1x (96 dpi), 2x (192 dpi), or 3x (288 dpi).
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
A higher resolution creates a larger file with better print quality.
Base font size (points): Select the size of the font in the graph.
出力の表示
各出力アンカーに閲覧ツールを接続して、結果を表示します。
O アンカー: シリアル化されたモデルのテーブルとそのモデル名で構成されます。
Rアンカー: スプラインモデルツールによって生成されたレポートスニペットで構成されます。基本モデルの要約、変数の重要度プロット(異なる予測フィールドの相対的重要性を示す)、基本モデル診断プロット、および(オプションで)効果プロット。
*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
**Freidman、Jerome H.、『多変量適応回帰スプライン』、スタンフォード大学、1990年8月
***Freidman、Jerome H.、『Fast MARS』、テクニカルレポート102号、スタンフォード大学統計学科、1993年5月