回帰ツール

ユーザーロール

ユーザーロール*	ツールの利用可否
フルユーザー(アドオンが必要)	✓
ベーシックユーザー	X

*Alteryx Oneプロフェッショナルエディションおよびエンタープライズエディションをご契約中で、Designerバージョン2025.1以降をお使いのお客様に適用されます。

回帰ツールを機械学習パイプラインの一部として使用して、傾向を特定します。このツールには、モデルのトレーニングに使用できるいくつかのアルゴリズムが用意されています。このツールでは、多数のパラメーターを使用してモデルを調整することもできます。

Alteryx Intelligence Suiteが必要です

このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designerに加え、別途のライセンスとアドオンインストーラーが必要です。Designerをインストール後、Intelligence Suiteをインストールし、無料トライアルを開始します。

ツールの設定

このセクションでは、回帰ツールの設定方法について説明します。

アルゴリズムの選択

使用するアルゴリズムを選択します。 線形回帰 、 決定木 、 ランダムフォレスト の中から選択します。

パラメーターの設定

パラメータを設定します。各アルゴリズムには、特定のパラメーターがあります。各アルゴリズムには、一般パラメーターと詳細パラメーターの両方があります。一般パラメーターを使用すると、初心者でも正確なモデルを作成することができます。詳細パラメーターは、モデルの精度を向上させることができますが、その機能について深い理解が必要です。

各アルゴリズムのテーブルを参照して、各パラメーターの機能を確認します。

線形回帰

名前	説明	オプション	既定
fit_intercept	線形回帰モデルの切片をアルゴリズムで計算するかどうかを決定します。「定数」とも呼ばれる切片は、 x が 0 の場合に予想される y の平均値です。	有効無効	有効
normalize	アルゴリズムでターゲットを正規化するかどうかを決定します。正規化は、ターゲットを他のデータと共通のスケールで比較できるように調整するため、データ内の関連付けを識別するのに役立ちます。	有効無効	有効

決定木

名前	説明	オプション	既定
criterion	criterion パラメーターを使用して、決定木アルゴリズムがどれだけ正確にデータを異なるノードに分割できるかを測定する方法を選択します。	平均二乗誤差 friedman_mse 平均絶対誤差 (MAE)	平均二乗誤差
Max Depth	max_depth (ツリーの最大深度) は、ルートからツリーのリーフまでの最長パスです。深さが大きい木ほど分割が多く、データに関する情報をより多く捉えます。	none : ノードは、すべてのリーフノードがなる (すなわち、単一のクラスに属するデータで完全に構成される) まで、またはすべてのリーフノードが min_samples_spilit パラメーターで指定した値未満になるまで展開します。 int : 分割による拡張を制限します。	none
max_features	Max Features は、最良の分割を求めるときに決定木が考慮する特徴量の数を設定します。	Auto : データセットの全特徴量数に等しい特徴量の数を求めます。 None : データセットの全特徴量数に等しい特徴量の数を求めます。 Square Root : データセットの全特徴量数の平方根に等しい特徴量の数を求めます。 Log2 : 全特徴量数の log2 に等しい特徴量の数を求めます。 int : 各分割で、ユーザーが選択した数に等しい特徴量の数を求めます。 float : 全特徴量のうち、ユーザーが選択した割合に等しい特徴量の数を求めます。	自動
max_leaf_nodes	max_leaf_nodes は、アルゴリズムが生成できる決定木におけるリーフノードの総数の上限です。最良優先方法による最大数までノードを増加させます。このアルゴリズムは、不純度減少の能力に基づき、どのノードが最適かを判断します。 criterion パラメーターを使用して、不純度減少を測定する方法を指定します。	int (任意の整数) または none	なし
Min Impurity Decrease	min_impurity_decrease は、決定木が新しいノードに分割するために必要な不純度減少量の最小閾値を設定します。したがって、分割は min_impurity_decrease に同等あるいは不純度がそれより大きく上回ると発生します。 criterion パラメーターを使用して、不純度減少を測定する方法を指定します。	任意の浮動小数点数	0.0
Min Samples Split	min_samples_spilit は、決定木が新しいノードに分割するために必要なサンプル数の最小閾値を設定します。アルゴリズムは最小で1つのサンプル、あるいは最大ですべてのサンプルを考慮します。	任意の整数または小数	Integer : 2
Min Weight Fraction Leaf	min_weight_fraction_leaf は、決定木が新しいノードに分割するために必要な重みの最小閾値を設定します。この閾値は、すべてのサンプルの総重量の最小割合と等しくなります。決定木アルゴリズムは、既定で重みと同等に見なされます。	任意の浮動小数点数	0.0
Presort	このパラメーターを使用してデータを事前にソートします。これにより、アルゴリズムが最良の分割を迅速に検出することができます。	有効無効	無効
Random Seed	Random Seed は、擬似乱数シーケンスを生成するための初期値を指定します。 None を選択すると、乱数ジェネレーターが初期値を選択します。	Seed なし	Seed : 10
Splitter	Splitter は、ノードでの分割に使用されるストラテジーです。オプションには、best 分割と random 分割があります。このアルゴリズムは、不純度減少の能力に基づき、どのノードが最適かを判断します。	best : このオプションでは、より多くの計算能力が必要なため、過学習のリスクがあります。 random : 特定の関連付けの信号が小さい場合、このオプションはツリーを通してパスを検出します。	best

ランダムフォレスト

名前	説明	オプション	既定
bootstrap	バギングの基礎である bootstrap は、トレーニングのためにデータセットをサンプリングするために使用される方法です。この方法は、初めて見る新しいデータをシミュレートするため、データセットの subsample の作成を繰り返し、モデルの汎化性能を向上するために使用します。	有効無効	有効
criterion	criterion パラメーターを使用して、ランダムフォレストアルゴリズムが、どれだけデータをランダムフォレストの木の多くを形成する異なるノードに分割できるかを測定する方法を選択します。	平均二乗誤差 friedman_mse 平均絶対誤差 (MAE)	平均二乗誤差
Max Depth	max_depth (ツリーの最大深度) は、フォレスト内の各ツリーのルートからリーフまでの最長パスです。深さが大きい木ほど分割が多く、データに関する情報をより多く捉えます。	none : ノードは、すべてのリーフノードがなる (すなわち、単一のクラスに属するデータで完全に構成される) まで、またはすべてのリーフノードが min_samples_spilit パラメーターで指定した値未満になるまで展開します。 int : 分割による拡張を制限します。	none
max_features	max_features (特徴量の数) は、フォレスト内の各決定木が最良の分割を求めるときに考慮する特徴量の数を設定します。	Auto : データセットの全特徴量数に等しい特徴量の数を求めます。 None : データセットの全特徴量数に等しい特徴量の数を求めます。 Square Root : データセットの全特徴量数の平方根に等しい特徴量の数を求めます。 Log2 : 全特徴量数の log2 に等しい特徴量の数を求めます。 int : 各分割で、ユーザーが選択した数に等しい特徴量の数を求めます。 float : 全特徴量のうち、ユーザーが選択した割合に等しい特徴量の数を求めます。	自動
Min Impurity Decrease	min_impurity_decrease は、決定木が新しいノードに分割するために必要な不純度減少量の最小閾値を設定します。したがって、分割は min_impurity_decrease に同等あるいは不純度がそれより大きく上回ると発生します。 criterion パラメーターを使用して、不純度減少を測定する方法を指定します。	任意の浮動小数点数	0.0
Min Samples Split	min_samples_spilit は、決定木　(ランダムフォレスト内) が新しいノードに分割するために必要なサンプル数の最小閾値を設定します。アルゴリズムは最小で1つのサンプル、あるいは最大ですべてのサンプルを考慮します。	任意の整数または小数	Integer : 2
Min Weight Fraction Leaf	min_weight_fraction_leaf は、決定木が新しいノードに分割するために必要な重みの最小閾値を設定します。この閾値は、すべてのサンプルの総重量の最小割合と等しくなります。ランダムフォレストアルゴリズムは、既定で重みと同等に見なされます。	任意の浮動小数点数	0.0
Number of Estimators	n_estimators (推定値の数) は、フォレストの一部として作成するツリーの数です。	任意の整数	100
Random Seed	Random Seed は、擬似乱数シーケンスを生成するための初期値を指定します。 None を選択すると、乱数ジェネレーターが初期値を選択します。	int : 乱数ジェネレーターの整数を選択します。 none : 反復可能性がありません。	Seed : 10

このセクションの内容: