自動機械学習
警告
Intelligence Suite の自動機械学習ツールはバージョン 2022.1 にて廃止されました。同様の自動機械学習機能は、 Alteryx Machine Learning から引き続きご利用いただけます。
自動機械学習を機械学習パイプラインの一部として使用して、データのモデルを自動的に構築します。このツールには、分類法と回帰法の両方に対応する複数のアルゴリズムが用意されています。これらのアルゴリズムは、トレーニング済みモデルを出力する前に、互いに比較して評価されます。
Alteryx Intelligence Suiteが必要です
このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designerに加え、別途のライセンスとアドオンインストーラーが必要です。Designerをインストール後、Intelligence Suiteをインストールし、 無料トライアルを開始 します。
ツールコンポーネント
自動機械学習ツールには、2 つのアンカーがあります。
入力アンカー: 入力アンカーは、自動機械学習ツールを使用してモデル化したいデータを接続します。
出力アンカー: 出力アンカーは、パフォーマンスメトリックが関連付けられているモデルオブジェクトをダウンストリームに渡します。
ツールの設定
自動機械学習ツールを使用するには、どのターゲットを予測したいか、どの機械学習手法を使用したいかのオプションを設定する必要があります。
1. ターゲット
ドロップダウンからオプションを選択します。選択肢には、入力したデータのすべての列が含まれます。各列のデータ型が名前の横に表示されます。
2. 機械学習手法
自動機械学習ツールは、選択したターゲットに基づいて最適な機械学習手法を自動的に選択します。使用可能な機械学習手法は、回帰と分類です。機械学習手法を手動で選択することもできます。
回帰法は、GDP 成長の予測など、データのトレンドラインを見つけることを目標とする問題を解決します。回帰アルゴリズムを使用して、イベント間の関連付けを記述することもできます。例えば、この手法を使用して、会社の営業担当者の人数に対して会社の売上が増加しているかどうかを調べることができます。
分類法は、花が属する種類のように、データが属するカテゴリを特定することを目的とした問題を解決します。分類の問題は、2 つのカテゴリを持つ 2 値分類か、3 つ以上のカテゴリを持つ多クラス分類のいずれかです。多くの場合、分類の各種問題を解決するためにさまざまなアルゴリズムが使用されます。
詳細パラメーターを設定
自動機械学習ツールにはさまざまなオプションがあり、それを設定すると、ツールでアルゴリズムを評価・選択する方法を変更して、最適な機械学習モデルを構築できます。
1. 目的関数
目的関数を選択して、モデルのパフォーマンスを最適化します。ドロップダウンで、ツールで最適化したい尺度を選択します。
目的関数は、ツールが評価するモデルのランキングを判断するために使用するものです。目的関数は、モデルが使用事例でどの程度最適かを判断するために使用できる尺度です。
2. アルゴリズム
自動モデリングのプロセスの一部として評価するアルゴリズムの種類を選択します。複数のオプションを選択できます。選択するタイプが多いほど、ワークフローの実行に時間がかかります。評価したい各アルゴリズムの横にあるチェックボックスをオンにします。
ランダムフォレスト : ランダムフォレストアルゴリズムは、ランダムに生成された決定木の集合の結果を使用してモデルをトレーニングします。このアルゴリズムは、クラス間の非線形関連付けをモデリングする場合に最適に機能します。アンサンブルメソッドは、過学習と学習不足の問題を回避してくれますが、計算コストは高いです。
XGBoost : XGBoost アルゴリズムは、ランダムに生成された決定木の集合の結果を使用してモデルをトレーニングします。このアルゴリズムのブースト機能 (決定木が相互に改善される方法) により、過学習や学習不足の影響を受けにくくなっています。XGBoost アルゴリズムは、さまざまな特徴量を使用してモデルをトレーニングする場合に最も役立ちます。
線形 : 線形アルゴリズムは、データを通る線を描画し、最適なモデルを見つけるか、グループに分割することによってモデルをトレーニングします。このアルゴリズムは、線形の関連付けや傾向をモデリングする場合に最適に機能します。計算効率は高くなる傾向がありますが、学習不足の影響を受けやすいです。
CatBoost : CatBoost アルゴリズムは、決定木の集合の結果を使用してモデルをトレーニングします。このアルゴリズムは、XGBoost と同様、ブーストメソッドを使用しますが、過学習の傾向はさらに少なくなります。このアルゴリズムは、XGBoost に比べて、計算コストははるかに高いです。
3. 評価する最大モデルパイプライン数
選択したアルゴリズムを使用して、自動機械学習ツールで構築したいパイプラインの数を入力し、目的関数に基づいて評価します。1 - 50 個のパイプラインを評価できます。
4. データチェックを有効化
データチェックを有効にするには、このセクションのチェックボックスをオンにします。 EvalML から既定のデータチェックを使用します。