トピックモデリング
トピックモデリングツールを使用して、テキストの本文でトピックを識別および分類します。トピックモデリングツールにデータを渡す前に、アップストリームで テキスト前処理ツール を使用することを考慮してください。
Alteryx Intelligence Suiteが必要です
このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designerに加え、別途のライセンスとアドオンインストーラーが必要です。Designerをインストール後、Intelligence Suiteをインストールし、 無料トライアルを開始 します。
言語サポート
トピックモデリングツールは、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語に対応しています。
ツールコンポーネント
トピックモデリングツールには、3 つのアンカーがあります。
入力アンカー: 入力アンカーを使用して、分析するテキストデータに接続します。
D アンカー: D アンカーを使用して、分析したデータを下流に渡します。
R アンカー: R アンカーを使用して、分析のレポートを閲覧します。
M アンカー: M アンカーを使用して、モデルオブジェクトを下流に渡し、新しいデータと組み合わせて使用できるようにします。モデルオブジェクトは、 予測ツール で利用することができます。
ツールの設定
トピックモデリングツールをキャンバスに追加します。
アンカーを使用して、トピックモデリングツールをワークフローで使用するテキストデータに接続します。
分析する テキストフィールド を選択します。
モデル作成する トピック数 を指定します。
[出力オプション] セクションで、 R アンカーに使用する出力の種類 (下記参照) を選択します。
インタラクティブチャート オプションは、上位 30 の最も顕著な用語とトピック間の距離マップの 2 つのグラフを含むインタラクティブなレポートを作成します。
単語関連性サマリー オプションは、モデルに対する各用語の顕著性と各トピックとの関連性の測定値を含む静的レポートを作成します。
[辞書オプション] と [LDA オプション] は既定値です。これらのオプションの詳細については、以下の「詳細オプション」セクションを参照してください。
ワークフローを 実行 します。
リソース
このツールは、潜在的ディリクレ配分法 (LDA) を使用してトピックを識別します。ここでは、 LDA アルゴリズム 、それに 顕著性 と 関連性 の概念に関するリソースをいくつか紹介します。
詳細オプション
トピックモデリングツールには、いくつかの詳細オプションがあります。
辞書オプション
名前 | 説明 | オプション | 推奨オプション |
---|---|---|---|
最小頻度 | 最小頻度 は、本文に出現する単語の頻度の最小値で、この値よりも出現頻度の低い単語は無視されます。頻度は、単語が含まれる本文の数を、その本文が存在するドキュメントの総数で割って求められます。 |
| 1% |
最大頻度 | 最大頻度 は、本文に出現する単語の頻度の最大値で、この値より出現頻度が高い単語は無視されます。頻度は、単語が含まれる本文の数を、その本文が存在するドキュメントの総数で割って求められます。 |
| 80% |
最大単語表示数 | 最大単語表示数 は、すべてのドキュメントを通して単語がどの程度の頻度で出現したら、トピックモデリングツールのアルゴリズムで考慮するかの単語数を指定します。 |
| 0 |
LDA オプション
名前 | 説明 | オプション | 推奨オプション |
---|---|---|---|
Alpha | Alpha は、各ドキュメントでアルゴリズムが見込むトピック密度を表します。 Alpha を増やすと、アルゴリズムはドキュメントでより多くの異なるトピックを認識できるようになります。 Alpha を減らすと、アルゴリズムが各ドキュメントで認識するトピックの数が制限されます。 | 数値 | なし |
Eta | Eta は、トピックを構成するために必要な単語の密度を表します。 Eta を増やすと、トピックを識別するために必要な単語数が増えます。 Eta を減らすと、トピックを識別するために必要な単語数が減ります。 | 数値 | >= 0 |
出力
D アンカーは、トピックごとに新しい列を出力します。列は、各トピックが各行に関連付けられたテキストに表示される度合いを表します。トピック列の値が高いほど、テキストとそのトピックとの関連付けが強い可能性があります。 R アンカーは、選択内容に基づいて次の2つのレポートのいずれかを出力します。
[インタラクティブチャート] : 閲覧ツール で表示できる、モデルのインタラクティブな可視化資料が出力されます。インタラクティブチャートは、トピック間の距離を示すマップと評価のための指標という2つの部分で構成されています。トピック間の距離を示すマップは、特定されたトピックがどの程度類似しているかを示しています。
[単語関連性サマリー] を選択すると、トピックモデルに含まれる単語と、関連性とサリエンシーの指標が返されます。サリエンシーは、テキスト全体で単語がどの程度頻出しているかを示します。関連性は、トピック内で単語を並べ替えるために使用される指標で、各トピックに最も適した単語を特定するのに役立ちます。指定したトピックの値が大きいほど、そのトピックでのその単語の重要性が高くなります。
M アンカーは、新しいデータと組み合わせて使用できるように、モデルオブジェクトを下流に出力します。モデルオブジェクトは、 予測ツール で利用することができます。