基本データプロファイルツール
ツールごとに学習
基本データプロファイルには、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、このサンプルを含むさまざまなサンプルをAlteryx Designerで直接利用する方法をご確認ください。
基本データプロファイルを使用して、データの概要またはプロファイルを表示し、さらなる分析のために情報を出力します。基本データプロファイルツールは、データを分析し、データの各列(フィールド)にメタデータを提供します。データプロファイルの視覚的な表示を見るには、メタデータに加えて、閲覧ツールを使用します。
ツールの設定
オプションの構成オプションのいずれかを実行します。
正確なカウントの制限: 最高のパフォーマンスを得るには、既定の制限が推奨されます。制限を増やすと、より多くのデータのプロファイル情報が表示されます。テキストを入力するか、上/下ボタンを使用して、データ内でAlteryxに識別させたいユニークな値の最大数を選択します。
すべてのユニーク値(文字)を返す文字数の上限: 最高のパフォーマンスを得るには、既定の制限が推奨されます。制限を増やすと、より多くのデータのプロファイル情報が表示されます。テキストを入力するか、上/下ボタンを使用して、値がユニークであるかどうかを判断するために、Alteryxにチェックさせたい文字の最大数を選択します。
メートル法単位を使用する: メートル法単位を使用する場合に選択します。このオプションは、空間データにのみ適用されます。
出力の表示
接続されたツールのデータのタイプに応じて、結果ウィンドウのデータプロファイル情報が異なります。データ型の一覧については、データ型を参照してください。
結果は垂直方向にリスト化されます。スクロールして、データの各列のメタデータを表示します。
文字列データ
列に文字列が含まれている場合は、次のメタデータが提供されます。
名前 : 列名。
データ型 : 選択された列のデータ型。
サイズ : この列の各レコードに対して予約されているメモリの量。
ソース: 列の起源。これは、データソースの名前またはデータが保存される場所へのパスになります。
説明: 列の説明(使用可能な場合)。説明がない場合は[Null]です。
OK: 列内の値の数に品質問題がありません。例: 先頭または末尾の空白など。
null : 空の値を除く、null の列の値の数。
null 以外の : 空の値を含む、列内の null 以外のエントリの数。
ブランク : 空の値の数。
先頭の空白を持つ値 : 値の前に空白がある文字列値の数。問題を解決するには、データクレンジングツールまたはフォーミュラツールのtrim関数を使用します。詳細については、データクレンジングツールおよびフォーミュラツールを参照してください。
末尾の空白を持つ値 : 値の後に空白がある文字列値の数。
両方に空白がある値: 値の前および後またはその両方に空白がある文字列値の数。
平均長さ : 列の値の平均長。
最長の長さ : 列の最長値の文字数。
最長値 : 列の最長値。
最短 (空白でない) の長さ : 列の最短値の文字数。
最短値 : 列の最短値。
最小: アルファベット順にソートされた列の最初の文字列エントリ。
最大: アルファベット順にソートされた列の最後の文字列エントリ。
ユニーク : フィールド内の一意の値の数。ユニークツールを使用して、ユニークかつ重複したエントリの完全な数を表示します。詳細については、ユニークツールを参照してください。
ユニークな値: 列内のすべてのユニークな値。
数値データ
列に数値が含まれている場合は、次のメタデータが提供されます。
名前 : 列名。
データ型 : 選択された列のデータ型。
サイズ : この列の各レコードに対して予約されているメモリの量。
ソース: 列の起源。これは、データソースの名前またはデータが保存される場所へのパスになります。
説明: 列の説明(使用可能な場合)。説明がない場合は[Null]です。
OK: 列内の値の数に品質問題がありません。例: 先頭または末尾の空白など。
null : 空の値を除く、null の列の値の数。
null 以外の : 空の値を含む、列内の null 以外のエントリの数。
最小 : 列の最小値。
最大 : 列の最大値。
平均 : 列の値の平均値。
合計: 列内の値の合計。
標準偏差 : 値がグラフにどの程度分散されているかを測定します。
分散 : 乱数の集合が平均からどの程度分散しているかの尺度。
ユニーク : フィールド内の一意の値の数。ユニークツールを使用して、ユニークかつ重複したエントリの完全な数を表示します。詳細については、ユニークツールを参照してください。
ユニークな値: 列内のすべてのユニークな値。
25 パーセンタイル : データの下、または最初の半分の中央値。
50 パーセンタイル : データの中央値。
75 パーセンタイル : データの上位、または2番目の半分の中央値。
ヒストグラム: 均等にグループ化されたデータに入る列内の値のカウント。各グループは、コロンで区切られたグループの開始値と値のカウントによって示されます。グループには、次のグループの開始値までで、その開始値を含まない値が含まれます。1:23, 2:15,3:0は、1、2および3から始まる3つのグループを示します。各グループにはそれぞれ23、15、および0の項目があります。
誤差の範囲: 計算値より下または上の可能な範囲の値。
日付/時刻データ
列に日付/時刻データが含まれている場合、次のメタデータが提供されます。
名前 : 列名。
データ型 : 選択された列のデータ型。
サイズ : この列の各レコードに対して予約されているメモリの量。
ソース: 列の起源。これは、データソースの名前またはデータが保存される場所へのパスになります。
説明: 列の説明(使用可能な場合)。説明がない場合は[Null]です。
OK: 列内の値の数に品質問題がありません。例: 先頭または末尾の空白など。
null : 空の値を除く、null の列の値の数。
null 以外の : 空の値を含む、列内の null 以外のエントリの数。
データヒストグラム: (日付データのみ)均等にグループ化されたデータに入る列内の値のカウント。各グループは、コロンで区切られたグループの開始値と値のカウントによって示されます。グループには、次のグループの開始値までで、その開始値を含まない値が含まれます。1:23, 2:15,3:0は、1、2および3から始まる3つのグループを示します。各グループにはそれぞれ23、15、および0の項目があります。
最小 : 列の最小値。
最大 : 列の最大値。
ユニーク : フィールド内の一意の値の数。ユニークツールを使用して、ユニークかつ重複したエントリの完全な数を表示します。詳細については、ユニークツールを参照してください。
ユニークな値: 列内のすべてのユニークな値。
空間オブジェクトデータ
列に空間オブジェクトが含まれている場合は、次のメタデータが提供されます。
名前 : 列名。
データ型 : 選択された列のデータ型。
サイズ : この列の各レコードに対して予約されているメモリの量。
ソース: 列の起源。これは、データソースの名前またはデータが保存される場所へのパスになります。
説明: 列の説明(使用可能な場合)。説明がない場合は[Null]です。
OK: 品質の問題が確認されていない列の値の数。
null : 空の値を除く、null の列の値の数。
null 以外の : 空の値を含む、列内の null 以外のエントリの数。
平均サイズ(バイト): このオブジェクトが占めるメモリ内の平均サイズ。
最大サイズ(バイト): 列内の最大のオブジェクトのメモリ内のサイズ。
カウントポイント: ポイントである列内の空間オブジェクトの数。
カウントライン: ラインである列内の空間オブジェクトの数。
カウントPolyPolyline: ポリラインである列内の空間オブジェクトの数。
カウント矩形: 矩形である列内の空間オブジェクトの数。
カウントポリゴン: ポリゴンである列内の空間オブジェクトの数。
カウントマルチポイント: マルチポイントである列内の空間オブジェクトの数。
平均パーツ数: 列内の空間オブジェクトの平均パーツ数。
最大パーツ数: 列内の空間オブジェクト内の最大パーツ数。
平均ポイント数: 列内の空間オブジェクトの平均ポイント数。
最大ポイント数: 列内の空間オブジェクトの最大ポイント数。
最長の長さ: 列内の空間オブジェクトの最長の長さ。
最大面積: 平方マイルまたは平方キロメートルでの最大面積。