Skip to main content

Icons.png データクレンズProツール

AMPのみ

データクレンズProはAMP Engineからのみ使用できます。マクロである従来のデータクレンジングツールとは異なり、データクレンズProはAMP Engine用にネイティブに構築されており、大幅なパフォーマンスの向上を実現しています。

(新規): このラベルは、従来のデータクレンジングツールからの機能拡張を示します。

データクレンズProを使用して、一般的なデータ品質の問題を修正します。null値の置換、句読点とHTMLタグの削除、大文字の変換などを行うことができます。

重要

既存のデータクレンジングツールも引き続き使用でき、既存のワークフローでも継続して機能します。

ツールコンポーネント

data-cleanse-pro-anchors.png

データクレンズProツールには2つのアンカーがあります。

  • 入力アンカー: 入力アンカーを使用して、クリーンアップするデータに接続します。

  • 出力アンカー: 出力アンカーを使用して、クリーンアップされたデータを出力します。

ツールの設定

データクレンズPro設定ウィンドウを使用して、データ品質の問題をどのように管理するかを決定します。

Nullデータを削除

いずれかまたは両方のチェックボックスを選択して、Nullデータの行と列全体を削除します。

重要

これらのオプションは、[ Nullと置換]のオプションと組み合わされたときの出力に一貫性を確保するため、他のすべてのクレンジングステップの後に適用されます。初期入力からNullデータを削除したい場合は、[Nullデータを削除]オプションと[Nullと置換]オプションを同時に使用しないでください。

  • Null行:

    • すべての列でnull値がある行をすべて削除します。

    • このオプションでは、空の文字列値のみを持つ行は削除されません。

    • 削除された行数を示すメッセージが表示されます。

  • Null列:

    • すべての行でnull値がある列をすべて削除します。

    • このオプションでは、空の文字列値のみを持つ列は削除されません。

    • 削除された列数を示すメッセージが表示されます。

クレンジングする列を選択

このセクションを使用して、クレンジングする列を選択します。これらの列は、ツールの入力接続から自動入力されます。[]は列名を識別し、[タイプ]は列のデータ型を識別します(V_String、Byte、Double、Int32など)。

  • [すべて選択]チェックボックスを使用してすべての列を選択するか、各列のチェックボックスを使用して、クリーンアップする特定の列を選択できます。

  • [検索]入力フィールドに名前を入力して、特定の列を検索することもできます。

  • [タイプ]の横にあるフィルターアイコンを選択して、特定のデータ型を持つ列でこのテーブルをフィルタリングします。

  • 既定ではすべての列が選択され、(新規)データ型が含まれています。(新規)不明な列も既定で選択されており、データの新しい列を許可します。

文字を削除

このセクションを使用して、前のセクションで選択した列から削除したい特定の文字カテゴリを選択します。以下のいくつかの例は、これを入力として使用しています。

表3 データクレンズProの入力例

入力

コンテンツ

1

     Hello , Alteryx Community!     

2

W e ekly Challe nges

3

Help Documentation !



  • 先頭と末尾の空白: このオプションは既定で選択されています。文字列の先頭と末尾にあるタブや改行を含む空白を削除します。

    出力

    コンテンツ

    1

    Hello , Alteryx Community!

    2

    W e ekly Challe nges

    3

    Help Documentation !

  • タブ、改行、重複した空白: 文字列内の任意の位置にあるすべての連続するスペース、タブ、またはその他の空白文字を1つのスペースに置き換えます。

    出力

    コンテンツ

    1

    Hello , Alteryx Community!

    2

    W e ekly Challe nges

    3

    Help Documentation !

  • すべての空白: 文字列内の任意の位置にあるすべての空白を削除します。

    出力

    コンテンツ

    1

    Hello,AlteryxCommunity!

    2

    WeeklyChallenges

    3

    HelpDocumentation!

  • (新規) HTMLタグ: 山括弧で囲まれたHTML、XML、その他のタグを削除します。括弧内のプレーンテキストコンテンツのみを残します。例えば、<h1>Alteryx</h1>の入力は、Alteryxと出力されます。

    入力例:

    <div class="ExternalClass683BD308D77E4320B52BF37E72FF5C00"><html>
    <p>HD - Request to update several receiver fields - agreed to unlock file to allow for receiver edits - changes will be noted in notes field<br></p>
    </html></div>

    出力例:

    HD - 複数の受信者フィールドの更新を要求 - ファイルのロックを解除して受信者による編集を許可することに同意 - 変更はメモフィールドに記録される

    重要

    山括弧(<と>)を含むテキストは、タグを含んでいるものとして解釈されます。これは、例えば比較や数式など、< >を使用して記述された非HTMLコンテンツでも影響を受ける可能性があることを意味します。

    例:

    • 入力: 3 < 5と3 > 1

    • 出力: 3 1: テキスト< 5と3 >はタグとして扱われ、削除されます。

    これを防ぐには、山括弧を別の記号(例えば、&lt;&gt;、または括弧を使用)に置き換えることを検討してください。

  • (新規)不可視文字: 不可視の区切り記号、word-breakのコントロール、UnicodeエンコーディングU+200B (ゼロ幅スペース)、U+00AD (ソフトハイフン)など、不可視の書式設定マーカー文字をすべて削除します。このオプションは、フィールドが空白のように表示されているものの、実際には空白ではない場合に便利です。

    これは、結果ウィンドウのデータ品質インジケーターに、気付けないような空の値が表示される場合に特に便利です。

  • 文字:「A b Z À é ö」のような非ラテンアルファベット文字を含むすべての文字を削除します。削除すべきでない文字がある場合、(新規) [次を除く]フィールドに入力します(大文字と小文字を区別、区切り記号を使用しない)。Unicode ICUのアルファベットカテゴリは次のとおりです。

    • 大文字: A、B、C、A、Б

    • 小文字: a、b、c、α、б

    • タイトルケース文字: Dž、Lj、Nj (タイトルケースの特殊文字)

    • 修飾文字: ʰ、ˠ、ˡ (音声記号または修飾文字)

    • その他の文字: क、日、ש (大文字、小文字以外)

  • 数字: すべての数値を削除します。削除すべきでない数字がある場合、(新規) [次を除く]フィールドに入力します。Unicode ICU数値は次のとおりです。

    • 10進数: 0-9、١、۲ (標準の数字)

    • 文字数字: Ⅳ、Ⅶ、ↀ (ローマ数字など)

    • その他の数字: ½、²、¾ (分数、上付き文字)

  • 句読点と特殊文字: ICUライブラリで使用されるUnicode句読点と記号の定義に基づいて、句読点と特殊文字をすべて削除します。削除すべきでない句読点がある場合、(新規) [次を除く]フィールドに入力します。

    Unicodeでは、すべての句読文字が句読記号カテゴリに分類されます。

    • 接続句読記号: _、‿、⁀ (アンダースコアなど)

    • ダッシュ句読記号: -、—、‒ (ハイフン、ダッシュ)

    • 開き句読記号: (、[、{ (開き括弧)

    • 閉じ句読記号: )、]、} (閉じ括弧)

    • 開始引用符句読記号: "、‘ (左引用符)

    • 終了引用符句読記号: "、' (右引用符)

    • その他の句読記号: ! 、? 、; (その他)

    次の文字は記号一般カテゴリに分類されます。

    • 数学記号: +、−、=、∞などの文字。

    • 通貨記号: $、€、¥、£などの文字。

    • 修飾記号: ^、˜、発音表記に使用されるアクセントなどの文字。

    • その他の記号: ©、®、絵文字を含むさまざまな記号。

文字列の列を置換

文字列の列のデータ品質問題を処理する方法を決定します。このチェックボックスは既定で選択されていますが、この操作はオプションです。

  • Nullを空白で置換: null値を空の文字列値に置き換えます。空白は null ではなく " " として登録されます。このオプションは、既定で選択されています。

  • (新規)空白をNullで置換: 空の文字列値をnull値に置き換えます。空白は null ではなく " " として登録されます。これは前のオプションの逆で、空の列を真のnullとして標準化するために役立ちます。

数値列を置換

数値列のデータ品質問題を処理する方法を決定します。このチェックボックスは既定で選択されていますが、この操作はオプションです。

  • Nullを0で置換: null値を0 (ゼロ)に置き換えます。このオプションは、既定で選択されています。

  • (新規) 0をNullで置換: 0 (ゼロ)をnull値に置き換えます。これは前のオプションの逆です。

大文字/小文字の変換

[大文字/小文字の変換]チェックボックスをオンにして、[大文字/小文字の変換]ドロップダウンを有効にします。次のオプションのいずれかを選択します。

  • 大文字: 文字列内のすべての文字を大文字に変換します。

  • 小文字: 文字列内のすべての文字を小文字に変換します。

  • タイトル文字: 文字列内のすべての単語の最初の文字のみが大文字になるよう変換します。