Skip to main content

Icons.png 数据清理专业工具

仅限 AMP

数据清理专业工具仅在使用 AMP Engine 时可用。与原始数据清理工具(作为宏构建)不同,“数据清理专业版”是为 AMP Engine 原生构建,可显著提升性能。

(新增):此标签表示相对于原始的数据清理工具所做的改进。

使用“数据清理专业版”修复常见的数据质量问题。您可以替换 null 值、移除标点符号和 HTML 标记、修改大小写等!

重要

现有的数据清理工具仍然可用,并且会继续在现有的工作流程中发挥作用。

工具组件

data-cleanse-pro-anchors.png

数据清理专业版工具具有 2 个锚点。

  • 输入锚点:使用输入锚点来连接需要清理的数据。

  • 输出锚点:输出锚点会输出清理后的数据。

配置工具

使用数据清理专业版配置窗口确定如何管理数据质量问题。

移除 Null 数据

选择一个或两个复选框,以删除包含 null 数据的整行和整列。

重要

这些选项是在所有其他清理步骤之后应用的,以确保在与替换为 Null 值选项结合使用时输出结果保持一致。如果要从初始输入中移除 Null 数据,请勿同时使用“移除 Null 数据”和“替换为 Null 值”选项。

  • Null 行

    • 移除所有在每一列中都为 null 的行。

    • 此选项不会移除仅具有空字符串值的行。

    • 一条消息显示已移除的行数。

  • Null 列

    • 移除所有在每一行中都为 null 的列。

    • 此选项不会移除仅具有空字符串值的列。

    • 一条消息显示已移除的列数。

选择要清理的列

使用此部分可选择要清理的列。这些列的内容源自工具的输入连接。标识列名称,类型标识列的数据类型(V_String、Byte、Double、Int32 等)

  • 您可以使用“全选”复选框选择所有列,或者选择与单个列关联的复选框,以选择要清理的特定列。

  • 使用“搜索”输入字段按名称搜索特定列。

  • 选择“类型”旁边的筛选器图标,以筛选此表中具有特定数据类型的列。

  • 默认情况下,将选中所有列,(新增)数据类型将包含在内。(新增)默认情况下,“未知”列也会被选中,并允许在数据中添加新列。

移除字符

在此部分中选择要从上一部分所选列中移除的特定字符类别。以下多个示例均将此作为输入:

表 3. 数据清理专业版输入示例

输入

内容

1

     Hello , Alteryx Community!     

2

W e ekly Challe nges

3

Help Documentation !



  • 前导和尾随空格:此选项默认处于选中状态。移除字符串开头和结尾处的空格,包括制表符和换行符。

    输出

    内容

    1

    Hello , Alteryx Community!

    2

    W e ekly Challe nges

    3

    Help Documentation !

  • 制表符、换行符和重复空格:将字符串中任意位置的所有连续空格、制表符和其他空白字符替换为单个空格。

    输出

    内容

    1

    Hello , Alteryx Community!

    2

    W e ekly Challe nges

    3

    Help Documentation !

  • 所有空格:移除字符串中任意位置的所有空格。

    输出

    内容

    1

    Hello,AlteryxCommunity!

    2

    WeeklyChallenges

    3

    HelpDocumentation!

  • (新增)HTML 标记:移除尖括号中的 HTML、XML 及其他标记。仅保留括号内的纯文本内容。例如,输入 <h1>Alteryx</h1>,结果为 Alteryx

    输入示例:

    <div class="ExternalClass683BD308D77E4320B52BF37E72FF5C00"><html>
    <p>HD - Request to update several receiver fields - agreed to unlock file to allow for receiver edits - changes will be noted in notes field<br></p>
    </html></div>

    输出示例:

    HD - 请求更新多个接收方字段 - 同意解锁文件以允许对接收方信息进行编辑 - 更改内容将记录在备注字段中

    重要

    包含尖括号(< 和 >)的文本被解释为包含标记。这意味着即便是使用 < > 编写的非 HTML 内容(如比较表达式或数学公式)也可能受到影响。

    例如......

    • 输入:3 < 5 and 3 > 1

    • 输出:3 1:文本 < 5 and 3 > 被视为标签并予以移除。

    为避免这种情况,请考虑用其他符号替换尖括号(例如,使用 &lt;&gt;,或者使用圆括号)。

  • (新增)不可见字符:移除所有不可见的格式化标记字符,例如不可见的分隔符、断词控制符,以及 Unicode 编码 U+200B(零宽空格)和 U+00AD(软连字符)等。此选项在字段看似为空但实际上并非真正空白时非常有用。

    当结果窗口中的数据质量指标显示存在看似为空但实际上不易察觉的值时,这一功能尤为实用。

  • 字母:移除所有字母,包括非拉丁字母,如 A b Z À é ö。使用(新增)例外字段输入不应移除的字母(如果有)(区分大小写,不使用分隔符)。检查 Unicode ICU 字母类别

    • 大写字母:A、B、C、Α、Б

    • 小写字母:a、b、c、α、б

    • 首字母大写字母:Dž、Lj、Nj(特殊的首字母大写字母)

    • 修饰字母:ʰ、ˠ、ˡ(语音或修饰字母)

    • 其他字母:क、日、ש(既不是大写也不是小写的字母)

  • 数字:移除所有数字。使用(新增)例外字段输入不应移除的数字(如果有)。检查 Unicode ICU 数值:

    • 十进制数字:0-9、١、۲(标准数字)

    • 字母数字:Ⅳ、Ⅶ、ↀ(罗马数字等)

    • 其他数字:½、²、¾(分数或上标)

  • 标点符号和特殊字符:根据 ICU 采用的 Unicode 标点和符号定义,移除所有标点符号和特殊字符。若有不应移除的标点符号,可使用(新增)例外字段输入这些符号。

    在 Unicode 中,所有标点符号字符都属于标点符号类别:

    • 连接符标点:_、‿、⁀(下划线等)

    • 破折号标点符号:-、—、-(连字符、破折号)

    • 左括号类标点符号:(、[、{(左括号)

    • 右括号类标点符号:)、]、}(右括号)

    • 起始引号类标点符号:"、‘(左引号)

    • 结束引号类标点符号:"、’(右引号)

    • 其他标点符号:!、? 、;(其他)

    字符被归类在符号这一通用类别下,包括:

    • 数学符号:类似于 +、-、= 和 ∞ 等字符。

    • 货币符号:类似于 $、€、¥ 和 £ 等字符。

    • 修饰符符号:类似于 ^、˜ 等字符,以及用于音标标注的变音符号。

    • 其他符号:包括 ©、® 和表情符号等各种符号。

替换字符串列

确定如何处理字符串列中的数据质量问题。该复选框默认处于选中状态,但此操作是可选的。

  • 将 Null 值替换为空白:将 null 值替换为空白字符串值。空白值指的是 " " 而非 [Null]。此选项默认选中。

  • (新增)将空白替换为 Null 值将空白字符串值替换为 null 值。空白值指的是 " " 而非 [Null]。这是与上一个选项相反的操作,可将空列标准化为真正的 null 值。

替换数字列

确定如何处理数字列中的数据质量问题。该复选框默认处于选中状态,但此操作是可选的。

  • 将 Null 值替换为 0:将 null 值替换为 0(零)。此选项默认选中。

  • (新增)将 0 替换为 Null 值:将 0(零)替换为 null 值。这与上一个选项相反。

修改大小写

选中修改大小写复选框以激活“修改大小写”下拉列表。请选择以下任一选项:

  • 大写:将字符串中的所有字母转换为大写。

  • 小写:将字符串中的所有字母转换为小写。

  • 词首字母大写:将字符串中所有单词的第 1 个字母转换为大写字母。