精确匹配工具

精确匹配工具对字符串数据执行类似模糊匹配的操作，将同一短语的不同变体标准化为单个值。如果数据包含同一短语的多种拼写（例如，color 和 colour，或 US 和 United States），可使用精确匹配工具。

注意

GenAI 工具当前处于公共预览状态。了解如何加入公开预览并开始使用 AI 赋能的工作流！

工具组件

精确匹配工具有 5 个锚点（3 个输入和 2 个输出）：

在画布上添加精确匹配工具。
将 D 输入锚点连接到要在工作流中使用的分类字符串数据。请注意，精确匹配工具仅适用于分类数据（例如，名称或地点）。
（可选）将 R 输入锚点连接到包含标准化短语列表的参考数据集。如果您偏好使用标准化短语，请使用此锚点。否则，LLM 会根据其内置的提示词自主决策。
将 M 输入锚点连接到 LLM 覆盖工具。
从选择字段下拉菜单中选择包含要标准化的数据的列。
在您希望如何输出结果？部分，您可以选择…
- 替换所选列：用标准化短语替换您选择的列。
- 附加为新列：在数据集中创建一个包含标准化短语的新列。（可选）输入新列的名称。
（可选）如果您的输入数据未发生变化，且希望使用缓存的映射表，请选择使用缓存的映射表？复选框。在处理工作流的其他部分时，使用此选项可减少 LLM 请求。
（可选）如果您的工作流包含动态输入，且希望避免 LLM 请求可能过高，可以设置一个行计数阈值，超过该阈值时工作流会停止并报错。在如果类别数量超过以下值则报错参数中输入行阈值。
运行工作流。

精确匹配工具包含 2 个输出锚点，均以两种方式将标准化短语传递至下游：

D 输出锚点将匹配的输入数据传递至下游。根据您在您希望如何输出结果？部分中选择的选项，D 输出锚点...
- 当选择替换所选列时，使用标准化短语更新所选字符串列。
- 当选择附加为新列时，在数据中附加标准化短语。
M 输出锚点包含 LLM 用于标准化数据的映射表。映射表包含原始字符串值列和标准化字符串值列。

本节内容如下: