Skip to main content

precision_match_icon.png 精确匹配工具

精确匹配工具对字符串数据执行类似模糊匹配的操作,将同一短语的不同变体标准化为单个值。如果数据包含同一短语的多种拼写(例如,color 和 colour,或 US 和 United States),可使用精确匹配工具。

注意

GenAI 工具当前处于公共预览状态。了解如何加入公开预览并开始使用 AI 赋能的工作流!

工具组件

精确匹配工具有 5 个锚点(3 个输入和 2 个输出):

  • M 输入锚点:使用 M 输入锚点连接来自 LLL 覆盖工具的模型连接设置。

  • D 输入锚点:使用 D 输入锚点连接要标准化的字符串数据。

  • R 输入锚点(可选):使用 R 输入锚点连接到参考数据集,其中包含想要 LLM 使用的标准化短语。

  • D 输出锚点:使用 D 输出锚点将匹配的输入数据传递到下游。

  • M 输出锚点:使用 M 输出锚点将 LLM 输出的映射表传递至下游。

配置工具

  1. 在画布上添加精确匹配工具。

  2. D 输入锚点连接到要在工作流中使用的分类字符串数据。请注意,精确匹配工具仅适用于分类数据(例如,名称或地点)。

  3. (可选)将 R 输入锚点连接到包含标准化短语列表的参考数据集。如果您偏好使用标准化短语,请使用此锚点。否则,LLM 会根据其内置的提示词自主决策。

  4. M 输入锚点连接到 LLM 覆盖工具。

  5. 选择字段下拉菜单中选择包含要标准化的数据的列。

  6. 您希望如何输出结果?部分,您可以选择…

    • 替换所选列:用标准化短语替换您选择的列。

    • 附加为新列:在数据集中创建一个包含标准化短语的新列。(可选)输入新列的名称。

  7. (可选)如果您的输入数据未发生变化,且希望使用缓存的映射表,请选择使用缓存的映射表?复选框。在处理工作流的其他部分时,使用此选项可减少 LLM 请求。

  8. (可选)如果您的工作流包含动态输入,且希望避免 LLM 请求可能过高,可以设置一个行计数阈值,超过该阈值时工作流会停止并报错。在如果类别数量超过以下值则报错参数中输入行阈值。

  9. 运行工作流。

输出

精确匹配工具包含 2 个输出锚点,均以两种方式将标准化短语传递至下游:

  • D 输出锚点将匹配的输入数据传递至下游。根据您在您希望如何输出结果?部分中选择的选项,D 输出锚点...

    • 当选择替换所选列时,使用标准化短语更新所选字符串列。

    • 当选择附加为新列时,在数据中附加标准化短语。

  • M 输出锚点包含 LLM 用于标准化数据的映射表。映射表包含原始字符串值列和标准化字符串值列。