精确匹配工具
精确匹配工具对字符串数据执行类似模糊匹配的操作,将同一短语的不同变体标准化为单个值。如果数据包含同一短语的多种拼写(例如,color 和 colour,或 US 和 United States),可使用精确匹配工具。
注意
GenAI 工具当前处于公共预览状态。了解如何加入公开预览并开始使用 AI 赋能的工作流!
工具组件
精确匹配工具有 5 个锚点(3 个输入和 2 个输出):
M 输入锚点:使用 M 输入锚点连接来自 LLL 覆盖工具的模型连接设置。
D 输入锚点:使用 D 输入锚点连接要标准化的字符串数据。
R 输入锚点(可选):使用 R 输入锚点连接到参考数据集,其中包含想要 LLM 使用的标准化短语。
D 输出锚点:使用 D 输出锚点将匹配的输入数据传递到下游。
M 输出锚点:使用 M 输出锚点将 LLM 输出的映射表传递至下游。
配置工具
在画布上添加精确匹配工具。
将 D 输入锚点连接到要在工作流中使用的分类字符串数据。请注意,精确匹配工具仅适用于分类数据(例如,名称或地点)。
(可选)将 R 输入锚点连接到包含标准化短语列表的参考数据集。如果您偏好使用标准化短语,请使用此锚点。否则,LLM 会根据其内置的提示词自主决策。
将 M 输入锚点连接到 LLM 覆盖工具。
从选择字段下拉菜单中选择包含要标准化的数据的列。
在您希望如何输出结果?部分,您可以选择…
替换所选列:用标准化短语替换您选择的列。
附加为新列:在数据集中创建一个包含标准化短语的新列。(可选)输入新列的名称。
(可选)如果您的输入数据未发生变化,且希望使用缓存的映射表,请选择使用缓存的映射表?复选框。在处理工作流的其他部分时,使用此选项可减少 LLM 请求。
(可选)如果您的工作流包含动态输入,且希望避免 LLM 请求可能过高,可以设置一个行计数阈值,超过该阈值时工作流会停止并报错。在如果类别数量超过以下值则报错参数中输入行阈值。
运行工作流。
输出
精确匹配工具包含 2 个输出锚点,均以两种方式将标准化短语传递至下游:
D 输出锚点将匹配的输入数据传递至下游。根据您在您希望如何输出结果?部分中选择的选项,D 输出锚点...
当选择替换所选列时,使用标准化短语更新所选字符串列。
当选择附加为新列时,在数据中附加标准化短语。
M 输出锚点包含 LLM 用于标准化数据的映射表。映射表包含原始字符串值列和标准化字符串值列。