Präzision-Übereinstimmung-Tool
Das Präzision-Übereinstimmung-Tool führt einen der Fuzzy-Übereinstimmung ähnlichen Vorgang bei Zeichenfolgendaten durch, um verschiedene Variationen desselben Ausdrucks auf einen einzelnen Wert zu standardisieren. Verwenden Sie das Präzision-Übereinstimmung-Tool, wenn Ihre Daten mehrere Schreibweisen desselben Begriffs enthalten (z. B. „color“ und „colour“ oder „US“ und „United States“).
Anmerkung
Die GenAI-Tools befinden sich derzeit in der öffentlichen Vorschau. Erfahren Sie, wie Sie an der öffentlichen Vorschau teilnehmen und mit KI-basierten Workflows beginnen können!
Tool-Komponenten
Das Präzision-Übereinstimmung-Tool verfügt über fünf Anker (drei Eingabeanker und zwei Ausgabeanker):
M-Eingabeanker: Verwenden Sie den M-Eingabeanker, um die Modellverbindungseinstellungen aus dem LLM-Überschreibung-Tool zu verbinden.
D-Eingabeanker: Verwenden Sie den D-Eingabeanker, um die Zeichenfolgendaten zu verbinden, die Sie standardisieren möchten.
R-Eingabeanker (optional): Verwenden Sie den R-Eingabeanker, um eine Verbindung zu einem Referenz-Dataset herzustellen, das standardisierte Ausdrücke enthält, die das LLM verwenden soll.
D-Ausgabeanker: Verwenden Sie den D-Ausgabeanker, um die abgeglichenen Eingabedaten nachgeschaltet weiterzuleiten.
M-Ausgabeanker: Verwenden Sie den M-Ausgabeanker, um die Ausgabe der Zuordnungstabelle vom LLM nachgeschaltet weiterzuleiten.
Tool-Konfiguration
Fügen Sie dem Canvas ein Präzision-Übereinstimmung-Tool hinzu.
Verbinden Sie den D-Eingabeanker mit den kategorialen Zeichenfolgendaten, die Sie in Ihrem Workflow verwenden möchten. Beachten Sie, dass das Präzision-Übereinstimmung-Tool nur für kategoriale Daten (z. B. Namen oder Orte) vorgesehen ist.
(Optional) Verbinden Sie den R-Eingabeanker mit einem Referenz-Dataset, das eine Liste standardisierter Ausdrücke enthält. Verwenden Sie diesen Anker, wenn Sie bestimmte standardisierte Ausdrücke bevorzugen. Andernfalls trifft das LLM seine eigene Entscheidung auf der Grundlage seiner integrierten Eingabeaufforderungen.
Verbinden Sie den M-Eingabeanker mit einem LLM-Überschreibung-Tool.
Wählen Sie die Spalte mit den Daten, die Sie standardisieren möchten, aus dem Auswahlmenü Feld auswählen aus.
Im Abschnitt Wie sollen die Ergebnisse ausgegeben werden? können Sie eine der folgenden Möglichkeiten auswählen:
Ausgewählte Spalte ersetzen: Ersetzen Sie die ausgewählte Spalte mit den standardisierten Ausdrücken.
Als neue Spalte anhängen: Erstellen Sie eine neue Spalte im Dataset mit den standardisierten Ausdrücken. (Optional) Geben Sie einen Namen für die neue Spalte ein.
(Optional) Wenn Ihre Eingabedaten unverändert sind und Sie eine zwischengespeicherte Zuordnungstabelle verwenden möchten, aktivieren Sie das Kontrollkästchen Zwischengespeicherte Zuordnungstabelle verwenden?. Verwenden Sie diese Option, um LLM-Anfragen einzusparen, wenn Sie an anderen Teilen Ihres Workflows arbeiten.
(Optional) Falls Ihr Workflow über eine dynamische Eingabe verfügt und Sie eine potenziell hohe Anzahl von LLM-Anfragen vermeiden möchten, können Sie einen Schwellenwert für die Zeilenanzahl festlegen, der dazu führt, dass Ihr Workflow mit einem Fehler gestoppt wird. Geben Sie im Parameter Fehler, falls die Kategorienanzahl den Wert überschreitet einen Zeilenschwellenwert ein.
Klicken Sie auf Ausführen, um den Workflow auszuführen.
Ausgabe
Das Präzision-Übereinstimmung-Tool verfügt über zwei Ausgabeanker, die beide standardisierte Ausdrücke auf zwei verschiedene Weisen nachgeschaltet weiterleiten:
Der D-Ausgabeanker schließt Ihre abgeglichenen Eingabedaten nachgeschaltet ein. Je nachdem, welche Option Sie im Abschnitt Wie sollen die Ergebnisse ausgegeben werden? auswählen, führt der D-Ausgabeanker eine der folgenden Möglichkeiten aus:
Aktualisieren der ausgewählten Zeichenfolgenspalte mit standardisierten Ausdrücken, wenn Sie die Option Ausgewählte Spalte ersetzen auswählen.
Anhängen standardisierter Ausdrücke an Ihre Daten, wenn Sie die Option Als neue Spalte anhängen auswählen.
Der M-Ausgabeanker enthält die Zuordnungstabelle des LLM, die zur Standardisierung Ihrer Daten verwendet wird. Die Zuordnungstabelle enthält eine Spalte für den ursprünglichen Zeichenfolgenwert und den standardisierten Zeichenfolgenwert.