Datenbereinigung-Pro-Tool
Nur AMP
Das Datenbereinigung-Pro-Tool ist nur über die AMP Engine verfügbar. Im Gegensatz zum ursprünglichen Datenbereinigung-Tool, bei dem es sich um ein Makro handelt, wurde Datenbereinigung Pro nativ für die AMP Engine entwickelt und bietet eine deutlich bessere Leistung.
(Neu): Dieses Label weist auf Verbesserungen gegenüber dem ursprünglichen Datenbereinigung-Tool hin.
Verwenden Sie das Datenbereinigung-Pro-Tool, um häufig auftretende Probleme mit der Datenqualität zu beheben. Sie können Nullwerte ersetzen, Interpunktion Und HTML-Tags entfernen, Groß- und Kleinschreibung ändern und vieles mehr.
Wichtig
Das vorhandene Datenbereinigung-Tool ist noch verfügbar und wird weiterhin in bestehenden Workflows funktionieren.
Tool-Komponenten

Das Datenbereinigung-Pro-Tool verfügt über 2 Anker.
Eingabeanker: Verwenden Sie den Eingabeanker, um die Daten zu verbinden, die Sie bereinigen möchten.
Ausgabeanker: Der Ausgabeanker gibt die bereinigten Daten aus.
Tool-Konfiguration
Verwenden Sie das Konfigurationsfenster für das Datenbereinigung-Pro-Tool, um festzulegen, wie Datenqualitätsprobleme behandelt werden.
Nulldaten entfernen
Aktivieren Sie eines oder beide der Kontrollkästchen, um ganze Zeilen und Spalten mit Nulldaten zu entfernen.
Wichtig
Diese Optionen werden nach allen anderen Bereinigungsschritten angewendet, um eine konsistente Ausgabe sicherzustellen, wenn sie mit den Optionen Ersetzen durch Null kombiniert werden. Wenn Sie Nulldaten aus der ursprünglichen Eingabe entfernen möchten, verwenden Sie nicht gleichzeitig die Optionen „Null-Daten entfernen“ und „durch Null ersetzen“.
Zeilen mit Nullwerten:
Entfernt alle Zeilen mit einem Nullwert in jeder Spalte.
Diese Option entfernt nicht nur Zeilen mit leeren Zeichenfolgenwerten.
Eine Meldung zeigt an, wie viele Zeilen entfernt wurden.
Spalten mit Nullwerten:
Entfernt alle Spalten mit einem Nullwert in jeder Zeile.
Diese Option entfernt nicht nur Spalten mit leeren Zeichenfolgenwerten.
Eine Meldung zeigt an, wie viele Spalten entfernt wurden.
Zu bereinigende Spalten auswählen
In diesem Abschnitt können Sie die Spalten auswählen, die bereinigt werden sollen. Diese Spalten werden über die Eingabeverbindung des Tools ausgefüllt. Spalte gibt den Spaltennamen und Typ den Datentyp der Spalte an (V_String, Byte, Double, Int32 usw.)
Sie können das Kontrollkästchen „Alle auswählen“ verwenden, um alle Ihre Spalten auszuwählen, oder die Kontrollkästchen, die mit den einzelnen Spalten verknüpft sind, um bestimmte Spalten auszuwählen, die bereinigt werden sollen.
Verwenden Sie das Eingabefeld „Suchen“, um mit dem Spaltennamen nach bestimmten Spalten zu suchen.
Wählen Sie das Filtersymbol neben Typ, um diese Tabelle nach Spalten mit einem bestimmten Datentyp zu filtern.
Standardmäßig werden alle Spalten ausgewählt und (neue) Datentypen werden eingeschlossen. (Neu) die Spalte Unbekannt ist ebenfalls standardmäßig ausgewählt und erlaubt neue Spalten in den Daten.
Zeichen entfernen
Verwenden Sie diesen Abschnitt, um die spezifischen Zeichenkategorien auszuwählen, die Sie aus der Spalte entfernen möchten, die Sie im vorherigen Abschnitt ausgewählt haben. In mehreren der folgenden Beispiele wird dies als Eingabe verwendet:
Eingabe | Inhalt |
---|---|
1 |
|
2 |
|
3 |
|
Führendes und nachfolgendes Leerzeichen: Diese Option ist standardmäßig ausgewählt. Entfernt Leerzeichen, einschließlich Tabulatoren und Zeilenumbrüche am Anfang und am Ende einer Zeichenfolge.
Ausgabe
Inhalt
1
Hallo , Alteryx Community!
2
Wö ch entliche Herausfo rderungen
3
Hilfe-Dokumentation !
Tabulatoren, Zeilenumbrüche und doppelte Leerzeichen: Ersetzt alle aufeinanderfolgenden Leerzeichen, Tabulatoren oder anderen Leerschritte an jeder Position in einer Zeichenfolge durch ein einzelnes Leerzeichen.
Ausgabe
Inhalt
1
Hallo , Alteryx Community!
2
Wö ch entliche Herausfo rderungen
3
Hilfe-Dokumentation !
Alle Leerzeichen: Entfernt alle Leerzeichen an jeder Position in einer Zeichenfolge.
Ausgabe
Inhalt
1
Hallo, Alteryx Community!
2
WöchentlicheHerausforderungen
3
Hilfe-Dokumentation!
(Neu) HTML-Tag: Entfernt HTML-, XML- und andere Tags in eckigen Klammern. Nur der Textinhalt innerhalb der Klammer bleibt erhalten. Beispiel: Die Eingabe
<h1>Alteryx</h1>
führt zuAlteryx
.Beispieleingabe:
<div class="ExternalClass683BD308D77E4320B52BF37E72FF5C00"><html> <p>HD - Request to update several receiver fields - agreed to unlock file to allow for receiver edits - changes will be noted in notes field<br></p> </html></div>
Beispielausgabe:
HD – Anfrage zur Aktualisierung mehrerer Empfängerfelder – Entsperrung der Datei zur Ermöglichung von Bearbeitungen durch den Empfänger vereinbart – Änderungen werden im Notizfeld vermerkt
Wichtig
Text, der spitze Klammern (< und >) enthält, wird als Text mit Tags interpretiert. Dies bedeutet, dass auch Nicht-HTML-Inhalte, die mit
< >
geschrieben wurden, wie beispielsweise Vergleiche oder mathematische Ausdrücke, betroffen sein können.Zum Beispiel:
Eingabe:
3 < 5 und 3 > 1
Ausgabe:
3 1
: Der Text< 5 und 3 >
wird als Tag behandelt und entfernt.
Um dies zu verhindern, sollten Sie spitze Klammern durch alternative Symbole ersetzen (z. B.
<
und>
oder runde Klammern verwenden).(Neu) Unsichtbare Zeichen: Entfernen Sie alle Zeichen, die unsichtbare Formatierungsmarkierungen sind, wie unsichtbare Trennzeichen, Silbentrennungssteuerung und die Unicode-Codierungen U+200B (breitenloses Leerzeichen) und U+00AD (bedingter Trennstrich). Diese Option ist nützlich, wenn Felder leer erscheinen, aber nicht wirklich leer sind.
Dies ist besonders dann nützlich, wenn die Datenqualitätsanzeige im Ergebnisfenster leere Werte anzeigt, die sonst nicht auffallen.
Buchstaben: Entfernt alle Buchstaben, einschließlich der Buchstaben, die nicht zum lateinischen Alphabet gehören, z. B.
A b Z À é ö
. Verwenden Sie das (neue) Feld Außer, um Buchstaben einzugeben, die ggf. nicht entfernt werden sollen (Groß-/Kleinschreibung, keine Trennzeichen). Beachten Sie die alphabetischen Unicode ICU-Kategorien:Großbuchstaben: A, B, C, Α, Б
Kleinbuchstaben: a, b, c, α, б
Titelbuchstaben: Dž, Lj, Nj (spezielle Titelbuchstaben)
Modifizierende Buchstaben: ʰ, ˠ, ˡ (phonetische Buchstaben oder modifizierende Buchstaben)
Andere Buchstaben: क, 日, ש (keine Groß- oder Kleinbuchstaben)
Zahlen: Entfernt alle Zahlen. Verwenden Sie das (neue) Feld Außer, um Zahlen einzugeben, die ggf. nicht entfernt werden sollen. Beachten Sie die Unicode ICU-numerischen Werte:
Dezimalzahl: 0-9, ١, ۲ (Standardziffern)
Buchstabennummer: Ⅳ, Ⅶ, ↀ (römische Ziffern usw.)
Andere Zahl: ½, ², ¾ (Brüche, hochgestellter Text)
Satzzeichen und Sonderzeichen: Entfernen aller Satzzeichen und Sonderzeichen basierend auf Unicode-Satzzeichen und Symboldefinitionen, die von der ICU-Bibliothek verwendet werden. Verwenden Sie das (neue) Feld Außer, um Satzzeichen einzugeben, die ggf. nicht entfernt werden sollen.
Bei Unicode fallen alle Interpunktionszeichen unter die Kategorie Interpunktionszeichen:
Verbindungszeichen: _ , ‿ , ⁀ (Unterstrich usw.)
Bindestrichzeichen: - , — , ‒ (Bindestrich, Gedankenstrich)
Offene Satzzeichen: ( , [ , { (Öffnende Klammern)
Geschlossene Satzzeichen: ) , ] , } (Schließende Klammern)
Anführungszeichen am Anfang:" , ‘ (Linke Anführungszeichen)
Anführungszeichen am Ende: " , ’ (Rechte Anführungszeichen)
Andere Satzzeichen: ! , ? , ; (Verschiedenes)
Zeichen werden unter der allgemeinen Symbolkategorie kategorisiert, die Folgendes umfasst:
Mathematische Symbole: Zeichen wie +, −, =, und ∞.
Währungssymbole: Zeichen wie $, €, ¥, und £.
Modifizierende Symbole: Zeichen wie ^, ˜ und Akzente, die für die phonetische Transkription verwendet werden.
Andere Symbole: Verschiedene Symbole, darunter ©, ®und Emoji-Zeichen.
Spalten mit Zeichenfolgen ersetzen
Bestimmen Sie, wie Datenqualitätsprobleme in Zeichenfolgenspalten gehandhabt werden. Das Kontrollkästchen ist standardmäßig aktiviert, dieser Vorgang ist jedoch optional.
Nullwerte mit Leerzeichen ersetzen: Ersetzt Nullwerte durch einen leeren Zeichenfolgenwert. Ein Leerzeichen wird als " " und nicht als [Null] erfasst. Diese Option ist standardmäßig ausgewählt.
(Neu) Leerzeichen durch Nullen ersetzen: Ersetzt leere Zeichenfolgenwerte durch Nullwerte. Ein Leerzeichen wird als " " und nicht als [Null] erfasst. Dies ist die Umkehrung der vorherigen Option und hilft, leere Spalten als echte Nullen zu standardisieren.
Numerische Spalten ersetzen
Bestimmen Sie, wie Datenqualitätsprobleme in numerischen Spalten gehandhabt werden. Das Kontrollkästchen ist standardmäßig aktiviert, dieser Vorgang ist jedoch optional.
Null durch 0 ersetzen: Ersetzt Nullwerte durch eine 0 (Null). Diese Option ist standardmäßig ausgewählt.
0 durch Null ersetzen: Ersetzt 0 (Null) durch Nullwert. Dies ist die Umkehrung der vorherigen Option.
Groß- und Kleinschreibung ändern
Aktivieren Sie das Kontrollkästchen Groß- und Kleinschreibung ändern, um die Dropdown-Liste „Groß- und Kleinschreibung ändern“ zu aktivieren. Wählen Sie eine dieser Optionen aus:
Großbuchstaben: Alle Buchstaben in einer Zeichenfolge werden großgeschrieben.
Kleinbuchstaben: Konvertiert alle Buchstaben in einer Zeichenfolge in Kleinbuchstaben.
Große Anfangsbuchstaben: Die ersten Buchstaben aller Wörter in einer Zeichenfolge werden groß geschrieben.