Outil Nettoyage des données version Pro
AMP uniquement
Data Cleanse Pro est disponible via l'AMP Engine uniquement. Contrairement à l'outil Nettoyage des données d'origine, qui est une macro, l'outil Nettoyage des données pro est construit nativement pour l'AMP Engine et fournit de nettement meilleures performances.
(Nouveau) : cette étiquette indique des améliorations par rapport à l'outil Nettoyage des données d'origine.
Utilisez l'outil Nettoyage des données pro pour corriger les problèmes courants de qualité des données. Vous pouvez remplacer les valeurs nulles, supprimer la ponctuation et les balises HTML, modifier la mise en majuscules et bien plus encore !
Important
L'outil Nettoyage des données existant est toujours disponible et continuera à fonctionner dans les workflows existants.
Composants de l'outil

L'outil Nettoyage des données pro dispose de 2 ancrages.
Ancrage d'entrée : utilisez l'ancrage d'entrée pour connecter les données que vous souhaitez nettoyer.
Ancrage de sortie : l'ancrage de sortie génère les données nettoyées.
Configuration de l'outil
Utilisez la fenêtre Configuration de l'outil Nettoyage des données pro pour déterminer comment les problèmes de qualité des données sont gérés.
Enlever les données nulles
Cochez l'une des cases ou les deux pour supprimer des lignes et des colonnes entières de données nulles.
Important
Ces options sont appliquées après toutes les autres étapes de nettoyage pour garantir une sortie cohérente lorsqu'elles sont combinées avec les options Remplacer par des valeurs nulles. Si vous souhaitez supprimer des données nulles de l'entrée initiale, n'utilisez pas les options Enlever les données nulles et Remplacer par des valeurs nulles en même temps.
Lignes nulles :
Supprime toutes les lignes avec une valeur nulle dans toutes les colonnes.
Cette option ne supprime pas les lignes avec des valeurs de chaîne vides uniquement.
Un message indique le nombre de lignes supprimées.
Colonnes nulles :
Supprime toutes les colonnes avec une valeur nulle dans toutes les lignes.
Cette option ne supprime pas les colonnes avec des valeurs de chaîne vides uniquement.
Un message indique le nombre de colonnes supprimées.
Sélectionnez les colonnes à nettoyer
Utilisez cette section pour sélectionner les colonnes que vous souhaitez nettoyer. Ces colonnes sont renseignées à partir de la connexion d'entrée de l'outil. Colonne identifie le nom de colonne et Type identifie le type de données de la colonne (V_String, Byte, Double, Int32, etc.)
Vous pouvez utiliser la case à cocher Sélectionner tout pour sélectionner toutes vos colonnes ou les cases à cocher associées aux colonnes individuelles pour sélectionner des colonnes spécifiques à nettoyer.
Utilisez le champ de saisie Rechercher pour rechercher des colonnes spécifiques par nom.
Sélectionnez l'icône de filtre en regard de Type pour filtrer cette table sur les colonnes avec un type de données spécifique.
Par défaut, toutes les colonnes sont sélectionnées et les (nouveaux) types de données sont inclus. (Nouveau) La colonne Inconnu est également sélectionnée par défaut et permet de nouvelles colonnes dans les données.
Supprimer les caractères
Utilisez cette section pour sélectionner les catégories de caractères spécifiques que vous souhaitez supprimer de la colonne sélectionnée dans la section précédente. Plusieurs des exemples ci-dessous utilisent ceci comme entrée :
Entrée | Contenu |
---|---|
1 |
|
2 |
|
3 |
|
Espace blanc de début et de fin : cette option est cochée par défaut. Supprime les espaces blancs, y compris les tabulations et les sauts de ligne, au début et à la fin d'une chaîne.
Sortie
Contenu
1
Hello , Alteryx Community!
2
W e ekly Challe nges
3
Help Documentation !
Tabulations, sauts de ligne et espace dupliqués : remplace tous les espaces consécutifs, les tabulations et les autres espaces à n'importe quelle position dans une chaîne par un espace unique.
Sortie
Contenu
1
Hello , Alteryx Community!
2
W e ekly Challe nges
3
Help Documentation !
Tous les espaces blancs : supprime tous les espaces blancs à n'importe quelle position dans une chaîne.
Sortie
Contenu
1
Hello,AlteryxCommunity!
2
WeeklyChallenges
3
HelpDocumentation!
(Nouveau) Balise HTML : supprime les balises HTML, XML et autres balises entre chevrons. Seul le contenu en texte brut de la parenthèse reste. Par exemple, une entrée
<h1>Alteryx</h1>
donneAlteryx
.Exemple d’entrée :
<div class="ExternalClass683BD308D77E4320B52BF37E72FF5C00"><html> <p>HD - Request to update several receiver fields - agreed to unlock file to allow for receiver edits - changes will be noted in notes field<br></p> </html></div>
Exemple de sortie :
HD - Demande de mise à jour de plusieurs champs de récepteur - Déverrouillage du fichier accepté pour permettre les modifications du récepteur - Les modifications seront notées dans le champ Notes
Important
Un texte comprenant des chevrons (< et >) est interprété comme contenant des balises. Cela signifie que même un contenu non HTML écrit à l'aide des symboles
< >
peut être affecté : par exemple, les comparaisons ou les expressions mathématiques.Par exemple…
Entrée :
3 < 5 et 3 > 1
Sortie :
3 1
: le texte< 5 et 3 >
est supprimé, car il est traité comme une balise.
Pour éviter cela, remplacez les chevrons par d'autres symboles (par exemple,
<
et>
ou utilisez des parenthèses).(Nouveau) Caractères invisibles : supprime tous les caractères qui sont des marqueurs de formatage invisibles, tels que les séparateurs invisibles, le contrôle de la césure des mots et les encodages Unicode U+200B (espace sans chasse) et U+00AD (trait d'union conditionnel). Cette option est utile lorsque les champs apparaissent vides mais ne le sont pas vraiment.
Cela est particulièrement utile lorsque l'indicateur de qualité des données de la fenêtre Résultats affiche des valeurs vides qui ne sont pas visibles autrement.
Lettres : supprime toutes les lettres, y compris les lettres de l'alphabet non latin telles que
A b Z À é ö
. Utilisez le champ Exceptions (nouveau) pour saisir des lettres qui ne doivent pas être supprimées, le cas échéant (sensibles à la casse, sans séparateurs). Récapitulatif des catégories alphabétiques Unicode ICU :Lettres majuscules : a, B, C, Α, Б
Lettres minuscules : a, b, c, α, б
Lettres avec casse de titre : Dž, Lj, Nj (lettres avec casse de titre spéciales)
Lettres modificatrices : ʰ, ˠ, ˡ (lettres phonétiques ou modificatrices)
Autres lettres : क, 日, ש (lettres non majuscules ou minuscules)
Nombres : supprimez tous les nombres. Utilisez le champ Exceptions (nouveau) pour saisir les nombres qui ne doivent pas être supprimés, le cas échéant. Récapitulatif de valeurs numériques Unicode ICU :
Nombres avec chiffres décimaux : 0-9, ١, ۲ (chiffres standard)
Nombres avec lettres : Ⅳ, Ⅶ, ↀ (chiffres romains, etc.)
Autres nombres : ½, ², ¾ (fractions, exposants)
Ponctuation et caractères spéciaux : supprime tous les signes de ponctuation et caractères spéciaux en fonction des définitions de ponctuation et de symboles Unicode utilisées par la bibliothèque ICU. Utilisez le champ Exceptions (nouveau) pour saisir les symboles de ponctuation qui ne doivent pas être supprimés, le cas échéant.
En Unicode, tous les caractères de ponctuation appartiennent à la catégorie Ponctuation :
Ponctuation de connecteur : _ , ‿ , ⁀ (trait de soulignement, etc.)
Ponctuation de tirets : - , — , ‒ (trait d'union, tiret)
Ponctuation d'ouverture : ( , [ , { (signes d'ouverture)
Ponctuation de fermeture : ) , ] , } (signes de fermeture)
Ponctuation initiale de citation : " , ‘ (guillemets gauches)
Ponctuation finale de citation : " , ’ (guillemets droits)
Autre ponctuation : ! , ? , ; (divers)
Les caractères sont classés dans la catégorie générale des symboles, qui comprend :
Symboles mathématiques : caractères tels que +, −, = et ∞.
Symboles de devise : caractères tels que $, €, ¥ et £.
Symboles de modificateur : caractères tels que ^, ˜ et accents utilisés pour la transcription phonétique.
Autres symboles : différents symboles qui incluent les caractères ©, ® et les emojis.
Remplacer les colonnes de type String
Déterminez comment gérer les problèmes de qualité des données dans les colonnes de chaîne. La case est cochée par défaut, mais cette opération est facultative.
Remplacer les valeurs nulles par des espaces : remplace les valeurs nulles par une chaîne vide. Un espace vide s'inscrit comme " " plutôt que [Null]. Cette option est activée par défaut.
(Nouveau) Remplacer les espaces par des valeurs nulles : remplace les valeurs de chaîne vides par des valeurs nulles. Un espace vide s'inscrit comme " " plutôt que [Null]. Il s'agit de l'inverse de l'option précédente, qui permet de normaliser les colonnes vides en valeurs nulles.
Remplacer les colonnes numériques
Déterminez comment gérer les problèmes de qualité des données dans les colonnes numériques. La case est cochée par défaut, mais cette opération est facultative.
Remplacer les valeurs nulles par 0 : remplace les valeurs nulles par 0 (zéro). Cette option est activée par défaut.
(Nouveau) Remplacer 0 par des valeurs nulles : remplace les 0 (zéros) par des valeurs nulles. Il s'agit de l'inverse de l'option précédente.
Modifier la casse
Cochez la case Modifier la casse pour activer la liste déroulante de modification de la casse. Sélectionnez l'une des options suivantes :
Majuscule : met en majuscules toutes les lettres dans une chaîne.
Minuscules : convertit toutes les lettres d'une chaîne en minuscules.
1re lettre des mots en majuscule : mettez en majuscules la première lettre de tous les mots d'une chaîne.