Skip to main content

Icons.png Strumento Pulizia dei dati avanzato

Solo AMP

Lo strumento Pulizia dei dati avanzato è disponibile solo tramite AMP Engine. A differenza dello strumento Pulizia dei dati originale, che è una macro, lo strumento Pulizia dei dati avanzata è un componente nativo creato per AMP Engine, che offre prestazioni decisamente superiori.

(Novità): questa etichetta indica i miglioramenti rispetto allo strumento Pulizia dei dati originale.

Utilizza lo strumento Pulizia dei dati avanzata per risolvere i problemi comuni di qualità dei dati. Puoi sostituire valori null, rimuovere segni di punteggiatura e tag HTML, modificare la combinazione di maiuscole e minuscole, e molto altro ancora.

Importante

Lo strumento Pulizia dei dati originale rimane disponibile e continuerà a funzionare nei flussi di lavoro esistenti.

Componenti dello strumento

data-cleanse-pro-anchors.png

Lo strumento Pulizia dei dati avanzata ha 2 ancoraggi.

  • Ancoraggio di input: utilizza l'ancoraggio di input per connettere i dati che desideri pulire.

  • Ancoraggio di output: l'ancoraggio di output restituisce i dati puliti.

Configurazione dello strumento

La finestra Configurazione dello strumento Pulizia dei dati avanzata consente di specificare come desideri gestire i problemi di qualità dei dati.

Rimuovi dati null

Seleziona una o entrambe le caselle di spunta per rimuovere intere righe e colonne di dati con valore null.

Importante

Queste opzioni vengono applicate dopo tutti gli altri passaggi di pulizia, per garantire un output coerente quando vengono combinate con le opzioni Sostituisci con valori null. Se desideri rimuovere i valori null dall'input iniziale, non utilizzare contemporaneamente le opzioni Rimuovi dati null e Sostituisci con valori null.

  • Righe null:

    • Rimuove tutte le righe con un valore null in ogni colonna.

    • Questa opzione non rimuove le righe che contengono solo stringhe vuote.

    • Viene visualizzato un messaggio che indica il numero delle righe rimosse.

  • Colonne null:

    • Rimuove tutte le colonne con un valore null in ogni riga.

    • Questa opzione non rimuove le colonne che contengono solo stringhe vuote.

    • Viene visualizzato un messaggio che indica il numero delle colonne rimosse.

Seleziona le colonne da pulire

Utilizza questa sezione per selezionare le colonne che desideri pulire. Queste colonne vengono popolate dalla connessione di input dello strumento. Colonna identifica il nome della colonna, mentre Tipo identifica il tipo di dati della colonna (V_String, Byte, Double, Int32 e così via).

  • Puoi selezionare tutte le colonne, utilizzando la casella di spunta Seleziona tutto, oppure selezionare le colonne specifiche da pulire, selezionando la casella di spunta associata a ciascuna di esse.

  • Il campo di input Cerca consente di cercare colonne specifiche indicandone il nome.

  • Seleziona l'icona del filtro accanto a Tipo per filtrare la tabella in modo da visualizzare solo le colonne con un tipo di dati specifico.

  • Per impostazione predefinita, vengono selezionate tutte le colonne e sono inclusi tutti i tipi di dati (Novità). (Novità) Viene selezionata per impostazione predefinita anche la colonna Sconosciuto, che consente di inserire nuove colonne nei dati.

Rimuovi caratteri

Usa questa sezione per selezionare le specifiche categorie di caratteri che desideri rimuovere dalla colonna selezionata nella sezione precedente. Molti degli esempi riportati di seguito utilizzano questo input:

Tabella 3. Input di esempio per lo strumento Pulizia dei dati avanzata

Input

Contenuto

1

     Hello , Alteryx Community!     

2

W e ekly Challe nges

3

Help Documentation !



  • Spazio vuoto iniziale e finale: questa opzione è selezionata per impostazione predefinita. Rimuove gli spazi vuoti, incluse le tabulazioni e le interruzioni di riga, all'inizio e alla fine di una stringa.

    Output

    Contenuto

    1

    Hello , Alteryx Community!

    2

    W e ekly Challe nges

    3

    Help Documentation !

  • Tabulazioni, interruzioni di riga e doppi spazi: sostituisce con un singolo spazio tutti gli spazi multipli consecutivi, le tabulazioni e gli altri caratteri non stampabili presenti in qualsiasi punto di una stringa.

    Output

    Contenuto

    1

    Hello , Alteryx Community!

    2

    W e ekly Challe nges

    3

    Help Documentation !

  • Tutti gli spazi vuoti: consente di rimuovere tutti gli spazi vuoti in qualsiasi punto di una stringa.

    Output

    Contenuto

    1

    Hello,AlteryxCommunity!

    2

    WeeklyChallenges

    3

    HelpDocumentation!

  • (Novità) Tag HTML: rimuove i tag HTML, i tag XML e gli altri tag racchiusi fra parentesi angolari, lasciando solo il testo normale racchiuso fra le parentesi quadre. Se ad esempio l'input è <h1>Alteryx</h1>, restituisce Alteryx.

    Input di esempio:

    <div class="ExternalClass683BD308D77E4320B52BF37E72FF5C00"><html>
    <p>HD - Request to update several receiver fields - agreed to unlock file to allow for receiver edits - changes will be noted in notes field<br></p>
    </html></div>

    Output di esempio:

    HD - Richiesta di aggiornamento di vari campi di destinazione. L'utente ha accettato di sbloccare il file per consentire le modifiche nei campi di destinazione, che verranno registrate nel campo Note.

    Importante

    Se sono presenti parentesi angolari (< e >), viene interpretato come un testo che contiene tag. Questo potrebbe interessare anche i contenuti non HTML che includono i segni di minore e maggiore (< >), ad esempio nelle espressioni matematiche o di confronto.

    Ad esempio...

    • Input: 3 < 5 e 3 > 1

    • Output: 3 1: il testo < 5 e 3 > viene rimosso perché interpretato come tag.

    Per evitare questa situazione, potresti sostituire le parentesi angolari con altri simboli, come &lt; e &gt;, o utilizzare le parentesi tonde ().

  • (Novità) Caratteri invisibili: consente di rimuovere tutti gli indicatori di formattazione invisibili, come separatori, interruzioni di parola, oltre ai codici Unicode U+200B (spazi a larghezza zero) e U+00AD (trattino di sillabazione). Questa opzione è utile per i campi che appaiono vuoti ma non lo sono veramente.

    Questo è particolarmente utile quando l'indicatore di qualità dei dati nella finestra Risultati mostra valori vuoti che sarebbero altrimenti invisibili.

  • Lettere: rimuove tutte le lettere, comprese quelle che non appartengono all'alfabeto latino, come A b Z À é ö. Utilizza il campo (Novità) Tranne per specificare le eventuali lettere che non devono essere rimosse (con distinzione fra maiuscole e minuscole, senza separatori). Categorie dei caratteri alfabetici ICU (International Components for Unicode):

    • Lettere maiuscole: A, B, C, Α, Б

    • Lettere minuscole: a, b, c, α, б

    • Prima lettera maiuscola: Dž, Lj, Nj (prima lettera maiuscola speciale)

    • Carattere modificatore: ʰ, ˠ, ˡ (caratteri fonetici o modificatori)

    • Altri caratteri: क, 日, ש (lettere non maiuscole o minuscole)

  • Numeri: rimuove tutti i numeri. Utilizza il campo (Novità) Tranne per specificare le cifre che non devono essere rimosse, se presenti. Valori numerici ICU (International Components for Unicode):

    • Cifre decimali: 0-9, ١, ۲ (cifre standard)

    • Numeri letterali: Ⅳ, Ⅶ, ↀ (numeri romani e così via)

    • Altri numeri: ½, ², ¾ (frazioni, apici)

  • Punteggiatura e caratteri speciali: consente di rimuovere tutti i segni di punteggiatura e i caratteri speciali in base alle definizioni di simboli e punteggiatura Unicode utilizzate dalla libreria ICU. Utilizza il campo (Novità) Tranne per immettere i segni di punteggiatura che non devono essere rimossi, se presenti.

    Nel sistema Unicode, tutti i segni di punteggiatura rientrano nella categoria Punteggiatura:

    • Caratteri unificatori: _ , ‿ , ⁀ (trattino di sottolineatura e così via)

    • Trattini: - , — , ‒ (trattino breve, trattino lungo)

    • Punteggiatura di apertura: ( , [ , { (parentesi aperte)

    • Punteggiatura di chiusura: ) , ] , } (parentesi chiuse)

    • Virgolette di apertura: " , ‘ (virgolette sinistre)

    • Virgolette di chiusura: " , ’ (virgolette destre)

    • Altri segni di punteggiatura: ! ? , ; (varie)

    I caratteri rientrano nella categoria generale dei simboli, che include:

    • Simboli matematici: caratteri come +, −, = e ∞.

    • Simboli di valuta: caratteri come $, €, ¥ e £.

    • Modificatori: caratteri come ^, ˜ e accenti utilizzati per la trascrizione fonetica.

    • Altri simboli: simboli vari, che includono i caratteri ©, ® e le emoji.

Sostituisci colonne stringa

Determina come gestire i problemi di qualità dei dati nelle colonne di stringhe. La casella di spunta è selezionata per impostazione predefinita, ma questa operazione è facoltativa.

  • Sostituisci valori null con spazi: sostituisce i valori null con una stringa vuota. Uno spazio vuoto viene registrato come " " anziché come [Null]. Questa opzione è selezionata per impostazione predefinita.

  • (Novità) Sostituisci valori vuoti con valori null: sostituisce le stringhe vuote con valori null. Uno spazio vuoto viene registrato come " " anziché come [Null]. Questa opzione è l'opposto di quella precedente e consente di standardizzare le colonne vuote come veri e propri valori null.

Sostituisci le colonne numeriche

Determina come gestire i problemi di qualità dei dati nelle colonne numeriche. La casella di spunta è selezionata per impostazione predefinita, ma questa operazione è facoltativa.

  • Sostituisci valori null con 0: sostituisce i valori null con il carattere zero (0). Questa opzione è selezionata per impostazione predefinita.

  • (Novità) Sostituisci 0 con valori null: Sostituisce il carattere zero (0) con il valore null. Questa opzione è l'opposto di quella precedente.

Modifica maiuscole/minuscole

Seleziona la casella di spunta Modifica maiuscole/minuscole per attivare il menu a discesa Modifica maiuscole/minuscole. Seleziona una di queste opzioni:

  • Maiuscolo: converte in maiuscolo tutte le lettere in una stringa.

  • Minuscolo: converte tutte le lettere di una stringa in lettere minuscole.

  • Iniziali maiuscole: rende maiuscola la prima lettera di tutte le parole in una stringa.