Ferramenta Limpeza de Dados Pro
Somente AMP
A ferramenta Limpeza de Dados Pro está disponível somente via AMP Engine. Ao contrário da ferramenta Limpeza de Dados original, que é uma macro, a ferramenta Limpeza de Dados Pro foi projetada nativamente para o AMP Engine e proporciona um desempenho significativamente melhor.
(Novo): este rótulo indica aprimoramentos na ferramenta Limpeza de Dados original.
Use a ferramenta Limpeza de Dados Pro para corrigir problemas comuns de qualidade dos dados. Você pode substituir valores nulos, remover pontuação e tags HTML, modificar o uso de maiúsculas e muito mais!
Importante
A ferramenta Limpeza de Dados existente ainda está disponível e continuará a funcionar nos fluxos de trabalho existentes.
Componentes da ferramenta

A ferramenta Limpeza de Dados Pro tem duas âncoras.
Âncora de entrada: use a âncora de entrada para conectar os dados que você deseja limpar.
Âncora de saída: a âncora de saída faz a saída dos dados limpos.
Configurar a ferramenta
Use a janela Configuração da ferramenta Limpeza de Dados Pro para determinar o modo como os problemas de qualidade dos dados são gerenciados.
Remover dados nulos
Marque uma ou ambas as caixas de seleção para remover linhas e colunas inteiras de dados nulos.
Importante
Essas opções são aplicadas após todas as outras etapas de limpeza para garantir uma saída consistente quando combinadas com as opções Substituir por nulo. Se você quiser remover dados nulos da entrada inicial, não use as opções "Remover dados nulos" e "Substituir por nulo" ao mesmo tempo.
Linhas nulas:
remove todas as linhas que apresentam um valor nulo em todas as colunas.
Essa opção não remove linhas que tenham somente valores de cadeia de caracteres (string) vazios.
Uma mensagem mostra quantas linhas foram removidas.
Colunas nulas:
remove todas as colunas que apresentam um valor nulo em todas as linhas.
Essa opção não remove colunas que possuem somente valores de cadeia de caracteres (string) vazios.
Uma mensagem mostrará quantas colunas foram removidas.
Selecionar colunas para limpar
Use esta seção para selecionar as colunas que você deseja limpar. Essas colunas são preenchidas a partir da conexão de entrada da ferramenta. Coluna identifica o nome da coluna e Tipo identifica o tipo de dados da coluna (V_String, Byte, Double, Int32 etc.)
Você pode usar a caixa de seleção "Selecionar tudo" para selecionar todas as colunas ou marcar as caixas de seleção associadas às colunas individuais para escolher colunas específicas a serem limpas.
Use o campo de entrada "Pesquisar" para pesquisar colunas específicas por nome.
Selecione o ícone de filtro ao lado de "Tipo" para filtrar essa tabela por colunas com um tipo de dados específico.
Por padrão, todas as colunas são selecionadas e (novos) tipos de dados são incluídos. (Novo) A coluna "Desconhecido" (Unknown) também é selecionada por padrão e permite novas colunas nos dados.
Remover caracteres
Use esta seção para selecionar as categorias específicas de caracteres que você deseja remover na coluna selecionada na seção anterior. Vários dos exemplos a seguir usam isto como a entrada:
Entrada | Conteúdo |
---|---|
1 |
|
2 |
|
3 |
|
Espaços em branco à esquerda e à direita: essa opção é marcada por padrão. Remove espaços em branco, incluindo tabulações e quebras de linha, do início e do final de uma cadeia de caracteres (string).
Saída
Conteúdo
1
Olá , Comunidade Alteryx!
2
D e safios sema nais
3
Documentação de ajuda !
Tabulações, quebras de linha e espaços em branco duplicados: substitui todos os espaços consecutivos, tabulações e outros caracteres de espaço em branco em qualquer posição em uma cadeia de caracteres (string) por um único espaço.
Saída
Conteúdo
1
Olá , Comunidade Alteryx!
2
D e safios sema nais
3
Documentação de ajuda !
Todos os espaços em branco: remove todos os espaços em branco em qualquer posição em uma cadeia de caracteres (string).
Saída
Conteúdo
1
Olá,ComunidadeAlteryx!
2
Desafiossemanais
3
Documentaçãodeajuda!
(Novo) Tag HTML: remove tags HTML, XML e outras entre colchetes angulares. Somente o conteúdo de texto sem formatação dentro do colchete permanece. Por exemplo, uma entrada de
<h1>Alteryx</h1>
resulta emAlteryx
.Exemplo de entrada:
<div class="ExternalClass683BD308D77E4320B52BF37E72FF5C00"><html> <p>HD - Request to update several receiver fields - agreed to unlock file to allow for receiver edits - changes will be noted in notes field<br></p> </html></div>
Exemplo de saída:
HD - Solicitação para atualizar vários campos receptores - concordou em desbloquear o arquivo para permitir edições no receptor - as alterações serão anotadas no campo de anotações
Importante
O texto que inclui colchetes angulares (< e >) é interpretado como contendo tags. Isso significa que até mesmo conteúdo gravado sem ser HTML usando
< >
, por exemplo, comparações ou expressões matemáticas, podem ser afetados.Por exemplo...
Entrada:
3 < 5 e 3 > 1
Saída:
3 1
: o texto< 5 e 3 >
é tratado como uma tag e é removido.
Para evitar isso, considere substituir os colchetes angulares por símbolos alternativos (por exemplo,
<
e>
ou usar parênteses).(Novo) Caracteres invisíveis: remove todos os caracteres que são marcadores de formatação invisíveis, como separadores invisíveis, controle de quebra de palavra e as codificações Unicode U+200B (espaço de largura zero) e U+00AD (hífen condicional). Essa opção é útil quando os campos aparecem vazios, mas não estão realmente em branco.
Isso é particularmente útil quando o indicador de qualidade dos dados na janela de resultados exibe valores vazios que, de outra forma, não são visíveis.
Letras: remove todas as letras, inclusive as que não estão no alfabeto latino, como
A b Z À é ö
. Use o campo Exceção (novo) para inserir letras que não devem ser removidas, se houver (diferencia maiúsculas de minúsculas, sem separadores). Revise as categorias alfabéticas da ICU em Unicode:Letra maiúscula: A, B, C, Α, Б
Letra minúscula: a, b, c, α, б
Letra com capitalização de título: Dž, Lj, Nj (letras especiais com capitalização de título)
Letra modificadora: ʰ, ˠ, ˡ (letras fonéticas ou modificadoras)
Outra letra: क, 日, ש (letras que não são maiúsculas ou minúsculas)
Números: remove todos os números. Use o campo Exceção (novo) para inserir números que não devem ser removidos, se houver. Revise os valores numéricos da ICU em Unicode:
Número de dígito decimal: 0-9, ١, ۲ (dígitos padrão)
Número em letra: Ⅳ, Ⅶ, ↀ (números romanos etc.)
Outro número: ½, ², ¾ (frações, sobrescrito)
Pontuação e caracteres especiais: remove toda a pontuação e caracteres especiais com base nas definições de símbolo e pontuação Unicode usadas pela biblioteca ICU. Use o campo Exceção (novo) para, se tiver algum, inserir símbolos de pontuação que não devem ser removidos.
Em Unicode, todos os caracteres de pontuação se enquadram na categoria de pontuação:
Pontuação conectora: _ , ‿ , ⁀ (sublinhado etc.)
Pontuação de traço: - , — , ‒ (hífen, traço)
Pontuação de abertura: ( , [ , { (colchetes de abertura)
Pontuação de fechamento: ) , ] , } (colchetes de fechamento)
Pontuação inicial de citação: " , ‘ (aspas à esquerda)
Pontuação final de citação: " , ‘ (aspas à direita)
Outra pontuação: ! , ? , ; (diversos)
Os caracteres são categorizados na categoria geral do símbolo, que inclui:
Símbolos matemáticos: caracteres como +, −, = e ∞.
Símbolos de moeda: caracteres como $, €, ¥ e £.
Símbolos modificadores: caracteres como ^, ˜ e acentos usados para transcrição fonética.
Outros símbolos: vários símbolos que incluem ©, ® e caracteres de emoji.
Substituir colunas de cadeia de caracteres (string)
Determine como lidar com problemas de qualidade de dados em colunas de cadeia de caracteres (string). A caixa de seleção está marcada por padrão, mas essa operação é opcional.
Substituir nulos por espaços em branco: substitui valores nulos por um valor de cadeia de caracteres (string) em branco. Um espaço vazio é registrado como " " em vez de [Null]. Essa opção vem selecionada por padrão.
(Novo) Substituir espaços em branco por nulos: substitui valores de cadeia de caracteres (string) em branco por valores nulos. Um espaço vazio é registrado como " " em vez de [Null]. Esse é o inverso da opção anterior e ajuda a padronizar colunas vazias como nulos verdadeiros.
Substituir colunas numéricas
Determinar como lidar com problemas de qualidade de dados em colunas numéricas. A caixa de seleção está marcada por padrão, mas essa operação é opcional.
Substituir nulo por 0: substitui valores nulos por 0 (zero). Essa opção vem selecionada por padrão.
(Novo) Substituir 0 por nulos: substitui 0 (zeros) por valores nulos. Esse é o inverso da opção anterior.
Modificar maiúsculas/minúsculas
Marque a caixa de seleção Modificar maiúsculas/minúsculas para ativar o menu suspenso "Modificar maiúsculas/minúsculas". Selecione uma das opções:
Maiúscula: coloca em maiúsculo todas as letras de uma cadeia de caracteres (string).
Minúscula: coloca em minúsculo todas as letras de uma cadeia de caracteres (string).
Cada palavra iniciada por maiúscula: coloca em maiúsculo a primeira letra de todas as palavras em uma cadeia de caracteres (string).