Skip to main content

Icons.png Herramienta Limpieza de datos profesional

Solo AMP

Limpieza de datos profesional solo está disponible a través de AMP Engine. A diferencia de la herramienta Limpieza de datos original, que es una macro, Limpieza de datos profesional se crea de forma nativa para AMP Engine y proporciona un rendimiento significativamente mejor.

(Nuevo): Esta etiqueta indica mejoras con respecto a la herramienta Limpieza de datos original.

Utiliza la herramienta Limpieza de datos profesional para corregir problemas comunes de calidad de datos. Puedes reemplazar valores nulos, quitar puntuación y etiquetas de HTML, modificar el uso de mayúsculas y minúsculas ¡y mucho más!

Importante

La herramienta Limpieza de datos existente aún está disponible y seguirá funcionando en flujos de trabajo existentes.

Componentes de la herramienta

data-cleanse-pro-anchors.png

La herramienta Limpieza de datos profesional tiene 2 anclas:

  • Ancla de entrada: utiliza esta ancla para conectar los datos que deseas actualizar.

  • Ancla de salida: los datos limpios salen por el ancla de salida.

Configurar la herramienta

Utiliza la ventana Configuración de Limpieza de datos profesional para determinar cómo se administran los problemas de calidad de los datos.

Eliminar datos nulos

Selecciona una o ambas casillas de verificación para quitar filas y columnas completas con datos nulos.

Importante

Estas opciones se aplican después de todos los demás pasos de limpieza para garantizar una salida consistente cuando se combinan con las opciones Reemplazar por datos nulos. Si deseas quitar datos nulos de la entrada inicial, no utilices las opciones Eliminar datos nulos y Reemplazar por datos nulos al mismo tiempo.

  • Filas nulas:

    • quita todas las filas con un valor nulo en cada columna.

    • Esta opción no quita filas con valores de cadena vacíos solamente.

    • Un mensaje muestra cuántas filas se eliminaron.

  • Columnas nulas:

    • quita todas las columnas con un valor nulo en cada fila.

    • Esta opción no quita columnas que solo tienen valores de cadena vacíos.

    • Un mensaje muestra cuántas columnas se eliminaron.

Selecciona las columnas para limpiar

Utiliza esta sección para seleccionar las columnas que deseas limpiar. Estas columnas se completan desde la conexión de entrada de la herramienta. Columna identifica el nombre de columna y Tipo identifica el tipo de datos de la columna (V_String, Byte, Double, Int32, etc.)

  • Puedes utilizar la casilla de verificación Seleccionar todo para seleccionar todas las columnas o las casillas de verificación asociadas a las columnas individuales con el fin de seleccionar columnas específicas para limpiar.

  • Utiliza el campo de entrada Buscar para buscar columnas específicas por nombre.

  • Selecciona el ícono de filtro junto a Tipo para filtrar esta tabla en busca de columnas con un tipo de dato específico.

  • De forma predeterminada, se seleccionan todas las columnas y se incluyen los tipos de datos (nuevos). (Nuevo) La columna desconocida (Unknown) también está seleccionada de forma predeterminada y permite nuevas columnas en los datos.

Quitar caracteres

Utiliza esta sección para seleccionar las categorías de caracteres específicas que deseas quitar de la columna que seleccionaste en la sección anterior. Varios de los siguientes ejemplos utilizan esto como entrada:

Tabla 3. Entrada de ejemplo para Limpieza de datos profesional

Entrada

Contenido

1

     Hello , Alteryx Community!     

2

W e ekly Challe nges

3

Help Documentation !



  • Espacios en blanco iniciales y finales: esta opción está seleccionada de forma predeterminada. Quita los espacios en blanco, incluidas las tabulaciones y los saltos de línea, al principio y al final de la cadena.

    Salida

    Contenido

    1

    Hello , Alteryx Community!

    2

    W e ekly Challe nges

    3

    Help Documentation !

  • Tabulaciones, saltos de línea y espacios en blanco duplicados: reemplaza con un solo espacio todos los espacios consecutivos, tabulaciones y otros caracteres de espacios en blanco en cualquier posición de una cadena.

    Salida

    Contenido

    1

    Hello , Alteryx Community!

    2

    W e ekly Challe nges

    3

    Help Documentation !

  • Todos los espacios en blanco: quita todos los espacios en blanco en cualquier posición de una cadena.

    Salida

    Contenido

    1

    Hello,AlteryxCommunity!

    2

    WeeklyChallenges

    3

    HelpDocumentation!

  • (Nuevo) Etiqueta HTML: quita las etiquetas HTML, XML y otras etiquetas incluidas entre corchetes angulares. Solo permanece el contenido de texto sin formato dentro del corchete. Por ejemplo, una entrada de <h1>Alteryx</h1> se convierte en Alteryx.

    Entrada de ejemplo:

    <div class="ExternalClass683BD308D77E4320B52BF37E72FF5C00"><html>
    <p>HD - Request to update several receiver fields - agreed to unlock file to allow for receiver edits - changes will be noted in notes field<br></p>
    </html></div>

    Salida de ejemplo:

    HD - Solicitud para actualizar varios campos del receptor - Se acordó desbloquear el archivo para permitir las ediciones del receptor - Los cambios se anotarán en el campo Notas

    Importante

    Se interpreta que el texto que incluye corchetes angulares (< y >) contiene etiquetas. Esto significa que podría verse afectado incluso el contenido no HTML escrito con < >, como comparaciones o expresiones matemáticas.

    Por ejemplo...

    • Entrada: 3 < 5 and 3 > 1

    • Salida: 3 1: el texto < 5 y 3 > se trata como etiqueta y se elimina.

    Para evitar esto, considera reemplazar los corchetes angulares con símbolos alternativos (por ejemplo, &lt; y &gt; o utiliza paréntesis).

  • (Nuevo) Caracteres invisibles: quita todos los caracteres que son marcadores de formato invisibles, como separadores invisibles, control de salto de palabras y las codificaciones Unicode U+200B (espacio de ancho cero) y U+00AD (guion suave). Esta opción es útil cuando los campos aparecen vacíos pero no están realmente en blanco.

    Esto es particularmente útil cuando el indicador de calidad de datos en la ventana Resultados muestra valores vacíos que de otro modo no se notan.

  • Letras: quita todas las letras, incluso las letras del alfabeto no latino, como A b Z À é ö. Utiliza el campo (nuevo) Excepto para ingresar letras que no se deben quitar, si las hay (distingue entre mayúsculas y minúsculas, sin separadores). Revisa las categorías alfabéticas de ICU de Unicode:

    • Letra mayúscula: A, B, C, Α, Б

    • Letra minúscula: a, b, c, α, б

    • Letra de título: Dž, Lj, Nj (letras especiales de título)

    • Letra modificadora: ʰ, ˠ, ˡ (letras fonéticas o modificadoras)

    • Otra letra: क, 日, ש (letras ni mayúsculas ni minúsculas)

  • Números: elimina todos los números. Utiliza el campo (nuevo) Excepto para ingresar números que no se deben quitar, si los hay. Revisa los valores numéricos de ICU de Unicode:

    • Número de dígitos decimales: 0-9, ١, ۲ (dígitos estándar)

    • Número representado por letra: Ⅳ, Ⅶ, ↀ (números romanos, etc.)

    • Otro número: ½, ², ¾ (fracciones, superíndices)

  • Puntuación y caracteres especiales: quita todos los caracteres de puntuación y especiales basados en la puntuación Unicode y las definiciones de símbolos utilizadas por la biblioteca de ICU. Utiliza el campo (nuevo) Excepto para ingresar símbolos de puntuación que no se deben quitar, si los hay.

    En Unicode, todos los caracteres de puntuación pertenecen a la categoría de puntuación:

    • Carácter conector: _ , ‿ , ⁀ (guion bajo, etc.)

    • Carácter guion: - , — , ‑ (Guion corto, guion largo)

    • Carácter de apertura: ( , [ , { (corchetes de apertura)

    • Carácter de cierre: ) , ] , } (corchetes de cierre)

    • Puntuación inicial de comillas: " , ‘ (comillas de apertura)

    • Puntuación final de comillas: " ,' (comillas de cierre)

    • Otros signos de puntuación: ! , ? , ; (varios)

    Los caracteres pertenecen a la categoría general de símbolo, que incluye lo siguiente:

    • Símbolos matemáticos: caracteres como +, −, = y ∞.

    • Símbolos de moneda: caracteres como $, €, £ y £.

    • Símbolos modificadores: caracteres como ^, ˜ y acentos utilizados para la transcripción fonética.

    • Otros símbolos: varios símbolos que incluyen los caracteres ©, ® y emojis.

Reemplazar columnas de cadena

Determina cómo manejar los problemas de calidad de datos en columnas de cadena. La casilla de verificación está seleccionada de forma predeterminada, pero esta operación es opcional.

  • Reemplazar nulos por espacios en blanco: reemplaza valores nulos con un valor de cadena en blanco. Un espacio en blanco se registra como " " en vez de nulo [Null]. Esta opción está seleccionada de manera predeterminada.

  • (Nuevo) Reemplazar espacios en blanco por nulos: reemplaza valores de cadenas en blanco por valores nulos. Un espacio en blanco se registra como " " en vez de nulo [Null]. Esta es la inversa de la opción anterior y ayuda a estandarizar las columnas vacías como verdaderos nulos.

Reemplazar columnas numéricas

Determina cómo manejar los problemas de calidad de datos en columnas numéricas. La casilla de verificación está seleccionada de forma predeterminada, pero esta operación es opcional.

  • Reemplazar nulos por 0: reemplaza valores nulos por un 0 (cero). Esta opción está seleccionada de manera predeterminada.

  • (Nuevo) Reemplazar 0 por nulos: reemplaza 0 (ceros) por valores nulos. Esta es la inversa de la opción anterior.

Modificar estilo de mayúsculas y minúsculas

Marca la casilla de verificación Cambiar mayúsculas/minúsculas para activar el menú desplegable de modificación de mayúsculas y minúsculas. Selecciona una de estas opciones:

  • Mayúsculas: convierte todas las letras de una cadena en mayúsculas.

  • Minúsculas: convierte todas las letras de una cadena en minúsculas.

  • Primera letra de cada palabra en mayúscula: pone en mayúscula la primera letra de todas las palabras de una cadena.