Skip to main content

Herramienta Limpieza de datos

Utiliza la herramienta Limpieza de datos para corregir problemas comunes de calidad de datos. Puedes reemplazar valores nulos, eliminar puntuación, modificar el uso de mayúsculas y minúsculas y mucho más.

Sugerencia

Esta herramienta tiene un ejemplo de uso. Consulta Acceder a flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Designer Cloud.

Limitaciones conocidas

Numbers with more than 15 digits need to be treated as strings, or they lose precision. Set the column type to a string with the Select tool.

Componentes de la herramienta

data-cleansing-with-anchors.png

Figura: herramienta Limpieza de datos con anclas.

La herramienta Limpieza de datos tiene dos anclas:

  • Ancla de entrada : conecta los datos que quieres limpiar.

  • Ancla de salida : los datos limpios salen por el ancla de salida.

Configurar la herramienta

Eliminar datos nulos

Utiliza estas opciones para eliminar filas y columnas completas de datos nulos:

  • Quitar filas nulas

    • Quita todas las filas con un valor nulo en cada columna.

    • Quita filas con valores nulos, no quita filas con valores de cadena vacíos.

    • Solo quita las filas que tienen un valor nulo en cada columna.

  • Remove Null Columns

    • Remove all columns with a null value in every row.

    • Remove columns with null values—doesn't remove columns with empty string values.

    • Only remove columns that have a null value in every row.

    • A message displays in the Results window with the number of columns that were removed.

Selecciona campos para limpiar

Marca las columnas que deseas limpiar. Marca Seleccionar todo para seleccionar todas las columnas y desmárcalo a fin de anular la selección de todas las columnas.

Datos de tipo cadena (String)

Todas las opciones, excepto Reemplazar nulos por 0 , se aplican a tipos de datos de cadena. Para especificar diferentes opciones para diferentes columnas, utiliza varias herramientas Limpieza de datos en el flujo de trabajo.

Reemplazar nulos

  • Reemplazar por espacios en blanco (columnas de cadena) : reemplaza los valores nulos por un valor de cadena en blanco. Un espacio en blanco se registra como “ ” en vez de [Null] . Esta opción está seleccionada de manera predeterminada.

  • Reemplazar por 0 (columnas numéricas) : reemplaza los valores nulos con un 0 (cero). Esta opción está seleccionada de manera predeterminada.

Eliminar caracteres no deseados

  • Espacios en blanco iniciales y finales : elimina los espacios en blanco iniciales y finales. Esta opción está seleccionada de manera predeterminada.

  • Tabulaciones, saltos de línea y espacios en blanco duplicados : reemplaza cualquier ocurrencia de espacios en blanco con un solo espacio, incluso los finales de línea, tabulaciones, espacios múltiples y otros espacios en blanco consecutivos.

  • Todos los espacios en blanco : elimina cualquier ocurrencia de espacios en blanco.

  • Letras : elimina todas las letras, incluso las letras del alfabeto no latino como A b Z À é ö.

  • Números : elimina todos los números.

  • Signos de puntuación : elimina los siguientes caracteres: ! " # $ % & ' ( ) * + , \ - . / : ; < = > ? @ [ / ] ^ _ ` { | } ~

Cambiar estilo de mayúsculas y minúsculas

Selecciona Cambiar estilo de mayúsculas y minúsculas  y elije una opción del menú desplegable para cambiar las mayúsculas de los datos de tipo cadena:

  • Mayúsculas : convierte todas las letras de una cadena en mayúsculas.

  • Minúsculas : convierte todas las letras de una cadena en minúsculas.

  • Tipo título : pone en mayúscula la primera letra de todas las palabras de una cadena.