Skip to main content

Classification tool icon Herramienta Clasificación

Utiliza la herramienta Clasificación como parte de un pipeline de aprendizaje automático para identificar la categoría a la que pertenece un objetivo. La herramienta proporciona varios algoritmos que puedes utilizar para entrenar un modelo. La herramienta también te permite ajustar un modelo utilizando varios parámetros.

Se requiere Alteryx Intelligence Suite

Esta herramienta forma parte de Alteryx Intelligence Suite . Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita .

Configurar la herramienta

Esta sección contiene información sobre cómo configurar la herramienta Clasificación.

Seleccionar un algoritmo

Selecciona el algoritmo que quieres utilizar. Puedes elegir Regresión logística , Árbol de decisión , Bosque aleatorio o XGBoost .

Configurar los parámetros

Configura los parámetros. Cada algoritmo tiene parámetros diferentes a los otros algoritmos. Cada algoritmo también tiene parámetros generales y avanzados. Los parámetros generales son fundamentales para crear un modelo preciso. Los parámetros avanzados pueden mejorar la precisión, pero requieren una comprensión profunda de sus funciones.

Consulta a la tabla para cada algoritmo para ver qué hacen los parámetros:

Nombre

Descripción

Opciones

Predeterminado

class-weight

class_weight asigna ponderaciones a diferentes clases del conjunto de datos. Algunos algoritmos sobrevaloran las clases prevalecientes, lo que resulta en desequilibrios. Este parámetro ayuda a equilibrar las clases del conjunto de datos asignando peso adicional a las clases minoritarias.

  • none

  • balanced

none

fit_intercept

Decide si quieres que el algoritmo calcule el intercepto para tu modelo de regresión lineal. También conocido como "constante", el intercepto es el valor medio esperado de y donde x es igual a 0.

  • none

  • intercept_scaling

intercept_scaling : 1.0

max_iter

max_iter especifica el número máximo de iteraciones para permitir que los solucionadores converjan. Los modelos con más iteraciones capturan más información sobre los datos.

Cualquier número entero (int).

100

multi_class

multi_class especifica si el algoritmo necesita controlar más de dos clases.

  • auto automáticamente selecciona multinomial u OVR.

  • multinomial es capaz de realizar clasificación multiclase o binaria.

  • ovr es capaz de realizar clasificación binaria.

auto

penalty

penalty, también conocido como "regularización", se refiere a la práctica de modificar la función de pérdida para penalizar ciertos valores que el modelo sobrevaloraría de lo contrario. l1 (regresión Lasso) y l2 (regresión Ridge) son dos métodos de especificación del plazo de penalización.

  • l1 ayuda a encontrar las características más importantes en conjuntos de datos con muchas características estableciendo algunos pesos en 0.

  • l2 ayuda a que todas las características contribuyan al modelo, ya que se asegura de que los pesos no sean cero.

l2

dual

dual transforma un problema de optimización primaria en un problema dual.

  • false

  • true *

*Solo puedes usar true si seleccionas la opción l2 para penalty y liblinear para solver .

false

random_state

random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial.

  • int

  • none

seed : 10

solver

solver es el método que utiliza la regresión logística para optimizar su curva para que mejor se adapte a los datos mediante la determinación de pesos sigmoide.

  • liblinear: utiliza este método para conjuntos de datos más pequeños, donde quieras aplicar una penalización. liblinear requiere una penalización.

  • sag : utiliza este método para conjuntos de datos más grandes, donde quieras aplicar un penalty l2 o ningún penalty.

  • saga : utiliza este método para conjuntos de datos más grandes, donde quieras aplicar una penalización l2 o ninguna penalización.

  • lbfgs: utiliza este método para conjuntos de datos más pequeños, donde quieras aplicar una penalización l2 o ninguna penalización.

  • newton-CG : utiliza este método para conjuntos de datos más pequeños, donde quieras aplicar una penalización l2 o ninguna penalización.

liblinear

tol

tol establece los criterios de detención para cuando el algoritmo debe detectar que los parámetros están lo suficientemente cerca de la convergencia (en otras palabras, permanecer constante).

Cualquier float positivo.

.0001

C

C permite ajustar la cantidad de penalización (en otras palabras, regularización) que aplique, limitando eficazmente las características que están fuertemente ponderadas por el modelo. Define este parámetro como un float positivo.

Cualquier float positivo.

1.0

Nombre

Descripción

Opciones

Predeterminado

class-weight

class_weight asigna ponderaciones a las diferentes clases del conjunto de datos.

  • none

  • balanced

none

criterion

Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide el algoritmo de árbol de decisiones los datos en nodos diferentes.

  • gini

  • entropy

gini

max_depth

max-depth es el camino más largo desde una raíz hasta una hoja de un árbol. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos.

  • none: los nodos se expanden hasta que todos los nodos de hoja son puros (en otras palabras, constan completamente de datos que pertenecen a una sola clase) o hasta que todos los nodos de hoja contienen menos de lo especificado en el parámetro min_samples_split.

  • int : limita la expansión por divisiones.

none

max_features

max_features establece el número máximo de características que el árbol de decisión tiene en cuenta al buscar una mejor primera división.

  • auto: evalúa un número de características igual al número total de características del conjunto de datos.

  • none : Evalúa un número de características igual al número total de características del conjunto de datos.

  • sqrt: evalúa un número de características igual a la raíz cuadrada del número total de características en el conjunto de datos.

  • log2 : Evalúa un número de características igual al logaritmo binario del número total de características.

  • int : Evalúa un número de características en cada división igual al número que selecciones.

  • float : evalúa un número de características igual a una fracción seleccionada por el usuario del número total de características.

auto

max_leaf_nodes

max_leaf_nodes es el límite ascendente en el número total de nodos de hoja que el algoritmo puede generar. Crece nodos hasta la cantidad máxima de manera mejor primero. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas.

Cualquier número entero (int) o none .

none

min_impurity_decrease

min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas.

Cualquier float.

0.0

min_samples_split

min_samples_split establece el umbral mínimo de muestras necesario para que el árbol de decisión se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras.

Cualquier número entero (int) o fracción (float).

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf es el umbral mínimo de ponderación necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo del árbol de decisión asume ponderaciones iguales de manera predeterminada.

Cualquier float.

0.0

presort

Utiliza este parámetro para preordenar los datos, lo que podría ayudar al algoritmo a encontrar las mejores divisiones más rápido.

  • true

  • false

false

random_state

random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial.

  • int : Selecciona un entero para el generador de números aleatorios.

  • none : No hay repetibilidad.

seed : 10

splitter

splitter es la estrategia utilizada para dividir en un nodo. Incluye opciones para la división mejor primero y para la mejor división aleatoria. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas.

  • best : requiere más potencia computacional y podría correr el riesgo de sobreajuste.

  • random : puede encontrar rutas a través del árbol si ciertas asociaciones tienen señales débiles.

best

Nombre

Descripción

Opciones

Predeterminado

bootstrap

Bootstrapping, la base de bagging, es un método utilizado para muestrear el conjunto de datos para el entrenamiento. Este método involucra crear submuestras de tu conjunto de datos de manera iterativa para simular datos nuevos, no vistos, que puedes usar para mejorar la generalizabilidad de tu modelo.

  • true

  • false

true

class-weight

class_weight asigna ponderaciones a las diferentes clases del conjunto de datos. Los algoritmos de bosque aleatorio tienden a sobrevalorar las clases dominantes, resultando en desequilibrios. class_weight ayuda a equilibrar las clases en el conjunto de datos asignando ponderaciones adicionales a las clases minoritarias. Equilibrar las clases puede mejorar el rendimiento del modelo. De manera predeterminada, todas las clases tienen una ponderación de 1.

  • none : class_weight es el valor predeterminado (en otras palabras, 1) para todas las clases.

  • balanced : selecciona esta opción para que el bosque aleatorio ajuste automáticamente el class_weight en función del número de muestras en cada clase.

none

criterion

Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide los datos en nodos diferentes.

  • gini

  • entropy

gini

max_depth

max_depth es el camino más largo de una raíz a una hoja para cada árbol en el bosque. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos.

  • none: los nodos se expanden hasta que todos los nodos de hoja son puros (en otras palabras, constan completamente de datos que pertenecen a una sola clase) o hasta que todos los nodos de hoja contienen menos de lo especificado en el parámetro min_samples_split.

  • int : limita la expansión por divisiones.

int : 10

max_features

max_features establece el número máximo de características que cada árbol de decisión del bosque tiene en cuenta al buscar una mejor primera división.

  • auto: evalúa un número de características igual al número total de características del conjunto de datos.

  • none : Evalúa un número de características igual al número total de características del conjunto de datos.

  • sqrt: evalúa un número de características igual a la raíz cuadrada del número total de características en el conjunto de datos.

  • log2 : Evalúa un número de características igual al logaritmo binario del número total de características.

  • int : Evalúa un número de características en cada división igual al número que selecciones.

  • float : evalúa un número de características igual a una fracción seleccionada por el usuario del número total de características.

auto

min_impurity_decrease

min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas.

Cualquier float.

0.0

min_sample_split

min_samples_split establece el umbral mínimo de muestras necesarias para que el árbol de decisión (en un bosque aleatorio) se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras.

Cualquier número entero (int) o fracción (float).

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf es el umbral mínimo de peso necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo de árbol aleatorio asume ponderaciones iguales de manera predeterminada.

Cualquier float.

0.0

n_estimators

n_estimators es el número de árboles que quieres crear como parte del bosque.

Cualquier número entero.

100

random_state

random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial.

  • int : Selecciona un entero para el generador de números aleatorios.

  • none : No hay repetibilidad.

seed : 10

Nombre

Descripción

Opciones

Predeterminado

colsample_bylevel

colsample_bylevel es el porcentaje de datos para los que el algoritmo crea de manera aleatoria una submuestra en cada nivel de profundidad en un árbol.

Cualquier float de 0 a 1.

1

colsample_bynode

colsample_bynode es el porcentaje de datos para los que el algoritmo crea de manera aleatoria una submuestra en cada nodo en un árbol.

Cualquier float de 0 a 1.

1

colsample_bytree

colsample_bytree es el porcentaje de datos para los que el algoritmo crea de manera aleatoria una submuestra en cada árbol.

Cualquier float de 0 a 1.

1

gamma

gamma establece la reducción de pérdida necesaria para que un árbol de decisión se divida en un nuevo nodo. Una división ocurre donde reduciría la pérdida en una cantidad igual o mayor que gamma .

Cualquier número entero positivo o 0.

0

learning_rate

learning_rate es la tasa en la cual el algoritmo permite que la nueva información anule y reemplace la información antigua. Generalmente, se establece learning_rate en incrementos logarítmicos (por ejemplo, 0.003, 0.03, 0.3).

Cualquier float de 0 a 1.

0.05

max_depth

max_depth es el camino más largo de una raíz a una hoja para cada árbol en el bosque. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos.

Cualquier número igual o mayor que 1.

3

min_child_weight

min_child_weight establece el umbral del peso Hessiano necesario para que un árbol de decisión se divida en un nuevo nodo. Así que una división ocurre donde disminuiría el peso Hessiano en una cantidad igual o mayor que el peso min_child_weight.

Cualquier número positivo o 0.

1

n_estimators

n_estimators es el número de árboles que quieres crear como parte del bosque.

Cualquier número igual o mayor que 1.

100

random_state

random_state especifica el número inicial para generar una secuencia pseudoaleatoria.

Cualquier número entero.

10

subsample

subsample es el porcentaje de datos del que el algoritmo crea aleatoriamente una submuestra.

Cualquier número del 0 al 1.

1