Herramienta Clasificación

Utiliza la herramienta Clasificación como parte de un pipeline de aprendizaje automático para identificar la categoría a la que pertenece un objetivo. La herramienta proporciona varios algoritmos que puedes utilizar para entrenar un modelo. La herramienta también te permite ajustar un modelo utilizando varios parámetros.

Se requiere Alteryx Intelligence Suite

Esta herramienta forma parte de Alteryx Intelligence Suite. Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita.

Configurar la herramienta

Esta sección contiene información sobre cómo configurar la herramienta Clasificación.

Seleccionar un algoritmo

Selecciona el algoritmo que quieres utilizar. Puedes elegir Regresión logística , Árbol de decisión , Bosque aleatorio o XGBoost .

Configurar los parámetros

Configura los parámetros. Cada algoritmo tiene parámetros diferentes a los otros algoritmos. Cada algoritmo también tiene parámetros generales y avanzados. Los parámetros generales son fundamentales para crear un modelo preciso. Los parámetros avanzados pueden mejorar la precisión, pero requieren una comprensión profunda de sus funciones.

Consulta a la tabla para cada algoritmo para ver qué hacen los parámetros:

Regresión logística

Nombre	Descripción	Opciones	Predeterminado
class-weight	class_weight asigna ponderaciones a diferentes clases del conjunto de datos. Algunos algoritmos sobrevaloran las clases prevalecientes, lo que resulta en desequilibrios. Este parámetro ayuda a equilibrar las clases del conjunto de datos asignando peso adicional a las clases minoritarias.	none balanced	none
fit_intercept	Decide si quieres que el algoritmo calcule el intercepto para tu modelo de regresión lineal. También conocido como "constante", el intercepto es el valor medio esperado de y donde x es igual a 0.	none intercept_scaling	intercept_scaling : 1.0
max_iter	max_iter especifica el número máximo de iteraciones para permitir que los solucionadores converjan. Los modelos con más iteraciones capturan más información sobre los datos.	Cualquier número entero (int).	100
multi_class	multi_class especifica si el algoritmo necesita controlar más de dos clases.	auto automáticamente selecciona multinomial u OVR. multinomial es capaz de realizar clasificación multiclase o binaria. ovr es capaz de realizar clasificación binaria.	auto
penalty	penalty, también conocido como "regularización", se refiere a la práctica de modificar la función de pérdida para penalizar ciertos valores que el modelo sobrevaloraría de lo contrario. l1 (regresión Lasso) y l2 (regresión Ridge) son dos métodos de especificación del plazo de penalización.	l1 ayuda a encontrar las características más importantes en conjuntos de datos con muchas características estableciendo algunos pesos en 0. l2 ayuda a que todas las características contribuyan al modelo, ya que se asegura de que los pesos no sean cero.	l2
dual	dual transforma un problema de optimización primaria en un problema dual.	false true * Solo puedes usar true* si seleccionas la opción l2 para penalty y liblinear para solver .	false
random_state	random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial.	int none	seed : 10
solver	solver es el método que utiliza la regresión logística para optimizar su curva para que mejor se adapte a los datos mediante la determinación de pesos sigmoide.	liblinear: utiliza este método para conjuntos de datos más pequeños, donde quieras aplicar una penalización. liblinear requiere una penalización. sag : utiliza este método para conjuntos de datos más grandes, donde quieras aplicar un penalty l2 o ningún penalty. saga : utiliza este método para conjuntos de datos más grandes, donde quieras aplicar una penalización l2 o ninguna penalización. lbfgs: utiliza este método para conjuntos de datos más pequeños, donde quieras aplicar una penalización l2 o ninguna penalización. newton-CG : utiliza este método para conjuntos de datos más pequeños, donde quieras aplicar una penalización l2 o ninguna penalización.	liblinear
tol	tol establece los criterios de detención para cuando el algoritmo debe detectar que los parámetros están lo suficientemente cerca de la convergencia (en otras palabras, permanecer constante).	Cualquier float positivo.	.0001
C	C permite ajustar la cantidad de penalización (en otras palabras, regularización) que aplique, limitando eficazmente las características que están fuertemente ponderadas por el modelo. Define este parámetro como un float positivo.	Cualquier float positivo.	1.0

Árbol de decisión

Nombre	Descripción	Opciones	Predeterminado
class-weight	class_weight asigna ponderaciones a las diferentes clases del conjunto de datos.	none balanced	none
criterion	Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide el algoritmo de árbol de decisiones los datos en nodos diferentes.	gini entropy	gini
max_depth	max-depth es el camino más largo desde una raíz hasta una hoja de un árbol. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos.	none: los nodos se expanden hasta que todos los nodos de hoja son puros (en otras palabras, constan completamente de datos que pertenecen a una sola clase) o hasta que todos los nodos de hoja contienen menos de lo especificado en el parámetro min_samples_split. int : limita la expansión por divisiones.	none
max_features	max_features establece el número máximo de características que el árbol de decisión tiene en cuenta al buscar una mejor primera división.	auto: evalúa un número de características igual al número total de características del conjunto de datos. none : Evalúa un número de características igual al número total de características del conjunto de datos. sqrt: evalúa un número de características igual a la raíz cuadrada del número total de características en el conjunto de datos. log2 : Evalúa un número de características igual al logaritmo binario del número total de características. int : Evalúa un número de características en cada división igual al número que selecciones. float : evalúa un número de características igual a una fracción seleccionada por el usuario del número total de características.	auto
max_leaf_nodes	max_leaf_nodes es el límite ascendente en el número total de nodos de hoja que el algoritmo puede generar. Crece nodos hasta la cantidad máxima de manera mejor primero. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas.	Cualquier número entero (int) o none .	none
min_impurity_decrease	min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas.	Cualquier float.	0.0
min_samples_split	min_samples_split establece el umbral mínimo de muestras necesario para que el árbol de decisión se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras.	Cualquier número entero (int) o fracción (float).	int : 2
min_weight_fraction_leaf	min_weight_fraction_leaf es el umbral mínimo de ponderación necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo del árbol de decisión asume ponderaciones iguales de manera predeterminada.	Cualquier float.	0.0
presort	Utiliza este parámetro para preordenar los datos, lo que podría ayudar al algoritmo a encontrar las mejores divisiones más rápido.	true false	false
random_state	random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial.	int : Selecciona un entero para el generador de números aleatorios. none : No hay repetibilidad.	seed : 10
splitter	splitter es la estrategia utilizada para dividir en un nodo. Incluye opciones para la división mejor primero y para la mejor división aleatoria. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas.	best : requiere más potencia computacional y podría correr el riesgo de sobreajuste. random : puede encontrar rutas a través del árbol si ciertas asociaciones tienen señales débiles.	best

Bosque aleatorio

Nombre	Descripción	Opciones	Predeterminado
bootstrap	Bootstrapping, la base de bagging, es un método utilizado para muestrear el conjunto de datos para el entrenamiento. Este método involucra crear submuestras de tu conjunto de datos de manera iterativa para simular datos nuevos, no vistos, que puedes usar para mejorar la generalizabilidad de tu modelo.	true false	true
class-weight	class_weight asigna ponderaciones a las diferentes clases del conjunto de datos. Los algoritmos de bosque aleatorio tienden a sobrevalorar las clases dominantes, resultando en desequilibrios. class_weight ayuda a equilibrar las clases en el conjunto de datos asignando ponderaciones adicionales a las clases minoritarias. Equilibrar las clases puede mejorar el rendimiento del modelo. De manera predeterminada, todas las clases tienen una ponderación de 1.	none : class_weight es el valor predeterminado (en otras palabras, 1) para todas las clases. balanced : selecciona esta opción para que el bosque aleatorio ajuste automáticamente el class_weight en función del número de muestras en cada clase.	none
criterion	Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide los datos en nodos diferentes.	gini entropy	gini
max_depth	max_depth es el camino más largo de una raíz a una hoja para cada árbol en el bosque. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos.	none: los nodos se expanden hasta que todos los nodos de hoja son puros (en otras palabras, constan completamente de datos que pertenecen a una sola clase) o hasta que todos los nodos de hoja contienen menos de lo especificado en el parámetro min_samples_split. int : limita la expansión por divisiones.	int : 10
max_features	max_features establece el número máximo de características que cada árbol de decisión del bosque tiene en cuenta al buscar una mejor primera división.	auto: evalúa un número de características igual al número total de características del conjunto de datos. none : Evalúa un número de características igual al número total de características del conjunto de datos. sqrt: evalúa un número de características igual a la raíz cuadrada del número total de características en el conjunto de datos. log2 : Evalúa un número de características igual al logaritmo binario del número total de características. int : Evalúa un número de características en cada división igual al número que selecciones. float : evalúa un número de características igual a una fracción seleccionada por el usuario del número total de características.	auto
min_impurity_decrease	min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas.	Cualquier float.	0.0
min_sample_split	min_samples_split establece el umbral mínimo de muestras necesarias para que el árbol de decisión (en un bosque aleatorio) se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras.	Cualquier número entero (int) o fracción (float).	int : 2
min_weight_fraction_leaf	min_weight_fraction_leaf es el umbral mínimo de peso necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo de árbol aleatorio asume ponderaciones iguales de manera predeterminada.	Cualquier float.	0.0
n_estimators	n_estimators es el número de árboles que quieres crear como parte del bosque.	Cualquier número entero.	100
random_state	random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial.	int : Selecciona un entero para el generador de números aleatorios. none : No hay repetibilidad.	seed : 10

XGBOOST

Nombre	Descripción	Opciones	Predeterminado
colsample_bylevel	colsample_bylevel es el porcentaje de datos para los que el algoritmo crea de manera aleatoria una submuestra en cada nivel de profundidad en un árbol.	Cualquier float de 0 a 1.	1
colsample_bynode	colsample_bynode es el porcentaje de datos para los que el algoritmo crea de manera aleatoria una submuestra en cada nodo en un árbol.	Cualquier float de 0 a 1.	1
colsample_bytree	colsample_bytree es el porcentaje de datos para los que el algoritmo crea de manera aleatoria una submuestra en cada árbol.	Cualquier float de 0 a 1.	1
gamma	gamma establece la reducción de pérdida necesaria para que un árbol de decisión se divida en un nuevo nodo. Una división ocurre donde reduciría la pérdida en una cantidad igual o mayor que gamma .	Cualquier número entero positivo o 0.	0
learning_rate	learning_rate es la tasa en la cual el algoritmo permite que la nueva información anule y reemplace la información antigua. Generalmente, se establece learning_rate en incrementos logarítmicos (por ejemplo, 0.003, 0.03, 0.3).	Cualquier float de 0 a 1.	0.05
max_depth	max_depth es el camino más largo de una raíz a una hoja para cada árbol en el bosque. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos.	Cualquier número igual o mayor que 1.	3
min_child_weight	min_child_weight establece el umbral del peso Hessiano necesario para que un árbol de decisión se divida en un nuevo nodo. Así que una división ocurre donde disminuiría el peso Hessiano en una cantidad igual o mayor que el peso min_child_weight.	Cualquier número positivo o 0.	1
n_estimators	n_estimators es el número de árboles que quieres crear como parte del bosque.	Cualquier número igual o mayor que 1.	100
random_state	random_state especifica el número inicial para generar una secuencia pseudoaleatoria.	Cualquier número entero.	10
subsample	subsample es el porcentaje de datos del que el algoritmo crea aleatoriamente una submuestra.	Cualquier número del 0 al 1.	1

En esta sección: