Herramienta Clasificación
Utiliza la herramienta Clasificación como parte de un pipeline de aprendizaje automático para identificar la categoría a la que pertenece un objetivo. La herramienta proporciona varios algoritmos que puedes utilizar para entrenar un modelo. La herramienta también te permite ajustar un modelo utilizando varios parámetros.
Se requiere Alteryx Intelligence Suite
Esta herramienta forma parte de Alteryx Intelligence Suite . Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita .
Configurar la herramienta
Esta sección contiene información sobre cómo configurar la herramienta Clasificación.
Seleccionar un algoritmo
Selecciona el algoritmo que quieres utilizar. Puedes elegir Regresión logística , Árbol de decisión , Bosque aleatorio o XGBoost .
Configurar los parámetros
Configura los parámetros. Cada algoritmo tiene parámetros diferentes a los otros algoritmos. Cada algoritmo también tiene parámetros generales y avanzados. Los parámetros generales son fundamentales para crear un modelo preciso. Los parámetros avanzados pueden mejorar la precisión, pero requieren una comprensión profunda de sus funciones.
Consulta a la tabla para cada algoritmo para ver qué hacen los parámetros:
Nombre | Descripción | Opciones | Predeterminado |
class-weight | class_weight asigna ponderaciones a diferentes clases del conjunto de datos. Algunos algoritmos sobrevaloran las clases prevalecientes, lo que resulta en desequilibrios. Este parámetro ayuda a equilibrar las clases del conjunto de datos asignando peso adicional a las clases minoritarias. |
| none |
fit_intercept | Decide si quieres que el algoritmo calcule el intercepto para tu modelo de regresión lineal. También conocido como "constante", el intercepto es el valor medio esperado de y donde x es igual a 0. |
| intercept_scaling : 1.0 |
max_iter | max_iter especifica el número máximo de iteraciones para permitir que los solucionadores converjan. Los modelos con más iteraciones capturan más información sobre los datos. | Cualquier número entero (int). | 100 |
multi_class | multi_class especifica si el algoritmo necesita controlar más de dos clases. |
| auto |
penalty | penalty, también conocido como "regularización", se refiere a la práctica de modificar la función de pérdida para penalizar ciertos valores que el modelo sobrevaloraría de lo contrario. l1 (regresión Lasso) y l2 (regresión Ridge) son dos métodos de especificación del plazo de penalización. |
| l2 |
dual | dual transforma un problema de optimización primaria en un problema dual. |
*Solo puedes usar true si seleccionas la opción l2 para penalty y liblinear para solver . | false |
random_state | random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial. |
| seed : 10 |
solver | solver es el método que utiliza la regresión logística para optimizar su curva para que mejor se adapte a los datos mediante la determinación de pesos sigmoide. |
| liblinear |
tol | tol establece los criterios de detención para cuando el algoritmo debe detectar que los parámetros están lo suficientemente cerca de la convergencia (en otras palabras, permanecer constante). | Cualquier float positivo. | .0001 |
C | C permite ajustar la cantidad de penalización (en otras palabras, regularización) que aplique, limitando eficazmente las características que están fuertemente ponderadas por el modelo. Define este parámetro como un float positivo. | Cualquier float positivo. | 1.0 |
Nombre | Descripción | Opciones | Predeterminado |
class-weight | class_weight asigna ponderaciones a las diferentes clases del conjunto de datos. |
| none |
criterion | Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide el algoritmo de árbol de decisiones los datos en nodos diferentes. |
| gini |
max_depth | max-depth es el camino más largo desde una raíz hasta una hoja de un árbol. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos. |
| none |
max_features | max_features establece el número máximo de características que el árbol de decisión tiene en cuenta al buscar una mejor primera división. |
| auto |
max_leaf_nodes | max_leaf_nodes es el límite ascendente en el número total de nodos de hoja que el algoritmo puede generar. Crece nodos hasta la cantidad máxima de manera mejor primero. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas. | Cualquier número entero (int) o none . | none |
min_impurity_decrease | min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas. | Cualquier float. | 0.0 |
min_samples_split | min_samples_split establece el umbral mínimo de muestras necesario para que el árbol de decisión se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras. | Cualquier número entero (int) o fracción (float). | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf es el umbral mínimo de ponderación necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo del árbol de decisión asume ponderaciones iguales de manera predeterminada. | Cualquier float. | 0.0 |
presort | Utiliza este parámetro para preordenar los datos, lo que podría ayudar al algoritmo a encontrar las mejores divisiones más rápido. |
| false |
random_state | random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial. |
| seed : 10 |
splitter | splitter es la estrategia utilizada para dividir en un nodo. Incluye opciones para la división mejor primero y para la mejor división aleatoria. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas. |
| best |
Nombre | Descripción | Opciones | Predeterminado |
bootstrap | Bootstrapping, la base de bagging, es un método utilizado para muestrear el conjunto de datos para el entrenamiento. Este método involucra crear submuestras de tu conjunto de datos de manera iterativa para simular datos nuevos, no vistos, que puedes usar para mejorar la generalizabilidad de tu modelo. |
| true |
class-weight | class_weight asigna ponderaciones a las diferentes clases del conjunto de datos. Los algoritmos de bosque aleatorio tienden a sobrevalorar las clases dominantes, resultando en desequilibrios. class_weight ayuda a equilibrar las clases en el conjunto de datos asignando ponderaciones adicionales a las clases minoritarias. Equilibrar las clases puede mejorar el rendimiento del modelo. De manera predeterminada, todas las clases tienen una ponderación de 1. |
| none |
criterion | Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide los datos en nodos diferentes. |
| gini |
max_depth | max_depth es el camino más largo de una raíz a una hoja para cada árbol en el bosque. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos. |
| int : 10 |
max_features | max_features establece el número máximo de características que cada árbol de decisión del bosque tiene en cuenta al buscar una mejor primera división. |
| auto |
min_impurity_decrease | min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas. | Cualquier float. | 0.0 |
min_sample_split | min_samples_split establece el umbral mínimo de muestras necesarias para que el árbol de decisión (en un bosque aleatorio) se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras. | Cualquier número entero (int) o fracción (float). | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf es el umbral mínimo de peso necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo de árbol aleatorio asume ponderaciones iguales de manera predeterminada. | Cualquier float. | 0.0 |
n_estimators | n_estimators es el número de árboles que quieres crear como parte del bosque. | Cualquier número entero. | 100 |
random_state | random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial. |
| seed : 10 |
Nombre | Descripción | Opciones | Predeterminado |
colsample_bylevel | colsample_bylevel es el porcentaje de datos para los que el algoritmo crea de manera aleatoria una submuestra en cada nivel de profundidad en un árbol. | Cualquier float de 0 a 1. | 1 |
colsample_bynode | colsample_bynode es el porcentaje de datos para los que el algoritmo crea de manera aleatoria una submuestra en cada nodo en un árbol. | Cualquier float de 0 a 1. | 1 |
colsample_bytree | colsample_bytree es el porcentaje de datos para los que el algoritmo crea de manera aleatoria una submuestra en cada árbol. | Cualquier float de 0 a 1. | 1 |
gamma | gamma establece la reducción de pérdida necesaria para que un árbol de decisión se divida en un nuevo nodo. Una división ocurre donde reduciría la pérdida en una cantidad igual o mayor que gamma . | Cualquier número entero positivo o 0. | 0 |
learning_rate | learning_rate es la tasa en la cual el algoritmo permite que la nueva información anule y reemplace la información antigua. Generalmente, se establece learning_rate en incrementos logarítmicos (por ejemplo, 0.003, 0.03, 0.3). | Cualquier float de 0 a 1. | 0.05 |
max_depth | max_depth es el camino más largo de una raíz a una hoja para cada árbol en el bosque. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos. | Cualquier número igual o mayor que 1. | 3 |
min_child_weight | min_child_weight establece el umbral del peso Hessiano necesario para que un árbol de decisión se divida en un nuevo nodo. Así que una división ocurre donde disminuiría el peso Hessiano en una cantidad igual o mayor que el peso min_child_weight. | Cualquier número positivo o 0. | 1 |
n_estimators | n_estimators es el número de árboles que quieres crear como parte del bosque. | Cualquier número igual o mayor que 1. | 100 |
random_state | random_state especifica el número inicial para generar una secuencia pseudoaleatoria. | Cualquier número entero. | 10 |
subsample | subsample es el porcentaje de datos del que el algoritmo crea aleatoriamente una submuestra. | Cualquier número del 0 al 1. | 1 |