Skip to main content

Regression tool icon Herramienta Regresión

Utiliza la herramienta Regresión como parte de un pipeline de aprendizaje automático para identificar una tendencia. La herramienta proporciona varios algoritmos que puedes utilizar para entrenar un modelo. La herramienta también te permite ajustar un modelo utilizando varios parámetros.

Se requiere Alteryx Intelligence Suite

Esta herramienta forma parte de Alteryx Intelligence Suite. Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita.

Configurar la herramienta

Esta sección contiene información sobre cómo configurar la herramienta Regresión.

Seleccionar un algoritmo

Selecciona el algoritmo que quieres utilizar. Puedes elegir Regresión lineal , Árbol de decisión o Bosque aleatorio .

Configurar los parámetros

Configura los parámetros. Cada algoritmo tiene parámetros específicos. Cada algoritmo también tiene parámetros generales y avanzados. Los parámetros generales son fundamentales para crear un modelo preciso. Los parámetros avanzados pueden mejorar la precisión, pero requieren una comprensión profunda de sus funciones.

Consulta a la tabla para cada algoritmo para ver qué hacen los parámetros:

Nombre

Descripción

Opciones

Predeterminado

fit_intercept

Decide si quieres que el algoritmo calcule el intercepto para tu modelo de regresión lineal. También conocido como la "constante", el intercepto es el valor medio esperado de y donde x es igual a 0.

  • Activado

  • Desactivado

Activado

normalize

Decide si quieres que el algoritmo normalice tus objetivos. La normalización ajusta los objetivos de forma que pueda compararlos en una escala común con otros datos, ayudándote a identificar asociaciones en los datos.

  • Activado

  • Desactivado

Activado

Nombre

Descripción

Opciones

Predeterminado

criterion

Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide el algoritmo de árbol de decisiones los datos en nodos diferentes.

  • mse

  • friedman_mse

  • Error absoluto medio

mse

max_depth

max_depth es el camino más largo desde una raíz hasta una hoja de un árbol. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos.

  • none: los nodos se expanden hasta que todos los nodos de hoja son puros (en otras palabras, constan completamente de datos que pertenecen a una sola clase) o hasta que todos los nodos de hoja contienen menos de lo especificado en el parámetro min_samples_split.

  • int : limita la expansión por divisiones.

Sin límite

max_features

max_features establece el número máximo de características que el árbol de decisión tiene en cuenta al buscar una mejor primera división.

  • auto : evalúa un número de características igual al número total de características del conjunto de datos.

  • none : evalúa un número de características igual al número total de características del conjunto de datos.

  • sqrt : evalúa un número de características igual a la raíz cuadrada del número total de características en el conjunto de datos.

  • log2 : evalúa un número de características igual al logaritmo binario del número total de características.

  • int : evalúa un número de características en cada división igual al número que selecciones.

  • float : evalúa un número de características igual a una fracción seleccionada por el usuario del número total de características.

Automático

max_leaf_nodes

max_leaf_nodes es el límite ascendente en el número total de nodos de hoja que el algoritmo puede generar. Crece nodos hasta la cantidad máxima de manera mejor primero. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas.

Cualquier número entero o none .

Ninguno

min_impurity_decrease

min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease . Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas.

Cualquier float.

0.0

min_samples_split

min_samples_split establece el umbral mínimo de muestras necesario para que el árbol de decisión se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras.

Cualquier número entero o fracción.

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf es el umbral mínimo de ponderación necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo del árbol de decisión asume ponderaciones iguales de manera predeterminada.

Cualquier float.

0.0

presort

Utiliza este parámetro para preordenar los datos, lo que podría ayudar al algoritmo a encontrar las mejores divisiones más rápido.

  • Activado

  • Desactivado

Desactivado

Semilla aleatoria

random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial.

  • int

  • Ninguno

int : 10

splitter

splitter es la estrategia utilizada para dividir en un nodo. Incluye opciones para la división mejor primero y para la mejor división aleatoria. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas.

  • best : esta opción requiere más potencia computacional y podría correr el riesgo de sobreajuste.

  • random : esta opción puede encontrar rutas a través del árbol si ciertas asociaciones tienen señales débiles.

best

Nombre

Descripción

Opciones

Predeterminado

bootstrap

Bootstrapping, la base de bagging, es un método utilizado para muestrear el conjunto de datos para el entrenamiento. Este método involucra crear submuestras de tu conjunto de datos de manera iterativa para simular datos nuevos, no vistos, que puedes usar para mejorar la generalizabilidad de tu modelo.

  • Activado

  • Desactivado

Activado

criterion

Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide el algoritmo de bosque aleatorio los datos en nodos diferentes, que constan de los muchos árboles diferentes del bosque aleatorio.

  • mse

  • friedman_mse

  • Error absoluto medio

mse

max_depth

max_depth es el camino más largo de una raíz a una hoja para cada árbol en el bosque. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos.

  • none: los nodos se expanden hasta que todos los nodos de hoja son puros (en otras palabras, constan completamente de datos que pertenecen a una sola clase) o hasta que todos los nodos de hoja contienen menos de lo especificado en el parámetro min_samples_split.

  • int : limita la expansión por divisiones.

Sin límite

max_features

max_features establece el número máximo de características que cada árbol de decisión del bosque tiene en cuenta al buscar una mejor primera división.

  • auto : evalúa un número de características igual al número total de características del conjunto de datos.

  • none : evalúa un número de características igual al número total de características del conjunto de datos.

  • sqrt : evalúa un número de características igual a la raíz cuadrada del número total de características en el conjunto de datos.

  • log2 : evalúa un número de características igual al logaritmo binario del número total de características.

  • int : evalúa un número de características en cada división igual al número que selecciones.

  • float : evalúa un número de características igual a una fracción seleccionada por el usuario del número total de características.

Automático

min_impurity_decrease

min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease . Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas.

Cualquier float.

0.0

min_samples_split

min_samples_split establece el umbral mínimo de muestras necesarias para que el árbol de decisión (en un bosque aleatorio) se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras.

Cualquier número entero o fracción.

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf es el umbral mínimo de peso necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo de árbol aleatorio asume ponderaciones iguales de manera predeterminada.

Cualquier float.

0.0

n_estimators

n_estimators es el número de árboles que quieres crear como parte del bosque.

Cualquier número entero.

100

Semilla aleatoria

random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial.

  • int : Selecciona un entero para el generador de números aleatorios.

  • none : No hay repetibilidad.

int : 10