AutoML
Aviso
La herramienta AutoML en Intelligence Suite quedó obsoleta a partir de la versión 2022.1. En Alteryx Machine Learning , todavía están disponibles capacidades de aprendizaje automático automatizadas similares.
Utiliza la herramienta AutoML como parte de un pipeline de aprendizaje automático para generar un modelo de tus datos automáticamente. La herramienta proporciona varios algoritmos para los métodos de clasificación y regresión, y, luego, evalúa los algoritmos comparándolos entre sí antes de generar un modelo entrenado.
Se requiere Alteryx Intelligence Suite
Esta herramienta forma parte de Alteryx Intelligence Suite. Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita.
Componentes de la herramienta
La herramienta AutoML tiene dos anclas:
Ancla de entrada: conecta la herramienta a los datos que quieres modelar.
Ancla de salida: transmite el objeto de modelo con métricas de rendimiento asociadas a las siguientes herramientas en el flujo de trabajo.
Configurar la herramienta
Para utilizar la herramienta AutoML, debes configurar opciones para el objetivo que quieres predecir y qué método de aprendizaje automático quieres utilizar.
1. Objetivo
Selecciona una opción del menú desplegable. En las opciones, se incluyen todas las columnas de los datos que has ingresado. El tipo de dato de cada columna se muestra junto a su nombre.
2. Método de aprendizaje automático
La herramienta AutoML selecciona automáticamente el mejor método de aprendizaje automático según el objetivo seleccionado. Los métodos de aprendizaje automático disponibles son regresión y clasificación. Tienes la opción de seleccionar manualmente el método de aprendizaje automático.
El método de regresión resuelve problemas en los que el objetivo es encontrar una línea de tendencia en los datos, como pronosticar el crecimiento del PIB. También puedes utilizar algoritmos de regresión para describir asociaciones entre eventos. Por ejemplo, podrías utilizar este método para averiguar si las ventas de una empresa aumentan en relación con el número de vendedores que emplea.
El método de clasificación resuelve problemas en los que el objetivo es averiguar a qué categoría pertenecen los datos, como de qué especie es una flor. Los problemas de clasificación son binarios, con dos categorías, o multiclase, con más de dos categorías. A menudo, se utilizan diferentes algoritmos para resolver cada tipo de problema de clasificación.
Configurar parámetros avanzados
La herramienta AutoML tiene diferentes opciones que puedes configurar para cambiar la forma en que la herramienta evalúa los algoritmos y, luego, selecciona uno para generar el mejor modelo de aprendizaje automático.
1. Función objetiva
Selecciona una función objetiva para optimizar el rendimiento del modelo. En el menú desplegable, selecciona la medida para la que deseas optimizar la herramienta.
La función objetiva es la que quieres utilizar para determinar la clasificación de los modelos que evalúa la herramienta. Las funciones objetivas son medidas que puedes utilizar a fin de determinar qué tan adecuado es un modelo para un caso práctico.
2. Algoritmos
Selecciona los tipos de algoritmos que quieres evaluar como parte del proceso de automodelado. Puedes seleccionar más de una opción. Cuantos más tipos selecciones, más tiempo tardará en ejecutarse el flujo de trabajo. Marca la casilla situada junto a cada algoritmo que quieres evaluar.
Bosque aleatorio : el algoritmo de bosque aleatorio entrena modelos mediante el uso de los resultados de un ensamble de árboles de decisión generados aleatoriamente. El algoritmo funciona mejor cuando se modelan asociaciones no lineales entre clases. El método de ensamble evita problemas de sobreajuste (memorización de datos) y subajuste (generalización de datos), pero es computacionalmente costoso (tarda más tiempo en ejecutarse).
XGBoost : el algoritmo XGBoost entrena modelos mediante el uso de los resultados de un ensamble de árboles de decisión generados aleatoriamente. Debido a la capacidad de aumento del algoritmo, un método por el cual los árboles de decisión mejoran por influencia de los otros, es menos susceptible al sobreajuste (memorización de datos) y subajuste (generalización de datos). El algoritmo XGBoost es más útil cuando quieres usar muchas características diferentes para entrenar el modelo.
Lineal : el algoritmo lineal entrena el modelo trazando líneas por los datos, lo que permite encontrar el mejor ajuste o dividirlos en grupos. Este algoritmo funciona mejor cuando se modelan asociaciones o tendencias lineales. Tiende a ser computacionalmente eficaz, pero propenso al subajuste.
CatBoost : el algoritmo CatBoost entrena el modelo mediante el uso de los resultados de un ensamble de árboles de decisión. Este algoritmo utiliza métodos de aumento similares al XGBoost, pero tiende a ser menos propenso al sobreajuste (memorizar los datos con los que se entrena). Este algoritmo es más computacionalmente costoso que XGBoost.
3. Máximo de pipelines de modelo para evaluar
Ingresa la cantidad de pipelines que quieres que genere la herramienta AutoML mediante el uso de los algoritmos seleccionados y, luego, evaluar según la función objetiva. Puedes evaluar de 1 a 50 pipelines.
4. Habilitar verificaciones de datos
Para habilitar las verificaciones de datos, marca la casilla en esta sección. Utilizamos las verificaciones de datos predeterminadas de EvalML .