Ferramenta Classificação
Use a ferramenta Classificação como parte de um pipeline de machine learning para identificar a que categoria uma variável alvo pertence. A ferramenta fornece vários algoritmos que você pode usar para treinar um modelo. Ela também permite que você ajuste um modelo usando uma série de parâmetros.
Requer o Alteryx Intelligence Suite
Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .
Configurar a ferramenta
Esta seção contém informações sobre como configurar a ferramenta Classificação.
Selecionar algoritmo
Selecione qual algoritmo você deseja usar. Você pode escolher Regressão logística , Árvore de decisão, Floresta aleatória ou XGBoost .
Configurar parâmetros
Configure os parâmetros. Cada algoritmo tem parâmetros diferentes. Todos os algoritmos têm parâmetros gerais e avançados. Os parâmetros gerais são fundamentais para criar um modelo acurado, mesmo para iniciantes. Os parâmetros avançados podem melhorar a acurácia, mas requerem um entendimento mais aprofundado acerca do que cada um faz.
Faça referência à tabela de cada algoritmo para ver o que os parâmetros fazem:
Nome | Descrição | Opções | Padrão |
class_weight | O parâmetro class_weight atribui pesos às diferentes classes do conjunto de dados. Alguns algoritmos supervalorizam as classes predominantes, resultando em desequilíbrios. Esse parâmetro ajuda a equilibrar as classes no conjunto de dados atribuindo peso adicional às classes minoritárias. |
| none |
fit_intercept | Decida se você deseja que o algoritmo calcule o intercepto para o seu modelo de regressão linear. Também conhecido como “constante”, o intercepto é o valor médio esperado de y onde x é igual a 0. |
| intercept_scaling : 1.0 |
max_iter | O parâmetro max_iter especifica o número máximo de iterações necessárias para os solvers convergirem. Modelos com mais iterações capturam mais informações sobre os dados. | Qualquer número inteiro. | 100 |
multi_class | O parâmetro multi_class especifica se o algoritmo precisa lidar com mais de duas classes. |
| auto |
penalty | O parâmetro penalty , também conhecido como "regularização", refere-se à prática de modificar a função de perda para penalizar determinados valores que o modelo, de outra forma, supervalorizaria. Os métodos l1 (regressão lasso) e l2 (regressão ridge) são usados para especificar o termo da penalidade. |
| l2 |
dual | O parâmetro dual transforma um problema de otimização primal em um problema dual. |
*Você só pode usar true (ou seja, problema dual) se você selecionar a opção l2 para "penalty" e liblinear para "solver". | false |
random_state | O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial. |
| int : 10 |
solver | O parâmetro solver é o método que a regressão logística usa para otimizar sua curva para melhor ajustar os dados, por meio da determinação de pesos sigmoides. |
| liblinear |
tol | O parâmetro tol define a tolerância, isto é, os critérios de parada para quando o algoritmo deve detectar que os parâmetros estão próximos o suficiente da convergência (ou seja, permanecem constantes). | Qualquer float positivo. | .0001 |
C | O parâmetro C ( ajuste de regularização ) permite ajustar quanta penalidade (ou seja, regularização) você aplica, efetivamente limitando os recursos aos quais o modelo atribui um peso maior. Defina este parâmetro como um float positivo. | Qualquer float positivo. | 1.0 |
Nome | Descrição | Opções | Padrão |
class_weight | O parâmetro class_weight atribui pesos às diferentes classes do conjunto de dados. |
| none |
criterion | Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de árvore de decisão divide os dados em diferentes nós. |
| gini |
max_depth | O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha em uma árvore. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados. |
| none |
max_features | O parâmetro max_features define o número máximo de recursos que a árvore de decisão considera ao procurar a melhor primeira divisão. |
| auto |
max_leaf_nodes | O parâmetro max_leaf_nodes é o limite superior do número total de nós folha que seu algoritmo pode gerar. Nós são gerados até o número máximo de uma maneira best-first. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. | Qualquer número inteiro (int) ou nenhum ( none ). | none |
min_impurity_decrease | O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para que a árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. | Qualquer float. | 0.0 |
min_samples_split | O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que a árvore de decisão se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. | Qualquer número inteiro (int) ou fração (float). | int : 2 |
min_weight_fraction_leaf | O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para a árvore de decisão se dividir em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de árvore de decisão assume pesos iguais por padrão. | Qualquer float. | 0.0 |
presort | Use esse parâmetro para pré-ordenar os dados, o que pode ajudar o algoritmo a encontrar as melhores divisões mais rapidamente. |
| false |
random_state | O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial. |
| int : 10 |
splitter | O parâmetro splitter é a estratégia usada para fazer a divisão em um nó. Ele inclui opções para a melhor primeira divisão (best) e a melhor divisão aleatória (random). O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. |
| best |
Nome | Descrição | Opções | Padrão |
bootstrap | Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo. |
| true |
class_weight | O parâmetro class_weight atribui pesos às diferentes classes do conjunto de dados. Os algoritmos de floresta aleatória tendem a supervalorizar classes predominantes, resultando em desequilíbrios. O parâmetro class_weight atribui peso adicional a classes minoritárias, o que ajuda a equilibrar as classes do conjunto de dados. O balanceamento de classes pode melhorar o desempenho do modelo. Por padrão, todas as classes têm peso 1. |
| none |
criterion | Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de floresta aleatória divide os dados em diferentes nós. |
| gini |
max_depth | O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados. |
| int : 10 |
max_features | O parâmetro max_features define o número máximo de recursos que cada árvore de decisão na floresta considera ao procurar a melhor primeira divisão. |
| auto |
min_impurity_decrease | O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para a árvore de decisão se dividir em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. | Qualquer float. | 0.0 |
min_samples_split | O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que uma árvore de decisão (em uma floresta aleatória) se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. | Qualquer número inteiro (int) ou fração (float). | int : 2 |
min_weight_fraction_leaf | O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que uma árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de floresta aleatória assume pesos iguais por padrão. | Qualquer float. | 0.0 |
n_estimators | O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta. | Qualquer número inteiro. | 100 |
random_state | O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial. |
| int : 10 |
Nome | Descrição | Opções | Padrão |
colsample_bylevel | O parâmetro colsample_bylevel é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente para cada nível de profundidade em uma árvore. | Qualquer float de 0 a 1. | 1 |
colsample_bynode | O parâmetro colsample_bynode é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente para cada nó em uma árvore. | Qualquer float de 0 a 1. | 1 |
colsample_bytree | O parâmetro colsample_bytree é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente para cada árvore. | Qualquer float de 0 a 1. | 1 |
gamma | O parâmetro gamma define a redução de perda necessária para que uma árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso reduziria a perda em uma quantidade igual ou superior a gamma . | Qualquer número inteiro positivo ou 0. | 0 |
learning_rate | O parâmetro learning_rate é a taxa na qual o algoritmo permite que novas informações substituam informações antigas. Em geral, o learning_rate é definido em incrementos logarítmicos (por exemplo, 0,003, 0,03, 0,3). | Qualquer float de 0 a 1. | 0.05 |
max_depth | O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados. | Qualquer número igual ou superior a 1. | 3 |
min_child_weight | O parâmetro min_child_weight é o peso mínimo do filho e define o limite do peso hessiano necessário para que uma árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso rediziria o peso hessinano em uma quantidade igual ou superior a min_child_weight. | Qualquer número positivo ou 0. | 1 |
n_estimators | O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta. | Qualquer número igual ou superior a 1. | 100 |
random_state | O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. | Qualquer número inteiro. | 10 |
subsample | O parâmetro subsample é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente. | Qualquer número de 0 a 1. | 1 |