Skip to main content

Classification tool icon Ferramenta Classificação

Use a ferramenta Classificação como parte de um pipeline de machine learning para identificar a que categoria uma variável alvo pertence. A ferramenta fornece vários algoritmos que você pode usar para treinar um modelo. Ela também permite que você ajuste um modelo usando uma série de parâmetros.

Requer o Alteryx Intelligence Suite

Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .

Configurar a ferramenta

Esta seção contém informações sobre como configurar a ferramenta Classificação.

Selecionar algoritmo

Selecione qual algoritmo você deseja usar. Você pode escolher Regressão logística , Árvore de decisão, Floresta aleatória ou XGBoost .

Configurar parâmetros

Configure os parâmetros. Cada algoritmo tem parâmetros diferentes. Todos os algoritmos têm parâmetros gerais e avançados. Os parâmetros gerais são fundamentais para criar um modelo acurado, mesmo para iniciantes. Os parâmetros avançados podem melhorar a acurácia, mas requerem um entendimento mais aprofundado acerca do que cada um faz.

Faça referência à tabela de cada algoritmo para ver o que os parâmetros fazem:

Nome

Descrição

Opções

Padrão

class_weight

O parâmetro class_weight atribui pesos às diferentes classes do conjunto de dados. Alguns algoritmos supervalorizam as classes predominantes, resultando em desequilíbrios. Esse parâmetro ajuda a equilibrar as classes no conjunto de dados atribuindo peso adicional às classes minoritárias.

  • none

  • balanced

none

fit_intercept

Decida se você deseja que o algoritmo calcule o intercepto para o seu modelo de regressão linear. Também conhecido como “constante”, o intercepto é o valor médio esperado de y onde x é igual a 0.

  • false

  • intercept_scaling

intercept_scaling : 1.0

max_iter

O parâmetro max_iter especifica o número máximo de iterações necessárias para os solvers convergirem. Modelos com mais iterações capturam mais informações sobre os dados.

Qualquer número inteiro.

100

multi_class

O parâmetro multi_class especifica se o algoritmo precisa lidar com mais de duas classes.

  • A opção auto seleciona automaticamente entre multinomial ou ovr.

  • A opção multinomial é capaz de lidar com classificação multiclasse ou binária.

  • A opção ovr é capaz de lidar com classificação binária.

auto

penalty

O parâmetro penalty , também conhecido como "regularização", refere-se à prática de modificar a função de perda para penalizar determinados valores que o modelo, de outra forma, supervalorizaria. Os métodos l1 (regressão lasso) e l2 (regressão ridge) são usados para especificar o termo da penalidade.

  • A opção l1  define alguns pesos como 0, o que ajuda a encontrar os recursos mais importantes em conjuntos de dados com muitos recursos.

  • A opção l2 faz com que os pesos sejam diferentes de zero, o que garante que todos os recursos contribuam para o modelo.

l2

dual

O parâmetro dual transforma um problema de otimização primal em um problema dual.

  • false

  • true *

*Você só pode usar true (ou seja, problema dual) se você selecionar a opção l2 para "penalty" e liblinear para "solver".

false

random_state

O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial.

  • int

  • none

int : 10

solver

O parâmetro solver é o método que a regressão logística usa para otimizar sua curva para melhor ajustar os dados, por meio da determinação de pesos sigmoides.

  • liblinear: use esse método para conjuntos de dados menores, aos quais você deseja aplicar uma penalidade. O método liblinear requer uma penalidade.

  • sag : use esse método para conjuntos de dados maiores, aos quais você deseja aplicar uma penalidade l2 ou nenhuma penalidade.

  • saga : use esse método para conjuntos de dados maiores, aos quais você deseja aplicar uma penalidade l1 ou nenhuma penalidade.

  • lbfgs : use esse método para conjuntos de dados menores, aos quais você deseja aplicar uma penalidade l2 ou nenhuma penalidade.

  • newton-gc : use esse método para conjuntos de dados menores, aos quais você deseja aplicar uma penalidade l2 ou nenhuma penalidade.

liblinear

tol

O parâmetro tol define a tolerância, isto é, os critérios de parada para quando o algoritmo deve detectar que os parâmetros estão próximos o suficiente da convergência (ou seja, permanecem constantes).

Qualquer float positivo.

.0001

C

O parâmetro C ( ajuste de regularização ) permite ajustar quanta penalidade (ou seja, regularização) você aplica, efetivamente limitando os recursos aos quais o modelo atribui um peso maior. Defina este parâmetro como um float positivo.

Qualquer float positivo.

1.0

Nome

Descrição

Opções

Padrão

class_weight

O parâmetro class_weight atribui pesos às diferentes classes do conjunto de dados.

  • none

  • balanced

none

criterion

Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de árvore de decisão divide os dados em diferentes nós.

  • gini

  • entropy

gini

max_depth

O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha em uma árvore. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.

  • none : os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split.

  • int : limita a expansão por meio de divisões.

none

max_features

O parâmetro max_features define o número máximo de recursos que a árvore de decisão considera ao procurar a melhor primeira divisão.

  • auto : avalia um número de recursos igual ao número total de recursos no conjunto de dados.

  • none : avalia um número de recursos igual ao número total de recursos no conjunto de dados.

  • sqrt : avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados.

  • log2 : avalia um número de recursos igual ao logaritmo binário do número total de recursos.

  • int : avalia um número de recursos a cada divisão igual ao número que você selecionou.

  • float : avalia um número de recursos igual à fração selecionada do número total de recursos.

auto

max_leaf_nodes

O parâmetro max_leaf_nodes é o limite superior do número total de nós folha que seu algoritmo pode gerar. Nós são gerados até o número máximo de uma maneira best-first. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza.

Qualquer número inteiro (int) ou nenhum ( none ).

none

min_impurity_decrease

O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para que a árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza.

Qualquer float.

0.0

min_samples_split

O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que a árvore de decisão se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras.

Qualquer número inteiro (int) ou fração (float).

int : 2

min_weight_fraction_leaf

O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para a árvore de decisão se dividir em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de árvore de decisão assume pesos iguais por padrão.

Qualquer float.

0.0

presort

Use esse parâmetro para pré-ordenar os dados, o que pode ajudar o algoritmo a encontrar as melhores divisões mais rapidamente.

  • true

  • false

false

random_state

O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial.

  • int : selecione um número inteiro para o gerador de números aleatórios.

  • none : nenhuma repetibilidade.

int : 10

splitter

O parâmetro splitter é a estratégia usada para fazer a divisão em um nó. Ele inclui opções para a melhor primeira divisão (best) e a melhor divisão aleatória (random). O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas.

  • best : essa opção requer mais poder computacional e traz o risco de sobreajuste.

  • random : o modo aleatório pode encontrar caminhos pela árvore se certas associações tiverem sinais fracos.

best

Nome

Descrição

Opções

Padrão

bootstrap

Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo.

  • true

  • false

true

class_weight

O parâmetro class_weight atribui pesos às diferentes classes do conjunto de dados. Os algoritmos de floresta aleatória tendem a supervalorizar classes predominantes, resultando em desequilíbrios. O parâmetro class_weight  atribui peso adicional a classes minoritárias, o que ajuda a equilibrar as classes do conjunto de dados. O balanceamento de classes pode melhorar o desempenho do modelo. Por padrão, todas as classes têm peso 1.

  • none : é usado o peso padrão (ou seja, 1) para todas as classes.

  • balanced : selecione essa opção para que o algoritmo de floresta aleatória ajuste automaticamente os pesos das classes com base no número de amostras em cada classe.

none

criterion

Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de floresta aleatória divide os dados em diferentes nós.

  • gini

  • entropy

gini

max_depth

O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.

  • none : os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split.

  • int : limita a expansão por meio de divisões.

int : 10

max_features

O parâmetro max_features define o número máximo de recursos que cada árvore de decisão na floresta considera ao procurar a melhor primeira divisão.

  • auto : avalia um número de recursos igual ao número total de recursos no conjunto de dados.

  • none : avalia um número de recursos igual ao número total de recursos no conjunto de dados.

  • sqrt : avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados.

  • log2 : avalia um número de recursos igual ao logaritmo binário do número total de recursos.

  • int : avalia um número de recursos a cada divisão igual ao número que você selecionou.

  • float : avalia um número de recursos igual à fração selecionada do número total de recursos.

auto

min_impurity_decrease

O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para a árvore de decisão se dividir em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza.

Qualquer float.

0.0

min_samples_split

O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que uma árvore de decisão (em uma floresta aleatória) se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras.

Qualquer número inteiro (int) ou fração (float).

int : 2

min_weight_fraction_leaf

O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que uma árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de floresta aleatória assume pesos iguais por padrão.

Qualquer float.

0.0

n_estimators

O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta.

Qualquer número inteiro.

100

random_state

O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial.

  • int : selecione um número inteiro para o gerador de números aleatórios.

  • none : nenhuma repetibilidade.

int : 10

Nome

Descrição

Opções

Padrão

colsample_bylevel

O parâmetro colsample_bylevel é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente para cada nível de profundidade em uma árvore.

Qualquer float de 0 a 1.

1

colsample_bynode

O parâmetro colsample_bynode é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente para cada nó em uma árvore.

Qualquer float de 0 a 1.

1

colsample_bytree

O parâmetro colsample_bytree é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente para cada árvore.

Qualquer float de 0 a 1.

1

gamma

O parâmetro gamma define a redução de perda necessária para que uma árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso reduziria a perda em uma quantidade igual ou superior a gamma .

Qualquer número inteiro positivo ou 0.

0

learning_rate

O parâmetro learning_rate é a taxa na qual o algoritmo permite que novas informações substituam informações antigas. Em geral, o learning_rate é definido em incrementos logarítmicos (por exemplo, 0,003, 0,03, 0,3).

Qualquer float de 0 a 1.

0.05

max_depth

O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.

Qualquer número igual ou superior a 1.

3

min_child_weight

O parâmetro min_child_weight é o peso mínimo do filho e define o limite do peso hessiano necessário para que uma árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso rediziria o peso hessinano em uma quantidade igual ou superior a min_child_weight.

Qualquer número positivo ou 0.

1

n_estimators

O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta.

Qualquer número igual ou superior a 1.

100

random_state

O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória.

Qualquer número inteiro.

10

subsample

O parâmetro subsample é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente.

Qualquer número de 0 a 1.

1