Skip to main content

Linear Regression Tool Icon Ferramenta Regressão Linear

Fluxo de trabalho de exemplo

A ferramenta Regressão Linear tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

A ferramenta Regressão Linear cria um modelo simples para estimar valores ou avaliar relações entre variáveis com base em uma relação linear.

Os dois principais tipos de regressão linear são a não regularizada e a regularizada:

  • A regressão linear não regularizada produz modelos lineares que minimizam a soma dos erros quadrados entre os valores reais e previstos da variável-alvo dos dados de treinamento.

  • A regressão linear regularizada equilibra a mesma minimização da soma dos erros quadrados com um termo de penalidade no tamanho dos coeficientes e tende a produzir modelos mais simples que são menos propensos ao sobreajuste.

Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Pacotes R usados pela ferramenta Regressão Linear

Pacote R

Tipo

Descrição do pacote

AlteryxPreditivo

Personalizado

Esse pacote fornece funções personalizadas e chama o CRAN e os pacotes R personalizados.

AlteryxRDataX

Personalizado

Esse pacote fornece conectividade entre o Alteryx e o R, além de várias funções para facilitar a interação entre eles.

AlteryxRviz

Personalizado

Este pacote foi descontinuado. Ele fornece funções que impulsionam visualizações interativas para as ferramentas preditivas no Alteryx (série temporal, análise de rede).

flightdeck

Personalizado

Esse pacote facilita a criação de painéis interativos para gerar relatórios de resultados de modelos preditivos.

Configurar a ferramenta para processamento padrão

Conectar uma entrada

Conecte um fluxo de dados do Alteryx ou um fluxo de metadados XDF que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.

Nota

XDF é o formato MRC/MMLS.

Se os dados de entrada vierem de um fluxo de dados do Alteryx, a função lm de código aberto do R e as funções glmnet e cv.glmnet (do pacote glmnet) serão usadas para a estimativa do modelo.

Se os dados de entrada vierem de uma ferramenta Saída XDF ou Entrada XDF, será usada a função RevoScaleR rxLinMod para a estimativa do modelo. A vantagem de usar a função baseada em RevoScaleR é que, com ela, é possível analisar conjuntos de dados muito maiores, mas ela tem custos extras para criar um arquivo XDF e não cria algumas das saídas de diagnóstico do modelo que estão disponíveis com as funções de código aberto do R.

Configurar a ferramenta

  • Nome do modelo: informe um nome para o modelo a fim de identificá-lo quando ele for referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  • Selecione a variável-alvo: selecione os dados a serem previstos. A variável-alvo também é chamada de resposta ou variável dependente.

  • Selecione as variáveis preditoras: selecione os dados que influenciam o valor da variável-alvo. Variáveis preditoras também são conhecidas como recursos ou variáveis independentes. Não há um limite para o número de variáveis preditoras selecionadas, mas a variável-alvo não deve ser usada como variável preditora. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Selecione Personalizar para modificar as configurações de Modelo, Validação cruzada e Gráficos.

Personalizar o modelo

  • Omitir uma constante do modelo: selecione para omitir uma constante e fazer com que a melhor linha de ajuste passe pela origem.

  • Usar uma variável de peso para mínimos quadrados ponderados: selecione uma variável para determinar a quantidade de importância a ser atribuída a cada registro ao criar um modelo de mínimos quadrados.

  • Usar regressão regularizada: selecione para equilibrar a mesma minimização da soma dos erros quadrados com um termo de penalidade no tamanho dos coeficientes e produzir um modelo mais simples.

    • Digite o valor de alfa: selecione um valor entre 0 (regressão ridge) e 1 (regressão lasso) para medir a ênfase dada ao coeficiente.

    • Padronizar variáveis preditoras: selecione para tornar todas as variáveis do mesmo tamanho com base no algoritmo usado.

    • Usar validação cruzada para determinar parâmetros do modelo: selecione para executar validação cruzada e obter vários parâmetros do modelo

      • Número de partições (folds): selecione o número de partições nas quais os dados serão divididos. Um número maior de partições (folds) resulta em estimativas mais robustas da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.

      • Qual tipo de modelo: selecione o tipo de modelo para determinar os coeficientes.

        • Modelo mais simples

        • Modelo com menor erro padrão de amostra

      • Definir semente: selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros às partições (folds). Escolha a mesma semente todas as vezes em que o fluxo de trabalho for executado para garantir que os mesmos registros estejam sempre na mesma partição (fold). O valor deve ser um número inteiro positivo.

Personalizar a validação cruzada

  • Usar validação cruzada para determinar o treinamento da qualidade do modelo: selecione para realizar a validação cruzada e obter várias métricas de qualidade e gráficos do modelo. Algumas métricas e gráficos serão exibidos na saída R estática e outros serão exibidos na saída I interativa.

    • Número de partições (folds): selecione o número de partições nas quais os dados serão divididos. Um número maior de partições (folds) resulta em estimativas mais robustas da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.

    • Número de avaliações: selecione o número de vezes para que o procedimento de validação cruzada seja repetido. As partições (folds) são selecionadas de forma diferente em cada avaliação, e os resultados gerais são calculados pela média de todas as avaliações. Um número maior de partições (folds) resulta em treinamentos mais robustos da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.

    • Definir semente: selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros às partições (folds). Escolha a mesma semente todas as vezes em que o fluxo de trabalho for executado para garantir que os mesmos registros estejam sempre na mesma partição (fold). O valor deve ser um número inteiro positivo.

Personalizar os gráficos

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

    • Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.

    • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

  • Exibir gráficos: selecione para exibir gráficos ao usar a regressão regularizada.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O (Saída): exibe o nome do modelo e o tamanho do objeto na janela de resultados.

  • R (Relatório): exibe um relatório do modelo que inclui um resumo e gráficos.

  • I (Interativo): exibe um painel de visualizações interativas para dar suporte à descoberta de dados e exploração de modelos.

Configurar a ferramenta para processamento no banco de dados

A ferramenta Regressão Linear oferece suporte ao processamento nos bancos de dados Oracle, Microsoft SQL Server 2016 e Teradata. Consulte Visão geral do processamento em banco de dados para obter mais informações sobre suporte e ferramentas de banco de dados.

Quando colocada na tela com uma ferramenta de banco de dados, a ferramenta Regressão Linear muda automaticamente para sua versão in-DB. Para mudar a versão da ferramenta, clique com o botão direito do mouse nela, selecione "Escolher versão da ferramenta" e escolha uma versão diferente. Consulte Análise preditiva para obter mais informações sobre suporte à análise preditiva no banco de dados.

Conectar uma entrada

Conecte um fluxo de dados in-DB que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.

Se a entrada vier de um fluxo no banco de dados do SQL Server ou Teradata, será utilizada a função rxLinMod do Microsoft Machine Learning Server (do pacote RevoScaleR) para a estimativa do modelo. Isso permite que o processamento seja realizado no servidor do banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server, podendo resultar em uma melhoria significativa no desempenho.

Se a entrada vier de um fluxo de dados no banco de dados Oracle, será usada a função ore.lm do Oracle R Enterprise (pacote OREmodels) para a estimativa do modelo. Isso permite que o processamento seja realizado no servidor do banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Oracle R Enterprise, podendo resultar em uma melhoria significativa no desempenho.

Para um fluxo de trabalho em um banco de dados Oracle, a funcionalidade completa do objeto do modelo resultante nas etapas seguintes ocorrerá somente se a ferramenta Regressão Linear estiver conectada diretamente a partir de uma ferramenta Conectar In-DB com uma única tabela completa selecionada, ou se uma ferramenta Gravar Dados In-DB for usada imediatamente antes da ferramenta Regressão Linear para salvar a tabela de dados de estimativa no banco de dados. O Oracle R Enterprise usa a tabela de dados de estimativa para fornecer a funcionalidade completa do objeto do modelo, como o cálculo de intervalos de previsão.

Configuração

  • Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Você pode informar um nome ou optar por ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  • Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever.

  • Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Omitir uma constante do modelo: marque este item se você quiser omitir uma constante do modelo. A omissão deve ser feita se houver um motivo explícito para isso.

  • Usar pesos de amostragem para estimativa do modelo: marque essa caixa de seleção e selecione o campo de peso no fluxo de dados para estimar o modelo. Se um campo for usado tanto como preditor quanto como variável de peso, a variável de peso aparece na saída com o prefixo "Right_".

  • Opções específicas do Oracle: esta opção permite a configuração de opções adicionais relevantes apenas para a plataforma Oracle.

    • Salvar o modelo no banco de dados: faz o objeto modelo estimado ser salvo no banco de dados. É recomendado para que os objetos modelo e as tabelas de estimativa coexistam em um local centralizado no banco de dados do Oracle.

  • Configuração específica do Teradata: o Microsoft Machine Learning Server precisa de informações de configuração adicionais sobre a plataforma Teradata específica a ser usada – em particular, os caminhos no servidor do Teradata para os executáveis binários do R e o local onde os arquivos temporários usados pelo Microsoft Machine Learning Server podem ser gravados. Essas informações precisam ser fornecidas por um administrador local do Teradata.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O (Saída): exibe o nome do modelo e o tamanho do objeto na janela de resultados.

  • R (Relatório): exibe um relatório do modelo que inclui um resumo e gráficos.