Strumento Pesi di importanza
Lo strumento Pesi di importanza fornisce metodi per selezionare un insieme di variabili da utilizzare in un modello predittivo in base al livello di correlazione tra ogni possibile predittore e la variabile target di un modello da creare.
Il set finale selezionato può essere basato sulla scelta dei predittori N più fortemente correlati al target, o selezionando un livello limite del peso di importanza, e solo le variabili che superano il limite sono incluse in un modello.
Lo svantaggio di questo approccio è che esamina solo la forza di un possibile predittore sul bersaglio in isolamento, ignorando i possibili effetti di interazione e la correlazione tra predittori. Nonostante questo limite, questo tipo di metodo di filtraggio variabile viene spesso utilizzato nella pratica.
Esistono diverse misure di pesi di importanza e l'applicabilità di un particolare metodo dipende in genere sia dal tipo di target che dal predittore (numerico o categorico). Lo svantaggio di questa situazione è che le misure utilizzate per determinare l'importanza relativa di diversi possibili predittori saranno diverse per variabili numeriche e categoriche. L'eccezione è rappresentata dal metodo Relief, ma le sue prestazioni non sono affidabili come altri metodi specifici per una particolare combinazione di tipo di target e tipo di predittore.
La maggior parte delle misure è fornita dal pacchetto FSelector R. Questo pacchetto utilizza alcuni metodi scritti in Java, quindi per utilizzare questa macro è necessario disporre di un ambiente di runtime Java 7 sul computer in cui è installato Alteryx.
Importante
Questo strumento non viene installato automaticamente con Alteryx Designer o con gli strumenti R. Per utilizzare questo strumento, scaricalo da Gallery della Community.
Connessione di un input
Un flusso di dati Alteryx contenente sia la variabile target desiderata che un insieme di variabili predittive potenziali che verranno utilizzate per stimare un modello predittivo.
Configura lo strumento
Target continuo: seleziona questa opzione se la variabile target che desideri prevedere è una variabile numerica. Quando selezioni questa opzione, ti verrà richiesto di selezionare il campo della variabile target dai dati e di esaminare quali sono le possibili variabili continue (numeriche) o categoriche (variabili di stringa con etichette di categoria) da considerare. Una volta effettuata questa selezione, dovrai selezionare l'insieme di predittori (del tipo selezionato) da esaminare e una o più misure di confronto. Per i target e i predittori continui sono disponibili le seguenti misure:
Correlazione Pearson
Correlazione (rango-ordine) Spearman
Relief, che fornisce l'algoritmo RRELIEFF. Puoi selezionare sia il numero di vicini (Conteggio dei vicini) che la dimensione del campione (Dimensione campione) utilizzati per calcolare la misura RRELIEFF.
Le misure relative al peso di importanza disponibili per un target continuo e per i predittori categorici sono:
Correlazione (Pearson) media condizionale. Questa misura si basa sul calcolo del livello medio della variabile target per ogni livello (categoria) delle variabili categoriche e quindi sul calcolo della correlazione Pearson tra i valori effettivi e i valori medi
Relief, che utilizza l'algoritmo RRELIEFF. Puoi selezionare sia il numero di vicini (Conteggio dei vicini) che la dimensione del campione (Dimensione campione) utilizzati per calcolare la misura RRELIEFF.
Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Target categorico: seleziona questa opzione se la variabile target che desideri prevedere è una variabile categorica. Quando selezioni questa opzione, ti verrà richiesto di selezionare il campo della variabile target dai dati e di esaminare quali sono le possibili variabili continue (numeriche) o categoriche (variabili di stringa con etichette di categoria) da considerare. Una volta effettuata questa selezione, dovrai selezionare l'insieme di predittori (del tipo selezionato) da esaminare e una o più misure di confronto. Per i target e i predittori continui sono disponibili le seguenti misure:
Relief, che utilizza l'algoritmo RRELIEFF. Puoi selezionare sia il numero di vicini (Conteggio dei vicini) che la dimensione del campione (Dimensione campione) utilizzati per calcolare la misura RRELIEFF.
Le misure relative al peso di importanza disponibili per un target categorico e per i predittori categorici sono:
V di Cramer (chi-quadrato)
Relief, che utilizza l'algoritmo RRELIEFF. Puoi selezionare sia il numero di vicini (Conteggio dei vicini) che la dimensione del campione (Dimensione campione) utilizzati per calcolare la misura RRELIEFF.
Visualizzazione dell'output
Ancoraggio D: è costituito da una tabella che fornisce il valore di peso di importanza selezionato per ciascun predittore potenziale.
Ancoraggio R: è costituito da frammenti di report che indicano il campo target (e il relativo tipo) e il tipo di campi predittivi potenziali insieme alla tabella del valore di peso di importanza selezionato per ciascun predittore potenziale.