Logistische-Regression-Tool
One-Tool-Beispiel
Es gibt ein One-Tool-Beispiel für das Zähldaten-Regression-Tool. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Mit dem Tool „Logistische Regression“ wird ein Modell erstellt, das eine binäre Zielvariable (z. B. Ja / Nein, Bestanden / Fehlgeschlagen) mit einer oder mehreren Prognosevariablen verknüpft, um die geschätzte Wahrscheinlichkeit für jede der zwei möglichen Antworten für die Zielvariable zu ermitteln. Common logistic regression models include logit, probit, and complementary log-log. Siehe Logistische Regression.
Dieses Tool verwendet das R-Tool. Navigieren Sie zu OptionenPrognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
Tool-Konfiguration für die Standardausführung
Verknüpfung mit der Eingabe erstellen
Verbinden Sie einen Alteryx-Datenstrom oder einen XDF-Metadatenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prädiktorfeldern.
Für die Modelleinschätzung werden die glm-Funktion der Open-Source-Programmiersprache „R“ sowie die glmnet- und cv.glmnet-Funktionen verwendet (aus dem glmnet-Paket), wenn die Eingabedaten aus einem Alteryx-Datenstrom stammen.
Stammen die Eingabedaten aus einem Tool „XDF-Ausgabe“ oder Tool „XDF-Eingabe“, wird für die Modelleinschätzung die RevoScaleR-Funktion „rxLogit“ verwendet. Der Vorteil der Verwendung der auf RevoScaleR basierenden Funktion besteht darin, dass viel größere Datensätze (unzureichender Arbeitsspeicher) analysiert werden können. Dem gegenüber stehen jedoch der Zusatzaufwand zum Erstellen einer XDF-Datei und die fehlende Möglichkeit, eine Modelldiagnoseausgabe zu erstellen, die bei den Open-Source-R-Funktionen verfügbar ist. Zudem ermöglicht sie nur die Verwendung einer Logit-Verknüpfungsfunktion.
Tool-Konfiguration
Modellname: Geben Sie einen Namen für das Modell ein, um das Modell identifizieren zu können, wenn in anderen Tools darauf verwiesen wird. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt (.) und Unterstrich (_) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariable auswählen: Wählen Sie Daten aus, für die eine Prognose erstellt werden soll. Eine Zielvariable wird auch Antwortvariable oder abhängige Variable genannt.
Prädiktorvariablen auswählen: Wählen Sie die zu verwendenden Daten aus, um den Wert der Zielvariablen zu beeinflussen. Eine Prädiktorvariable ist auch bekannt als Funktionsvariable oder unabhängige Variable. Es können beliebig viele Prädiktorvariablen ausgewählt werden, die Zielvariable sollte jedoch nicht gleichzeitig eine Prädiktorvariable sein. Spalten, die eindeutige Kennungen enthalten wie Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten in Statistikanalysen nicht verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Klicken Sie auf Anpassen, um die Einstellungen Modell, Kreuzvalidierung und Plots zu ändern.
Anpassen des Modells
Wählen Sie eine Variable aus, um den Bedeutungsgrad für die einzelnen Datensätze beim Erstellen einer Modelleinschätzung zu bestimmen. Wenn ein Wert sowohl als Prognose- als auch als Gewichtungsvariable verwendet wird, erscheint die Gewichtungsvariable im Modellaufruf in der Berichtsausgabe mit der ihr vorangestellten Zeichenfolge „Right_“.
Wählen Sie diese Option aus, um dieselbe Minimierung der quadratischen Fehler mit einem Abzugsterm in der Größe der Koeffizienten auszugleichen und ein einfacheres Modell zu erzeugen.
Wählen Sie einen Wert zwischen 0 (Ridge-Regression) und 1 (Lasso) aus, um die Gewichtung des Koeffizienten zu messen.
Wählen Sie diese Option aus, damit alle Variablen basierend auf dem verwendeten Algorithmus dieselbe Größe haben.
Use cross-validation to determine model parameters: Select to perform cross-validation and obtain various model parameters
Wählen Sie die Anzahl Aufteilungen zum Teilen der Daten aus. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Wählen Sie den Modelltyp zum Bestimmen der Koeffizienten aus.
Einfacheres Modell
Modell mit weniger Standardfehlern in der Stichprobe
Wählen Sie diese Option aus, um die Reproduzierbarkeit der Kreuzvalidierung sicherzustellen, und wählen Sie den Wert des für die Zuweisung von Datensätzen zu Aufteilungen verwendeten Startwerts aus. Wenn Sie bei jeder Ausführung des Workflows denselben Startwert auswählen, ist sichergestellt, dass sich in derselben Vervielfältigung jedes Mal dieselben Datensätze befinden. Der Wert muss eine positive Ganzzahl sein.
Wählen Sie den Typ des zum Prognostizieren der Zielvariable verwendeten Modells aus.
Logit
Probit
Komplementäre Log-Log-Funktion
Anpassen der Kreuzvalidierung
Use cross-validation to determine estimates of model quality: Select to perform cross-validation and obtain various model quality metrics and graphs. Einige Metriken und Diagramme werden in der statischen Ausgabe R angezeigt, während andere in der interaktiven Ausgabe I erscheinen.
Wählen Sie die Anzahl Aufteilungen zum Teilen der Daten aus. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Wählen Sie die Anzahl Wiederholungen für das Kreuzvalidierungsverfahren aus. Die Aufteilungen werden in jedem Test anders ausgewählt und für die Gesamtergebnisse der einzelnen Tests wird ein Durchschnittswert gebildet. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Einige von dem Tool in binären Klassifizierungsfällen (z. B. wahre positive Rate) gemeldete Kennzahlen erfordern die Bestimmung einer positiven Klasse. Geben Sie zum Durchführen einer binären Klassifizierung eine der beiden positiven Klassen der Zielvariablen ein. Wenn Sie den Eintrag leer lassen, wird eine der Klassen automatisch als positive Klasse bestimmt. Diese Option ist nur für Klassifizierungsmodelle verfügbar.
Wählen Sie diese Option aus, damit alle Aufteilungen denselben Prozentsatz der einzelnen Klassen aufweisen, wie im gesamten Datenset vorhanden sind. Diese Option ist nur für Klassifizierungsmodelle verfügbar.
Wählen Sie diese Option aus, um die Reproduzierbarkeit der Kreuzvalidierung sicherzustellen, und wählen Sie den Wert des für die Zuweisung von Datensätzen zu Aufteilungen verwendeten Startwerts aus. Wenn Sie bei jeder Ausführung des Workflows denselben Startwert auswählen, ist sichergestellt, dass sich in derselben Vervielfältigung jedes Mal dieselben Datensätze befinden. Der Wert muss eine positive Ganzzahl sein.
Anpassen der Plots
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Ausgabe anzeigen
Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.
O-Anker: Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.
R-Anker: Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.
Zeigt ein interaktives Dashboard mit unterstützendem Bildmaterial an, in dem Sie zoomen, den Mauszeiger bewegen und klicken können
Tools für In-DB-Verarbeitung konfigurieren
Das Tool „Logistische Regression“ unterstützt die datenbankinterne Verarbeitung in Oracle, Microsoft SQL Server 2016 und Teradata. Weitere Informationen zu In-DB-Support und -Tools finden Sie unter In-Datenbank – Übersicht.
Wenn ein Tool vom Typ „Logistische Regression“ zusammen mit einem anderen In-DB-Tool im Arbeitsbereich platziert wird, wechselt das Tool automatisch zu der In-DB-Version. Um die Version des Tools zu ändern, klicken Sie mit der rechten Maustaste auf das Tool, zeigen Sie auf „Tool-Version auswählen“ und klicken Sie anschließend auf eine andere Version des Tools. Weitere Informationen zur Unterstützung von In-DB-Prognosen finden Sie unter Predictive Analytics.
Verknüpfung mit der Eingabe erstellen
Verbinden Sie einen In-Database-Datenstrom, der ein Zielfeld von Interesse zusammen mit einem oder mehreren möglichen Prädiktorfeldern enthält.
Wenn die Eingabe aus einem SQL-Server- oder Teradata-In-DB-Datenstrom stammt, wird die Microsoft Machine Learning Server-Funktion „rxDForest“ (aus dem Paket RevoScaleR) für die Modellschätzung verwendet. Dies ermöglicht die Verarbeitung auf dem Datenbankserver, sofern sowohl der lokale Rechner als auch der Server mit Microsoft Machine Learning Server konfiguriert wurden, und kann zu einer erheblichen Leistungssteigerung führen.
Wenn die Eingabe aus einem Oracle-In-Database-Datenstrom stammt, wird die Oracle R Enterprise-Funktion ore.Im (aus dem Paket OREmodels) für die Modellschätzung verwendet. Dies ermöglicht die Verarbeitung auf dem Datenbankserver, sofern der lokale PC und der Server mit Oracle R Enterprise konfiguriert wurden. Zudem kann die Leistung dadurch deutlich verbessert werden.
Bei einem datenbankinternen Workflow in einer Oracle-Datenbank ist die vollständige Funktionalität des resultierenden Modellobjekt-Abwärtsstroms nur dann gewährleistet, wenn das Tool „Logistische Regression“ direkt über ein Tool „In-DB verbinden“ mit einer einzelnen vollständigen ausgewählten Tabelle verbunden ist oder wenn unmittelbar vor dem Tool „Logistische Regression“ ein Tool „In-DB-Daten schreiben“ verwendet wird, um die Tabelle mit den geschätzten Daten in der Datenbank zu speichern. Oracle R Enterprise nutzt die Tabelle mit den geschätzten Daten zur Bereitstellung der vollständigen Modellobjektfunktionalität, beispielsweise für die Berechnung der Prognoseintervalle.
Tool-Konfiguration
Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können. Sie können entweder einen Namen angeben oder automatisch einen Namen generieren lassen. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariablen auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prognosevariablen auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Aktivieren Sie dieses Element, wenn Sie im Modell eine Konstante auslassen möchten. Dies sollten Sie dann tun, wenn es einen expliziten Grund dafür gibt.
Diese Option ermöglicht die Konfiguration zusätzlicher Optionen, die nur für die Oracle-Plattform relevant sind.
Wählen Sie den Typ des zum Prognostizieren der Zielvariable verwendeten Modells aus.
Logit
Probit
Komplementäre Log-Log-Funktion
Bewirkt das Speichern des geschätzten Modellobjekts in der Datenbank. Diese Option wird empfohlen, damit die Modellobjekte und Schätztabellen zusammen unter einem zentralen Verzeichnis in der Oracle-Datenbank gespeichert werden.
Stichprobengewichtung bei der Modelleinschätzung anwenden: Klicken Sie auf das Kontrollkästchen, und wählen Sie dann ein Gewichtungsfeld im Datenstrom aus, um ein Modell abzuschätzen, das eine Stichprobengewichtung anwendet. Ein Feld wird sowohl als Prognose- als auch als Gewichtungsvariable verwendet, wenn die Gewichtungsvariable im Modellaufruf in der Ausgabe erscheint und ihr die Zeichenfolge „Right_“ vorangestellt ist.
Microsoft R Server benötigt zusätzliche Konfigurationsinformationen über die spezielle zu verwendende Teradata-Plattform – insbesondere die Pfade auf dem Teradata-Server zu den binären ausführbaren Dateien von R und den Speicherort, unter dem die von Microsoft R Server verwendeten temporären Dateien geschrieben werden können. Diese Informationen müssen von einem lokalen Teradata-Administrator bereitgestellt werden.
Ausgabe anzeigen
Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.
O anchor: Output. Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an
R-Anker: Bericht. Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Plots beinhaltet