Logistische-Regression-Tool

One-Tool-Beispiel

Es gibt ein One-Tool-Beispiel für das Tool „Logistische Regression“. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.

Mit dem Logistische-Regression-Tool wird ein Modell erstellt, das eine binäre Zielvariable (wie ja/nein, bestanden/fehlgeschlagen) mit einer oder mehreren Prognosevariablen verknüpft, um die geschätzte Wahrscheinlichkeit für jede der zwei möglichen Antworten für die Zielvariable zu ermitteln. Häufige logistische Regressionsmodelle umfassen Logit-, Probit- und komplementäre Log-Log-Funktion. Siehe Logistische Regression.

Wichtig

Dieses Tool wird nicht automatisch mit Designer installiert. Um es verwenden zu können, laden Sie die Alteryx Prognose-Tools unter Ihrer Version von Alteryx Designer im Alteryx Licensing and Downloads-Portal herunter und installieren Sie sie.

Weitere Informationen finden Sie unter Prognose-Tools herunterladen und verwenden.

Tool-Konfiguration für die Standardausführung

Eingabe verbinden

Verbinden Sie einen Alteryx Datenstrom oder einen XDF-Metadatenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prognosefeldern.

Für die Modellschätzung werden die glm-Funktion der Open-Source-Programmiersprache „R“ sowie die glmnet- und cv.glmnet-Funktionen (aus dem glmnet-Paket) verwendet, wenn die Eingabedaten aus einem Alteryx Datenstrom stammen.

Stammen die Eingabedaten aus einem XDF-Ausgabe-Tool oder XDF-Eingabe-Tool, wird für die Modelleinschätzung die RevoScaleR-rxLogit-Funktion verwendet. Der Vorteil der Verwendung der auf RevoScaleR basierenden Funktion besteht darin, dass viel größere Datensätze (unzureichender Arbeitsspeicher) analysiert werden können. Dem gegenüber stehen jedoch der Zusatzaufwand zum Erstellen einer XDF-Datei und die fehlende Möglichkeit, eine Modelldiagnoseausgabe zu erstellen, die bei den Open-Source-R-Funktionen verfügbar ist. Zudem ermöglicht sie nur die Verwendung einer Logit-Verknüpfungsfunktion.

Tool-Konfiguration

Modellnamen eingeben: Geben Sie einen Namen für das Modell ein, um das Modell identifizieren zu können, wenn in anderen Tools darauf verwiesen wird. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt (.) und Unterstrich (_) enthalten. Andere Sonderzeichen sind nicht erlaubt und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariable auswählen: Wählen Sie Daten aus, für die eine Prognose erstellt werden soll. Eine Zielvariable wird auch Antwortvariable oder abhängige Variable genannt.
Prognosevariablen auswählen: Wählen Sie die zu verwendenden Daten aus, um den Wert der Zielvariablen zu beeinflussen. Eine Prognosevariable wird auch als Funktionsvariable oder unabhängige Variable bezeichnet. Es können beliebig viele Prognosevariablen ausgewählt werden, die Zielvariable sollte jedoch nicht gleichzeitig eine Prognosevariable sein. Spalten, die eindeutige Kennungen enthalten wie Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten in Statistikanalysen nicht verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.

Wählen Sie Anpassen aus, um die Einstellungen Modell, Kreuzvalidierung und Diagramme zu ändern.

Anpassen des Modells

Stichprobengewichtung bei der Modellschätzung anwenden: Wählen Sie eine Variable aus, um den Bedeutungsgrad für die einzelnen Datensätze beim Erstellen einer Modellschätzung zu bestimmen. Wenn ein Wert sowohl als Prognose- als auch als Gewichtungsvariable verwendet wird, erscheint die Gewichtungsvariable im Modellaufruf in der Berichtsausgabe mit der ihr vorangestellten Zeichenfolge „Right_“.
Regularisierte Regression verwenden: Wählen Sie diese Option aus, um dieselbe Minimierung der Summe der quadratischen Fehler mit einem Penalty-Term für die Größe der Koeffizienten auszugleichen und ein einfacheres Modell zu erzeugen.
- Alpha-Wert eingeben: Wählen Sie einen Wert zwischen 0 (Ridge-Regression) und 1 (Lasso) aus, um die Gewichtung des Koeffizienten zu messen.
- Prognosevariablen standardisieren: Wählen Sie diese Option aus, damit alle Variablen auf Grundlage des verwendeten Algorithmus dieselbe Größe haben.
- Kreuzvalidierung zum Bestimmen der Modellparameter verwenden: Wählen Sie diese Option aus, um eine Kreuzvalidierung durchzuführen und verschiedene Modellparameter zu erhalten.
  - Anzahl Aufteilungen: Wählen Sie die Anzahl Aufteilungen zum Teilen der Daten aus. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
  - Modelltyp: Wählen Sie den Modelltyp aus, um die Koeffizienten zu bestimmen.
    Einfacheres Modell
    Modell mit niedrigerem Effektivwert-Fehler
  - Startwert festlegen: Wählen Sie diese Option aus, um die Reproduzierbarkeit der Kreuzvalidierung sicherzustellen, und wählen Sie den Wert des Startwerts aus, der für die Zuweisung von Datensätzen an Aufteilungen verwendet wird. Wenn Sie bei jeder Ausführung des Workflows denselben Startwert auswählen, ist sichergestellt, dass sich in derselben Vervielfältigung jedes Mal dieselben Datensätze befinden. Der Wert muss eine positive Ganzzahl sein.
- Positive Klasse für Zielvariable eingeben (optional): Einige vom Tool in binären Klassifizierungsfällen (z. B. wahre positive Rate) gemeldete Kennzahlen erfordern die Bestimmung einer positiven Klasse. Geben Sie zum Durchführen einer binären Klassifizierung eine der beiden positiven Klassen der Zielvariablen ein. Wenn Sie den Eintrag leer lassen, wird eine der Klassen automatisch als positive Klasse bestimmt. Diese Option ist nur für Klassifizierungsmodelle verfügbar.
Modelltyp auswählen: Wählen Sie den Typ des zum Prognostizieren der Zielvariable verwendeten Modells aus.
- Logit
- Probit
- Komplementäre Log-Log-Funktion

Anpassen der Kreuzvalidierung

Kreuzvalidierung zum Bestimmen der geschätzten Modellqualität verwenden: Wählen Sie diese Option aus, um eine Kreuzvalidierung durchzuführen und verschiedene Metriken und Diagramme zur Modellqualität zu erhalten. Einige Metriken und Diagramme werden in der statischen Ausgabe R angezeigt, während andere in der interaktiven Ausgabe I erscheinen.
Anzahl Aufteilungen: Wählen Sie die Anzahl Aufteilungen zum Teilen der Daten aus. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Anzahl Tests: Wählen Sie die Anzahl Wiederholungen für das Kreuzvalidierungsverfahren aus. Die Aufteilungen werden in jedem Test anders ausgewählt und für die Gesamtergebnisse der einzelnen Tests wird ein Durchschnittswert gebildet. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Stratifizierte Kreuzvalidierung verwenden: Wählen Sie diese Option aus, damit alle Aufteilungen denselben Prozentsatz der einzelnen Klassen aufweisen, wie im gesamten Dataset vorhanden. Diese Option ist nur für Klassifizierungsmodelle verfügbar.
Startwert festlegen: Wählen Sie diese Option aus, um die Reproduzierbarkeit der Kreuzvalidierung sicherzustellen, und wählen Sie den Wert des Startwerts aus, der für die Zuweisung von Datensätzen an Aufteilungen verwendet wird. Wenn Sie bei jeder Ausführung des Workflows denselben Startwert auswählen, ist sichergestellt, dass sich in derselben Vervielfältigung jedes Mal dieselben Datensätze befinden. Der Wert muss eine positive Ganzzahl sein.

Anpassen der Diagramme

Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).

Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.

Ausgabe anzeigen

Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.

O (Output, Ausgabe): Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.
R (Report, Bericht): Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.
I (Interaktiv): Zeigt ein interaktives Dashboard mit unterstützendem Bildmaterial an, in dem Sie zoomen, den Mauszeiger bewegen und klicken können.

Tools für In-DB-Verarbeitung konfigurieren

Das Tool „Logistische Regression“ unterstützt die datenbankinterne Verarbeitung in Oracle, Microsoft SQL Server 2016 und Teradata. Weitere Informationen zu In-DB-Support und -Tools finden Sie unter In-DB – Übersicht.

Wenn ein Logistische-Regression-Tool auf dem Canvas platziert wird, in dem sich ein In-DB-Tool befindet, wechselt das Tool automatisch zur In-DB-Version. Um die Version des Tools zu ändern, klicken Sie mit der rechten Maustaste auf das Tool, zeigen Sie auf „Tool-Version auswählen“ und klicken Sie anschließend auf eine andere Version des Tools. Weitere Informationen zur Unterstützung von In-DB-Prognosen finden Sie unter Predictive Analytics.

Eingabe verbinden

Verbinden Sie einen In-DB-Datenstrom, der ein Zielfeld von Interesse zusammen mit einem oder mehreren möglichen Prognosefeldern enthält.

Wenn die Eingabe aus einem SQL-Server- oder Teradata-In-DB-Datenstrom stammt, wird die Microsoft Machine Learning Server-Funktion „rxLinMod“ (aus dem RevoScaleR-Paket) für die Modellschätzung verwendet. Dies ermöglicht die Verarbeitung auf dem Datenbankserver, sofern sowohl der lokale Rechner als auch der Server mit Microsoft Machine Learning Server konfiguriert wurden, und kann zu einer erheblichen Leistungssteigerung führen.

Wenn die Eingabe aus einem Oracle-In-DB-Datenstrom stammt, wird die Oracle R Enterprise-Funktion „ore.Im“ (aus dem OREmodels-Paket) für die Modellschätzung verwendet. Dies ermöglicht die Verarbeitung auf dem Datenbankserver, sofern der lokale PC und der Server mit Oracle R Enterprise konfiguriert wurden. Zudem kann dies zu einer deutlichen Verbesserung der Leistung führen.

Bei einem datenbankinternen Workflow in einer Oracle-Datenbank ist die vollständige Funktionalität des resultierenden Modellobjekt-Abwärtsstroms nur dann gewährleistet, wenn das Logistische-Regression-Tool direkt über ein In-DB-verbinden-Tool mit einer einzelnen vollständigen ausgewählten Tabelle verbunden ist oder wenn unmittelbar vor dem Logistische-Regression-Tool ein In-DB-Daten-schreiben-Tool verwendet wird, um die Tabelle mit den geschätzten Daten in der Datenbank zu speichern. Oracle R Enterprise nutzt die Tabelle mit den geschätzten Daten zur Bereitstellung der vollständigen Modellobjektfunktionalität, beispielsweise für die Berechnung der Prognoseintervalle.

Tool-Konfiguration

Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können. Sie können entweder einen Namen angeben oder automatisch einen Namen generieren lassen. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariablen auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prognosevariablen auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Kennungen enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Modellkonstante auslassen: Aktivieren Sie dieses Element, wenn Sie im Modell eine Konstante auslassen möchten. Dies sollten Sie dann tun, wenn es einen expliziten Grund dafür gibt.
Oracle-spezifische Optionen: Diese Option ermöglicht die Konfiguration zusätzlicher Optionen, die nur für die Oracle-Plattform relevant sind.
- Modelltyp: Wählen Sie den Typ des zum Prognostizieren der Zielvariable verwendeten Modells aus.
  - Logit
  - Probit
  - Komplementäre Log-Log-Funktion
- Modell in der Datenbank speichern: Bewirkt das Speichern des geschätzten Modellobjekts in der Datenbank. Diese Option wird empfohlen, damit die Modellobjekte und Schätztabellen zusammen unter einem zentralen Verzeichnis in der Oracle-Datenbank gespeichert werden.
Stichprobengewichtung bei der Modelleinschätzung anwenden: Aktivieren Sie das Kontrollkästchen, und wählen Sie dann ein Gewichtungsfeld im Datenstrom aus, um ein Modell abzuschätzen, das Stichprobengewichtungen anwendet. Ein Feld wird sowohl als Prognose- als auch als Gewichtungsvariable verwendet, wenn die Gewichtungsvariable im Modellaufruf in der Ausgabe erscheint und ihr die Zeichenfolge „Right_“ vorangestellt ist.
Teradata-spezifische Konfiguration: Der Microsoft Machine Learning Server benötigt zusätzliche Konfigurationsinformationen über die spezielle zu verwendende Teradata-Plattform, insbesondere die Pfade auf dem Teradata-Server zu den binären ausführbaren Dateien von R und den Speicherort, an dem die vom Microsoft Machine Learning Server verwendeten temporären Dateien geschrieben werden können. Diese Informationen müssen von lokalen Teradata-Administrator:inen bereitgestellt werden.

Ausgabe anzeigen

Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.

O-Anker: Ausgabe. Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an
R-Anker: Bericht. Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Plots beinhaltet

In diesem Abschnitt:

Logistische-Regression-Tool

Tool-Konfiguration für die Standardausführung

Eingabe verbinden

Tool-Konfiguration

Anpassen des Modells

Anpassen der Kreuzvalidierung

Anpassen der Diagramme

Ausgabe anzeigen

Tools für In-DB-Verarbeitung konfigurieren

Eingabe verbinden

Tool-Konfiguration

Ausgabe anzeigen

Suchresultat