Boosting-Modell-Tool
One-Tool-Beispiel
Es gibt ein One-Tool-Beispiel für das Boosting-Modell. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Verwenden Sie das Boosting-Modell, um generalisierte Boosting-Regressionsmodelle basierend auf den Gradient-Boosting-Methoden zu erstellen. Die Modelle werden erstellt, indem der Reihe nach einem Modell-Ensemble einfache Entscheidungsbaummodelle hinzugefügt werden, um eine entsprechende Verlustfunktion zu minimieren. Diese Modelle verwenden eine Methode des statistischen Lernens, die:
selbst bestimmt, welche Teilmenge von Feldern ein Zielfeld am besten prognostiziert.
in der Lage ist, nicht-lineare Beziehungen und Interaktionen zwischen Feldern zu erfassen.
ein breites Spektrum von Regressions- und Klassifikationsproblemen automatisch lösen kann.
Verwenden Sie das Boosting-Modell-Tool bei Regressionsproblemen mit Klassifizierungen, Zähldaten und kontinuierlichem Ziel.
Dieses Tool verwendet das R-Tool. Navigieren Sie zu Optionen > Prognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
Eingabe verbinden
Das Boosting-Modell-Tool erfordert einen Eingabedatenstrom mit:
einem Zielfeld von Interesse
zwei oder mehr Prognosefeldern
Die Pakete, die in der Modellschätzung verwendet werden, variieren je nach Eingabedaten-Strom.
Ein Alteryx-Datenstrom verwendet die Open-Source-R gbm-Funktion.
Ein XDF-Metadatenstrom, der entweder von einem XDF-Eingabe- oder einem XDF-Ausgabe-Tool stammt, verwendet die RevoScaleR rxBTrees-Funktion.
Daten aus einem SQL Server-In-DB-Datenstrom verwenden die rxBTrees-Funktion.
Die Installation von Microsoft Machine Learning Server nutzt die RevoScaleR rxBTrees-Funktion für Ihre Daten in Ihren SQL Server- oder Teradata-Datenbanken. Dazu müssen der lokale Rechner und der Server mit Microsoft Machine Learning Server konfiguriert werden, was die Verarbeitung auf dem Datenbankserver ermöglicht und zu erheblichen Leistungssteigerungen führt.
Algorithmusleistung
Im Vergleich zu den Open-Source-R-Funktionen können RevoScaleR-basierte Funktionen viel größere Datasets analysieren. Die auf RevoScaleR basierende Funktion muss jedoch eine XDF-Datei erstellen, was die Gemeinkosten erhöht, einen Algorithmus verwendet, der die Daten mehrfach durchläuft, was die Ausführungszeit erhöht, und manche Ausgaben der Modelldiagnose nicht erstellen kann.
Tool-Konfiguration für die Standardausführung
Erforderliche-Parameter-Registerkarte
Dies sind die grundlegenden Felder, die Sie zum Generieren eines Boosting-Modells benötigen. Die benötigten Modellparameter festlegen:
Modellname: Ein Name des Modells, als Referenz für andere Tools. Der Modellname oder das Präfix muss mit einem Buchstaben beginnen und darf Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielfeld auswählen: Das Datenfeld, das prognostiziert werden soll, auch bekannt als Antwort- oder abhängige Variable.
Prognosefelder auswählen: Die Datenfelder, die verwendet werden, um den Wert der Zielvariablen zu beeinflussen, auch als Funktion oder unabhängige Variable bezeichnet. Es sind mindestens zwei Prognosefelder erforderlich, eine Obergrenze für die Anzahl der ausgewählten Prognosefelder besteht jedoch nicht. Die Zielvariable selbst sollte bei der Berechnung des Zielwerts nicht verwendet werden, daher sollte das Zielfeld nicht in die Prognosefelder aufgenommen werden. Spalten, die eindeutige Kennungen enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Stichprobengewichtung bei der Modellschätzung anwenden?: Eine Option, mit der Sie ein Feld auswählen können, das die Wichtigkeit der einzelnen Datensätze bei der Erstellung einer Modelleinschätzung berücksichtigt. Wenn ein Feld sowohl als Prognose als auch als Stichprobengewichtung verwendet wird, wird dem Variablenfeld für Ausgabegewichtung „Right_" vorangestellt. Verwenden Sie das Dropdown-Menü Feld für die Stichprobengewichtung auswählen, um das Feld auszuwählen, das für die Gewichtung der Datensätze verwendet wird.
Randeffektdiagramme einbeziehen?: Eine Option zur Aufnahme von Diagrammen in den Bericht, welche die Beziehung zwischen der Prognosevariablen und dem Ziel veranschaulichen, wobei der durchschnittliche Effekt der anderen Prognosefelder berücksichtigt wird. Verwenden Sie den Mindestgrad an Wichtigkeit eines Felds, das in den Diagrammen enthalten sein soll, um einen Prozentwert festzulegen, der die minimale Prognosekraft einer Variablen angibt, die in das Randeffektdiagramm einbezogen werden soll. Ein höherer Prozentsatz verringert die Anzahl der erzeugten Randeffektdiagramme.
Modellanpassung-Registerkarte
Optionale Einstellungen, mit denen das Ausgabemodell je nach Ziel und Art der Verwaltung von Entscheidungsbäumen angepasst werden kann. Mit diesen Optionen können die Modelleinstellungen geändert werden.
Zieltyp und Verlustfunktionsverteilung angeben: Die Kategorie der Daten im Zielfeld und die zugehörige Funktion, mit der die Modellerstellung optimiert wird.
Kontinuierliches Ziel: Ein numerisches Ziel, bei dem ein bestimmter eindeutiger Wert einen kleinen Prozentsatz der gesamten Instanzen ausmacht, z. B. der Jahresumsatz pro Geschäft. Minimieren Sie für ein kontinuierliches Ziel eine Verlustfunktion, die auf einer dieser Verteilungen basiert:
Gauß (quadratischer Fehlerverlust)
Laplace (absoluter Wertverlust)
Verlust der t-Verteilung
Anzahl (Ganzzahl): Ein numerisches Ziel, bei dem die meisten eindeutigen Werte einen hohen Prozentsatz der Gesamtinstanzen ausmachen, z. B. die Anzahl der Arztbesuche einer Person pro Jahr. Minimieren Sie für ein Häufigkeitsziel eine Verlustfunktion basierend auf der Poisson-Verteilung.
Binär (zwei Ergebnisse) kategorial: Ein kategoriales Ziel mit zwei möglichen Ergebnissen, wie z. B. Ja-Nein-Kategorisierung. Minimieren Sie für ein binäres kategoriales Ziel eine Verlustfunktion, die auf einer der folgenden Verteilungen basiert:
Bernoulli (logistische Regression)
AdaBoost (exponentieller Verlust)
Multinomial (drei oder mehr Ergebnisse) kategorial: Ein kategoriales Zielfeld mit einer begrenzten Anzahl diskreter Ergebnisse, z. B. A-, B- oder C-Kategorisierung. Minimieren Sie für ein multinomiales kategoriales Ziel eine Verlustfunktion basierend auf einer multinomialen logistischen Verlustfunktion, einer multinomialen Generalisierung der Bernoulli-Verlustfunktion.
Die maximale Anzahl der Bäumen im Modell: Die Anzahl der Entscheidungsbäume, die der Algorithmus in das endgültige Modell aufnehmen kann. Der Standardwert ist 4.000. Eine höhere Baumanzahl verlängert die Laufzeit.
Methode zur Ermittlung der finalen Anzahl von Bäumen im Modell: Die Methode, mit der die Anzahl der Entscheidungsbäume ermittelt wird, die das Prognoseverhalten adäquat erfassen, ohne Überanpassung der Stichprobendaten.
Kreuzvalidierung: Validierungsmethode mit effizienter Nutzung der verfügbaren Informationen. Wird in Fällen mit begrenzten Daten empfohlen.
Anzahl der Kreuzvalidierungs-Vervielfältigungen: Die Anzahl der Teilstichproben, in die die Daten zur Validierung oder zum Training unterteilt werden. Der Standardwert ist „5“. Die Werte liegen meist zwischen 5 und 10. Bei 5 Vervielfältigungen werden die Daten in 5 eindeutige Teilstichproben unterteilt und 5 verschiedene Modelle erstellt, die jeweils Daten aus 4 der Teilstichproben verwenden. Die letzte Teilprobe wird nicht zur Modellerstellung genutzt. Sie dient zum Testen der Prognosegenauigkeit.
Anzahl der bei der Kreuzvalidierung zu verwendenden Prozessorkerne: Die Anzahl der Prozessorkerne, die in der Analyse verwendet werden. Der Standardwert ist „1“. Die verwendete Anzahl sollte immer kleiner sein als die Anzahl verfügbarer Kerne. Um die Berechnungsgeschwindigkeit zu erhöhen, sollte die Anzahl der verwendeten Kerne erhöht werden.
Stichprobe testen (Validierung): Methode der Validierung, bei der Stichproben aus den Trainingsdaten gezogen werden. Wird für Fälle mit vielen Datensätzen empfohlen. Verwenden Sie den Prozentsatz in der Schätzungsstichprobe (Trainingsstichprobe), um den Prozentsatz der Datensätze festzulegen, die in der Trainingsstichprobe verwendet werden, während der Rest in der Teststichprobe verwendet wird. Der Standardwert ist „50“. Die Werte liegen meist zwischen 50 % und 75 %. Wenn 50 % der Datensätze in der Trainingsstichprobe verwendet werden, werden die verbleibenden 50 % verwendet, um die Prognosegenauigkeit zu testen.
Out-of-Bag: Validierungsmethode, die Datensätze verwendet, die bei der Modellerstellung ausgeschlossen wurden.
Der Anteil der Beobachtungen, der in der Out-of-Bag-Stichprobe verwendet wird: Ein Stichprobenprozentsatz, der als Richtwert für die angemessene Anzahl der Bäume dient, die in den Modus aufgenommen werden, um eine Überanpassung zu vermeiden. Der Standardwert ist „50 %“. Die Werte liegen meist zwischen 25 % und 50 %.
Schrumpfung: Ein Wert zwischen 0 und 1, der verwendet wird, um jedem dem Modell hinzugefügten Baum Gewichtung zu verleihen. Der Standardwert ist 0,0020. Kleinere Werte erlauben es, mehr Bäume in das Modell aufzunehmen, was die Ausführungszeit erhöht. Ein kleiner Schrumpfungswert kann es erforderlich machen, den Wert der festgelegten maximalen Anzahl von Entscheidungsbäumen zu erhöhen, um eine optimale Anzahl von Bäumen zu gewährleisten.
Interaktionstiefe: Die Interaktionsebene zwischen Prognosefeldern. Eine dreiseitige Interaktion bedeutet beispielsweise, dass ein Prädiktor von zwei anderen Prädiktoren abhängt, um die Auswirkungen auf das Zielfeld zu bestimmen. Der Standardwert ist Linear, wobei davon ausgegangen wird, dass keine Interaktion zwischen Prognosefeldern besteht. Die Erhöhung der Tiefe erhöht die Ausführungszeit.
Minimale erforderliche Anzahl von Objekten in jedem Baumknoten: Ein Parameter, der prüft, ob ein Entscheidungsbaum eine ausreichende Größe hat, bevor ein weiterer Entscheidungsbaum hinzugefügt werden kann. Die Standardeinstellung ist „10“. Die Erhöhung des Wertes führt zu kleineren Entscheidungsbäumen.
Zufälliger Startwert: Ein Wert, der die Reihenfolge der Entnahmen für die Zufallsstichprobe bestimmt. Dies bedeutet, dass die gleichen Datensätze innerhalb der Daten ausgewählt werden, wobei die Auswahlmethode zufällig und nicht datenabhängig ist. Ändern Sie den Wert, um die Reihenfolge der zufälligen Entnahmen zu ändern.
Diagramm-Optionen-Registerkarte
Die Einstellungen des Ausgabediagramms. Sofern nicht angepasst, werden die Standardwerte verwendet.
Diagrammgröße: Die Größe des Ausgabediagramms. Wählen Sie die Einheiten aus und stellen Sie dann die Werte für Breite und Höhe ein.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Die Größe der Schriftart in Punkten.
Tools für In-DB-Verarbeitung konfigurieren
Das Boosting-Modell-Tool unterstützt die In-DB-Verarbeitung von Microsoft SQL Server 2016. Weitere Informationen zu In-DB-Support und Tools finden Sie unter In-Datenbank – Übersicht.
So greifen Sie auf die In-DB-Version des Boosting-Modell-Tools zu:
Platzieren Sie ein In-DB-Tool auf dem Canvas. Das Boosting-Modell-Tool wechselt automatisch zu In-DB-Boosting-Modell.
Klicken Sie mit der rechten Maustaste auf das Boosting-Modell-Tool, zeigen Sie auf Tool-Version auswählen und wählen Sie In-DB-Boosting-Modell aus.
Weitere Informationen zur Unterstützung von In-DB-Prognosen finden Sie unter Predictive Analytics.
Erforderliche-Parameter-Registerkarte
Dies sind die grundlegenden Felder, die Sie zum Generieren eines Boosting-Modells benötigen.
Für jedes erstellte Modell ist ein Name erforderlich, auf den andere Tools verweisen können. In-DB-Verarbeitung lässt zwei Methoden der Erstellung eines Modellnamens zu:
Spezifischer Modellname: Ein benutzerdefinierter Modellname. Der Modellname oder das Präfix muss mit einem Buchstaben beginnen und darf Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Modellname automatisch generieren: Der Modellname wird automatisch generiert.
Zielfeld auswählen: Das vorherzusagende Datenfeld, auch als Antwort- oder abhängige Variable bekannt.
Prognosevariablen auswählen: Die Datenfelder, die verwendet werden, um den Wert der Zielvariablen zu beeinflussen, auch als Funktion oder unabhängige Variable bezeichnet. Es sind mindestens zwei Prognosewerte erforderlich, eine Obergrenze für die Anzahl der verwendeten Prognosewerte besteht jedoch nicht. Die Zielvariable selbst sollte bei der Berechnung des Zielwerts nicht verwendet werden, daher sollte das Zielfeld nicht in die Prognosefelder aufgenommen werden. Spalten, die eindeutige Kennungen enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Stichprobengewichtung bei der Modellschätzung anwenden: Eine Option, mit der Sie ein Feld auswählen können, das die Wichtigkeit der einzelnen Datensätze bei der Erstellung einer Modellschätzung berücksichtigt. Wenn ein Feld sowohl als Prognose als auch als Stichprobengewichtung verwendet wird, wird dem Variablenfeld für Ausgabegewichtung „Right_" vorangestellt. Verwenden Sie das Dropdown-Menü Feld für die Stichprobengewichtung auswählen, um das Feld auszuwählen, das für die Gewichtung der Datensätze verwendet wird.
Modellanpassung-Registerkarte
Optionale Einstellungen, mit denen das Ausgabemodell je nach Ziel und Art der Verwaltung von Entscheidungsbäumen angepasst werden kann. Mit diesen Optionen können die Modelleinstellungen geändert werden.
Zieltyp und Verlustfunktionsverteilung angeben:
Kontinuierliches Ziel: Ein numerisches Ziel, bei dem ein bestimmter eindeutiger Wert einen kleinen Prozentsatz der Gesamtinstanzen enthält, z. B. den Jahresumsatz pro Geschäft.
Minimieren Sie bei kontinuierlichen Zielen eine Verlustfunktion basierend auf der Gaußschen Verteilung.
Binäres kategoriales Ziel: Ein kategoriales Ziel mit zwei möglichen Ergebnissen, wie z. B. Ja-Nein-Kategorisierung.
Minimieren Sie bei binären kategorialen Zielen eine Verlustfunktion basierend auf der Bernoulli-Verteilung.
Multinomiales kategoriales Ziel: Ein kategoriales Zielfeld mit einer begrenzten Anzahl diskreter Ergebnisse, z. B. A-, B- oder C-Kategorisierung.
Minimieren Sie für ein multinomiales kategoriales Ziel eine Verlustfunktion basierend auf einer multinomialen logistischen Verlustfunktion, einer multinomialen Generalisierung der Bernoulli-Verlustfunktion.
Die maximale Anzahl der Bäume im Modell: Die Anzahl der Entscheidungsbäume, die der Algorithmus dem endgültigen Modell hinzufügen kann. Der Standardwert ist 4.000. Eine höhere Baumanzahl verlängert die Laufzeit.
Der Anteil der Beobachtungen, der in der Out-of-Bag-Stichprobe verwendet wird: Ein Stichprobenprozentsatz, der verwendet wird, um die Anzahl der eingeschlossenen Entscheidungsbäume mit einer Out-of-Bag-Bewertung zu reduzieren. Der Standardwert ist „50 %“. Die Werte liegen meist zwischen 25 % und 50 %.
Lernrate (oder Schrumpfung): Ein Wert zwischen 0 und 1, mit dem jeder dem Modell hinzugefügte Baum gewichtet wird. Der Standardwert ist 0,0020. Kleinere Werte erlauben es, mehr Bäume in das Modell aufzunehmen, was die Ausführungszeit erhöht.
Ein kleiner Schrumpfungswert kann es erforderlich machen, den Wert der festgelegten maximalen Anzahl von Entscheidungsbäumen zu erhöhen, um eine optimale Anzahl von Bäumen zu gewährleisten.
Baumgröße: Verwenden Sie die Standardwerte, um die Standardeinstellungen für die Baumgröße im Boosting-Modell-Tool nachzuahmen. Weitere Informationen finden Sie unter rxBTrees-Steuerungen.
maxDepth: Maximale Tiefe der einzelnen Baumknoten [1000]
minBucket: Minimal erforderliche Anzahl der Beobachtungen in einem Endknoten (oder Blatt) [10]
minSplit: Minimale Anzahl der Beobachtungen, die in einem Knoten vorhanden sein müssen, bevor eine Aufteilung versucht wird [minBucket * 2]
Zufälliger Startwert: Ein Wert, der die Reihenfolge der Entnahmen für die Zufallsstichprobe bestimmt. Dies bedeutet, dass die gleichen Datensätze innerhalb der Daten ausgewählt werden, wobei die Auswahlmethode zufällig und nicht datenabhängig ist. Ändern Sie den Wert, um die Reihenfolge der zufälligen Entnahmen zu ändern.
Diagramm-Optionen-Registerkarte
Die Einstellungen des Ausgabediagramms. Sofern nicht angepasst, werden die Standardwerte verwendet.
Diagrammgröße: Wählen Sie die Einheiten aus, und legen Sie dann die Werte für Breite und Höhe fest.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Die Größe der Schriftart in Punkten.
Ausgabe anzeigen
Verbinden Sie ein Durchsuchen-Tool mit jedem Ausgabeanker, um Ergebnisse anzuzeigen.
O-Anker: Zeigt den Namen des Modells und die Größe des Ergebnisfensters an.
R-Anker: Zeigt einen Bericht des Modells an, der eine Zusammenfassung und sämtliche konfigurierten Diagramme enthält.