Skip to main content

Boosted Model Tool Icon Boosting-Modell

One-Tool-Beispiel

Es gibt ein One-Tool-Beispiel für das Boosting-Modell. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.

Verwenden Sie das Boosting-Modell-Tool, um generalisierte Boosting-Regressionsmodelle basierend auf den Gradient-Boosting-Methoden zu erstellen. Die Modelle werden durch serielles Hinzufügen einfacher Entscheidungsbaummodelle zu einem Modellensemble erzeugt, um eine geeignete Verlustfunktion zu minimieren. Diese Modelle verwenden eine Methode des statistischen Lernens, die:

  • selbst bestimmt, welche Teilmenge von Feldern ein Zielfeld am besten prognostiziert.

  • in der Lage ist, nicht-lineare Beziehungen und Interaktionen zwischen Feldern zu erfassen.

  • ein breites Spektrum von Regressions- und Klassifikationsproblemen automatisch lösen kann.

Verwenden Sie das Boosting-Modell-Tool für Klassifizierungs-, Zähldaten- und kontinuierliche Zielregressionsprobleme.

Dieses Tool verwendet das R-Tool. Navigieren Sie zu OptionenPrognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.

Verknüpfung mit der Eingabe erstellen

Das Boosting-Modell-Tool erfordert einen Eingabedatenstrom mit:

  • einem Zielfeld von Interesse

  • zwei oder mehr Prognosefeldern

Die Pakete, die in der Modellschätzung verwendet werden, variieren je nach Eingabedaten-Strom.

  • Ein Alteryx-Datenstrom verwendet die Open-Source-R gbm-Funktion.

  • Ein XDF-Metadatenstrom, der entweder von einem XDF-Eingabe- oder einem XDF-Ausgabe-Tool stammt, verwendet die RevoScaleR rxBTrees-Funktion.

  • Daten aus einem datenbankinternen SQL Server-Datenstrom verwenden die rxBTrees-Funktion.

  • Die Installation von Microsoft Machine Learning Server nutzt die RevoScaleR rxBTrees-Funktion für Ihre Daten in Ihren SQL Server- oder Teradata-Datenbanken. Dazu müssen der lokale Rechner und der Server mit Microsoft Machine Learning Server konfiguriert werden, was die Verarbeitung auf dem Datenbankserver ermöglicht und zu erheblichen Leistungssteigerungen führt.

Algorithmusleistung

Im Vergleich zu den Open-Source-R-Funktionen können RevoScaleR-basierte Funktionen viel größere Datasets analysieren. Die auf RevoScaleR basierende Funktion muss jedoch eine XDF-Datei erstellen, was die Overhead-Kosten erhöht, einen Algorithmus verwendet, der die Daten mehrfach durchläuft, was die Laufzeit verlängert, und manche Ausgaben der Modelldiagnose nicht erstellen kann.

Tool-Konfiguration für die Standardausführung

Erforderliche-Parameter-Registerkarte

Dies sind die grundlegenden Felder, die Sie zum Generieren eines Boosting-Modells benötigen. Die benötigten Modellparameter festlegen:

  • Modellname: Ein Name des Modells, auf den andere Tools verweisen können. Der Modellname oder das Präfix muss mit einem Buchstaben beginnen und darf Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. R is case-sensitive.

  • Zielfeld auswählen: Das Datenfeld, das prognostiziert werden soll, auch bekannt als Antwort- oder abhängige Variable.

  • Prognosefelder auswählen: Die Datenfelder, die verwendet werden, um den Wert der Zielvariablen zu beeinflussen, auch bekannt als Eigenschaft oder unabhängige Variable. Es sind mindestens zwei Prognosefelder erforderlich, eine Obergrenze für die Anzahl der ausgewählten Prognosefelder besteht jedoch nicht. Die Zielvariable selbst sollte bei der Berechnung des Zielwerts nicht verwendet werden, daher sollte das Zielfeld nicht in die Prognosefelder aufgenommen werden. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.

  • Stichprobengewichtung bei der Modellschätzung anwenden?: Eine Option mit der Sie ein Feld auswählen können, das die Wichtigkeit bewertet, die den einzelnen Datensätzen bei der Erstellung einer Modellschätzung beigemessen wird. Wenn ein Feld sowohl als Prognose als auch als Stichprobengewichtung verwendet wird, wird dem Ausgabefeld der Gewichtungsvariable „Right_" vorangestellt. Verwenden Sie das Feld für die Stichprobengewichtung auswählen-Dropdown-Menü, um das Feld auszuwählen, das für die Gewichtung der Datensätze verwendet wird.

  • Randeffektdiagramme einbeziehen?: Eine Option zur Aufnahme von Diagrammen in den Bericht, die die Beziehung zwischen der Prognosevariable und dem Ziel zeigen, wobei die Effekte der anderen Prognosefelder als Durchschnitt ausgedrückt werden. Verwenden Sie Der Mindestgrad an Wichtigkeit eines Felds, das in den Diagrammen enthalten sein soll, um einen Prozentwert festzulegen, der die minimale Prognosekraft einer Variablen angibt, die in das Randeffektdiagramm einbezogen wird. Ein höherer Prozentsatz verringert die Anzahl der erzeugten Randeffektdiagramme.

Modellanpassung-Registerkarte

Optionale Einstellungen, mit denen das Ausgabemodell je nach Ziel und Art der Verwaltung von Entscheidungsbäumen angepasst werden kann. Mit diesen Optionen können die Modelleinstellungen geändert werden.

  • Zieltyp und Verlustfunktionsverteilung angeben: Die Kategorie der Daten im Zielfeld und die zugehörige Funktion, mit der die Modellerstellung optimiert wird.

    • Kontinuierliches Ziel: Ein numerisches Ziel, bei dem ein bestimmter eindeutiger Wert einen kleinen Prozentsatz der gesamten Instanzen ausmacht, z. B. der Jahresumsatz pro Geschäft. Minimieren Sie für ein kontinuierliches Ziel eine Verlustfunktion, die auf einer dieser Verteilungen basiert:

      • Gaußscher (quadratischer Fehlerverlust)

      • Laplace (absoluter Wertverlust)

      • t-Verteilungsverlust

    • Anzahl (Ganzzahl): Ein numerisches Ziel, bei dem die meisten eindeutigen Werte einen großen Prozentsatz der gesamten Instanzen ausmachen, z. B. die Anzahl der Arztbesuche einer Person im Jahr. Minimieren Sie für ein Anzahlziel eine Verlustfunktion basierend auf der Poisson-Verteilung.

    • Binär (zwei Ergebnisse) kategorial: Ein kategoriales Ziel mit zwei möglichen Ergebnissen, wie z. B. Ja-Nein-Kategorisierung. Minimieren Sie für ein binäres kategoriales Ziel eine Verlustfunktion, die auf einer der folgenden Verteilungen basiert:

      • Bernoulli (logistische Regression)

      • AdaBoost (exponentieller Verlust)

    • Multinomial (drei oder mehr Ergebnisse) kategorial: Ein kategoriales Zielfeld mit einer begrenzten Anzahl diskreter Ergebnisse, z. B. A-, B- oder C-Kategorisierung. Minimieren Sie für ein multinomiales kategoriales Ziel eine Verlustfunktion basierend auf einer multinomialen logistischen Verlustfunktion, einer multinomialen Generalisierung der Bernoulli-Verlustfunktion.

  • Die maximale Anzahl der Bäumen im Modell: Die Anzahl der Entscheidungsbäume, die der Algorithmus in das endgültige Modell aufnehmen kann. Der Standardwert ist 4000. Eine höhere Baumanzahl verlängert die Laufzeit.

  • Methode zur Bestimmung der endgültigen Baumanzahl im Modell: Die Methode zur Bestimmung der Anzahl der Entscheidungsbäume, die das prädiktive Verhalten angemessen erfassen, ohne Überanpassung der Stichprobendaten.

    • Kreuzvalidierung: Validierungsmethode mit effizienter Nutzung der verfügbaren Informationen. Wird in Fällen mit begrenzten Daten empfohlen.

      • Anzahl Folds der Kreuzvalidierung: Die Anzahl der Teilstichproben, in die die Daten zur Validierung oder zum Training unterteilt werden. Der Standardwert ist 5. Übliche Werte sind 5 und 10. Bei 5 Folds werden die Daten in 5 eindeutige Teilstichproben unterteilt und 5 verschiedene Modelle erstellt, die jeweils Daten aus 4 der Teilstichproben verwenden. Die letzte Teilstichprobe wird von der Modellerstellung ausgenommen und zur Prüfung der Genauigkeit der Prognosen verwendet.

      • Anzahl der bei der Kreuzvalidierung zu verwendenden Prozessorkerne: Die Anzahl der Prozessorkerne, die in der Analyse verwendet werden. Der Standardwert ist 1. Die verwendete Anzahl sollte immer kleiner sein als die Anzahl verfügbarer Kerne. Um die Berechnungsgeschwindigkeit zu erhöhen, sollten Sie die Anzahl der verwendeten Kerne erhöhen.

    • Teststichprobe (Validierung): Methode der Validierung, bei der Stichproben aus den Trainingsdaten gezogen werden. Wird für Fälle mit vielen Datensätzen empfohlen. Verwenden Sie Den Prozentsatz in der Schätzstichprobe (Trainingsstichprobe), um den Prozentsatz der Datensätze festzulegen, die in der Trainingsstichprobe verwendet werden, während der Rest in der Teststichprobe verwendet wird. Der Standardwert ist 50. Übliche Werte sind 50 % und 75 %. Wenn 50 % der Datensätze in der Trainingsstichprobe verwendet werden, werden die verbleibenden 50 % zur Prüfung der Genauigkeit der Prognosen verwendet.

    • Out-of-Bag: Validierungsmethode, die Datensätze verwendet, die bei der Modellerstellung ausgeschlossen wurden.

  • Der Anteil der Beobachtungen, der in der Out-of-Bag-Stichprobe verwendet wird: Ein Stichprobenprozentsatz, der als Richtwert für die angemessene Anzahl der Bäume dient, die in den Modus aufgenommen werden, um eine Überanpassung zu vermeiden. Der Standardwert ist 50 %. Die Werte liegen meist zwischen 20 % und 50 %.

  • Schrumpfung: Ein Wert zwischen 0 und 1, der verwendet wird, um jedem dem Modell hinzugefügten Baum Gewichtung zu verleihen. Der Standardwert ist 0.0020. Mit kleineren Werten können mehr Bäume in das Modell aufgenommen werden, was die Laufzeit erhöht. Ein kleiner Schrumpfungswert kann es erforderlich machen, den Wert der festgelegten maximalen Anzahl von Entscheidungsbäumen zu erhöhen, um eine optimale Anzahl von Bäumen zu gewährleisten.

  • Interaktionstiefe: Die Interaktionsebene zwischen Prognosefeldern. Eine dreiseitige Interaktion bedeutet beispielsweise, dass ein Prädiktor von zwei anderen Prädiktoren abhängt, um die Auswirkungen auf das Zielfeld zu bestimmen. Der Standardwert ist Linear, wobei davon ausgegangen wird, dass keine Interaktion zwischen Prognosefeldern besteht. Die Erhöhung der Tiefe erhöht die Laufzeit.

  • Minimale erforderliche Anzahl von Objekten in jedem Baumknoten: Ein Parameter, mit dem überprüft wird, ob ein Entscheidungsbaum eine ausreichende Größe hat, bevor ein weiterer Entscheidungsbaum hinzugefügt werden kann. Die Standardeinstellung ist „10“. Ein höherer Wert führt zu kleineren Entscheidungsbäumen.

  • Zufälliger Startwert: Ein Wert, der die Reihenfolge der Entnahmen für die Zufallsstichprobe bestimmt. Dies bedeutet, dass die gleichen Datensätze innerhalb der Daten ausgewählt werden, wobei die Auswahlmethode zufällig und nicht datenabhängig ist. Ändern Sie den Wert, um die Reihenfolge der zufälligen Entnahmen zu ändern.

Diagramm-Optionen-Registerkarte

Die Einstellungen des Ausgabediagramms. Sofern nicht angepasst, werden die Standardwerte verwendet.

  • Diagrammgröße: Die Größe des Ausgabediagramms. Wählen Sie die Einheiten aus und stellen Sie dann die Werte für Breite und Höhe ein.

  • Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).

    • Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.

    • Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.

  • Größe der Basisschriftart (Punkte): Die Größe der Schriftart in Punkten.

Tools für In-DB-Verarbeitung konfigurieren

Das Boosting-Modell-Tool unterstützt die datenbankinterne Verarbeitung von Microsoft SQL Server 2016. Weitere Informationen zu In-DB-Support und Tools finden Sie unter In-Datenbank – Übersicht.

So greifen Sie auf die In-DB-Version des Boosting-Modell-Tools zu:

  • Platzieren Sie ein In-Database-Tool auf dem Canvas. Das Boosting-Modell-Tool wechselt automatisch zu In-DB-Boosting-Modell-Tool.

  • Klicken Sie mit der rechten Maustaste auf das Boosting-Modell-Tool, zeigen Sie auf Tool-Version auswählen und wählen Sie In-DB-Boosting-Modell aus.

Weitere Informationen zur Unterstützung von In-DB-Prognosen finden Sie unter Predictive Analytics.

Erforderliche-Parameter-Registerkarte

Dies sind die grundlegenden Felder, die Sie zum Generieren eines Boosting-Modells benötigen.

  • Für jedes erstellte Modell ist ein Name erforderlich, auf den andere Tools verweisen können. In-DB-Verarbeitung lässt zwei Methoden der Erstellung eines Modellnamens zu:

    • Spezifischer Modellname: Ein benutzerdefinierter Modellname. Der Modellname oder das Präfix muss mit einem Buchstaben beginnen und darf Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. R is case-sensitive.

    • Modellname automatisch generieren: Der Modellname wird automatisch generiert.

  • Zielfeld auswählen: Das vorherzusagende Datenfeld, auch als Antwort- oder abhängige Variable bekannt.

  • Prognosevariablen auswählen: Die Datenfelder, die verwendet werden, um den Wert der Zielvariable zu beeinflussen; wird auch als Eigenschaft oder unabhängige Variable bezeichnet. Es sind mindestens zwei Prognosewerte erforderlich, eine Obergrenze für die Anzahl der verwendeten Prognosewerte besteht jedoch nicht. Die Zielvariable selbst sollte bei der Berechnung des Zielwerts nicht verwendet werden, daher sollte das Zielfeld nicht in die Prognosefelder aufgenommen werden. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.

  • Stichprobengewichtung bei der Modellschätzung: Eine Option, mit der Sie ein Feld auswählen können, das die Wichtigkeit der einzelnen Datensätze bei der Erstellung einer Modellschätzung berücksichtigt. Wenn ein Feld sowohl als Prognose als auch als Stichprobengewichtung verwendet wird, wird dem Ausgabefeld der Gewichtungsvariable „Right_" vorangestellt. Verwenden Sie das Feld für die Stichprobengewichtung auswählen-Dropdown-Menü, um das Feld auszuwählen, das für die Gewichtung der Datensätze verwendet wird.

Modellanpassung-Registerkarte

Optionale Einstellungen, mit denen das Ausgabemodell je nach Ziel und Art der Verwaltung von Entscheidungsbäumen angepasst werden kann. Mit diesen Optionen können die Modelleinstellungen geändert werden.

  • Zieltyp und Verlustfunktionsverteilung angeben:

    • Kontinuierliches Ziel: Ein numerisches Ziel, bei dem ein bestimmter eindeutiger Wert einen kleinen Prozentsatz der gesamten Instanzen ausmacht, z. B. der Jahresumsatz pro Geschäft.

      Minimieren Sie bei kontinuierlichen Zielen eine Verlustfunktion basierend auf der Gaußschen Verteilung.

    • Binäres kategoriales Ziel: Ein kategoriales Ziel mit zwei möglichen Ergebnissen, wie z. B. Ja-Nein-Kategorisierung.

      Minimieren Sie bei binären kategorialen Zielen eine Verlustfunktion basierend auf der Bernoulli-Verteilung.

    • Multinomiales kategoriales Ziel: Ein kategoriales Zielfeld mit einer begrenzten Anzahl diskreter Ergebnisse, z. B. A-, B- oder C-Kategorisierung.

      Minimieren Sie für ein multinomiales kategoriales Ziel eine Verlustfunktion basierend auf einer multinomialen logistischen Verlustfunktion, einer multinomialen Generalisierung der Bernoulli-Verlustfunktion.

  • Die maximale Anzahl der Bäume im Modell: Die Anzahl der Entscheidungsbäume, die der Algorithmus dem endgültigen Modell hinzufügen kann. Der Standardwert ist 4000. Eine höhere Baumanzahl verlängert die Laufzeit.

  • Der Anteil der Beobachtungen, der in der Out-of-Bag-Stichprobe verwendet wird: Ein Stichprobenprozentsatz, der verwendet wird, um die Anzahl der eingeschlossenen Entscheidungsbäume mit einer Out-of-Bag-Bewertung zu reduzieren. Der Standardwert ist 50 %. Die Werte liegen meist zwischen 20 % und 50 %.

  • Lernrate (oder Schrumpfung): Ein Wert zwischen 0 und 1, mit dem jeder dem Modell hinzugefügte Baum gewichtet wird. Der Standardwert ist 0.0020. Mit kleineren Werten können mehr Bäume in das Modell aufgenommen werden, was die Laufzeit erhöht.

    Ein kleiner Schrumpfungswert kann es erforderlich machen, den Wert der festgelegten maximalen Anzahl von Entscheidungsbäumen zu erhöhen, um eine optimale Anzahl von Bäumen zu gewährleisten.

  • Baumgröße: Verwenden Sie die Standardwerte, um die Standardeinstellungen für die Baumgröße im Boosting-Modell-Tool nachzuahmen. Weitere Informationen finden Sie unter rxBTrees-Steuerungen.

    • maxDepth: Maximale Tiefe der einzelnen Baumknoten [1000]

    • minBucket: Minimal erforderliche Anzahl der Beobachtungen in einem Endknoten (oder Blatt) [10]

    • minSplit: Minimale Anzahl der Beobachtungen, die in einem Knoten vorhanden sein müssen, bevor eine Aufteilung versucht wird [minBucket * 2]

  • Zufälliger Startwert: Ein Wert, der die Reihenfolge der Entnahmen für die Zufallsstichprobe bestimmt. Dies bedeutet, dass die gleichen Datensätze innerhalb der Daten ausgewählt werden, wobei die Auswahlmethode zufällig und nicht datenabhängig ist. Ändern Sie den Wert, um die Reihenfolge der zufälligen Entnahmen zu ändern.

Diagramm-Optionen-Registerkarte

Die Einstellungen des Ausgabediagramms. Sofern nicht angepasst, werden die Standardwerte verwendet.

  • Diagrammgröße: Wählen Sie die Einheiten aus, und legen Sie dann die Werte für Breite und Höhe fest.

  • Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).

    • Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.

    • Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.

  • Größe der Basisschriftart (Punkte): Die Größe der Schriftart in Punkten.

Ausgabe anzeigen

Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.

  • O-Anker: Zeigt den Namen des Modells und die Größe des Ergebnisfensters an.

  • R-Anker: Zeigt einen Bericht des Modells an, der eine Zusammenfassung und sämtliche konfigurierten Diagramme enthält.