Hauptkomponenten-Tool
Mit dem Tool „Hauptkomponenten“ können die Dimensionen (Anzahl der numerischen Felder) in einer Datenbank verringert werden. Hierzu wandelt es das Originalset der Felder in ein kleineres Set um, das den Umfang der Varianz (d. h. Informationen) in den Daten berücksichtigt. Die neuen Felder werden als Faktoren oder Hauptkomponenten bezeichnet.
Die Hauptkomponenten werden sequenziell extrahiert, wobei die erste Hauptkomponente die stärkste Varianz in den Daten erfasst. Die erste Hauptkomponente ist wie ein Vektor, der in die Richtung zeigt, in der die Daten am breitesten gestreut sind. Die zweite Hauptkomponente wird ähnlich erstellt, besitzt jedoch die zusätzliche Restriktion, dass sie nicht mit der ersten korreliert sein darf. Alle nachfolgenden Hauptkomponenten erfassen einen jeweils geringeren Prozentsatz an Variation in den Daten und sind nicht mit den zuvor extrahierten Hauptkomponenten korreliert. Es können so viele Hauptkomponenten vorkommen, wie es numerische Felder in den Daten gibt. Es ist jedoch in der Regel möglich, die Varianz in den Daten mit den ersten Hauptkomponenten zu erfassen, anstatt mit dem vollständigen Set der ursprünglichen numerischen Felder. Eine Hauptkomponente wird durch eine gewichtete lineare Kombination der ursprünglichen numerischen Felder gebildet. Diese können gemeinsam verwendet werden, um ein neues Koordinatensystem zu bilden, in dem keine der Dimensionen mit den anderen korreliert ist.
Hauptkomponenten können anstelle der Originalfelder in Prognosemodellen verwendet werden, was die Probleme vermeidet, die auftreten können, wenn hochgradig korrelierte Variablen verwendet werden. Die Interpretation des Modells gestaltet sich dadurch jedoch schwieriger. Darüber hinaus kann die Methode verwendet werden, um zu ermitteln, welche Gruppen von Feldern wahrscheinlich gemeinsam in einer starken Beziehung zueinander stehen und um Entscheidungen im Hinblick auf die Felder zu treffen, die im Prognosemodell weggelassen werden. Die Fähigkeit, eine große Anzahl von Feldern auf eine kleine Anzahl Hauptkomponenten zu reduzieren, bietet häufig einen Vorteil bei der Visualisierung von Beziehungen in den Daten.
Dieses Tool verwendet das R-Tool. Gehen Sie zu Optionen > Prognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Herunterladen und Verwalten von Prognose-Tools.
Tool-Konfiguration
Registerkarte „Konfiguration“
Verwenden Sie die Registerkarte Konfiguration, um die Steuerelemente für die Hauptkomponenten und die zugehörigen Biplots festzulegen.
Felder (zwei oder mehr auswählen): Wählen Sie die numerischen Felder aus, die in der Hauptkomponentenanalyse verwendet werden sollen.
Alle Felder skalieren, um Einheitenvarianz zu erhalten?: Wählen Sie diese Option aus, um die Daten zu standardisieren und die Autokorrelationsmatrix anstelle der Autokovarianzmatrix als Basis für die Analyse zu verwenden.
Die höchste Anzahl der Hauptkomponenten in Biplots: Ein Biplot ist ein Visualisierungsmittel für eine Hauptkomponentenlösung, mit dem zwei Komponenten gleichzeitig dargestellt werden. Diese Option legt den oberen Grenzwert für die in der Analyse verwendeten Hauptkomponenten fest. Wenn für diesen Parameter z. B. „3“ festgelegt wird, enthalten die Biplots die erste und die zweite, die erste und die dritte und die zweite und die dritte Hauptkomponente in drei separaten Abbildungen.
Hauptkomponenten an den Datenstrom anhängen: Wenn diese Option aktiviert ist, werden die Originaldaten zusammen mit zusätzlichen Feldern für die angefügten Hauptkomponenten ausgegeben. Die hinzugefügten Felder werden als HK1, HK2 usw. beschriftet. Legen Sie die Anzahl der anzuhängenden Hauptkomponenten fest.
Registerkarte „Diagrammoptionen“
Verwenden Sie die Registerkarte Diagrammoptionen, um die Steuerelemente für die grafische Ausgabe festzulegen.
Diagrammgröße: Wählen Sie Inch oder Zentimeter für die Diagrammgröße aus.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.
Ausgabe anzeigen
Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.
O-Anker: Besteht aus dem Eingabedatenstrom mit den angefügten Hauptkomponenten
R-Anker: Besteht aus den durch das Hauptkomponenten-Tool erzeugten Berichtsausschnitten: eine statistische Zusammenfassung, Basisdiagrammen und Biplots.