Skip to main content

K-Centroids Cluster Analysis Tool Icon K-Centroids-Clusteranalyse-Tool

K-Centroids ist eine Klasse von Algorithmen für die sogenannte Partionierungs-Clusteranalyse. Bei diesen Methoden werden die Datensätze anhand bestimmter Kriterien in einer Datenbank in die „besten“ K-Gruppen aufgeteilt (partitioniert). Bei nahezu allen Methoden zur Partitionierungs-Clusteranalyse wird die Zielstellung erreicht, indem die Clustermitgliedschaft auf der Nähe der einzelnen Datensätze zu einem der K-Punkte (bzw. „Flächenmittelpunkte“) in den Daten basiert. Die Zielstellung dieser Clusteringalgorithmen besteht darin, die Position der Flächenmittelpunkte zu finden, durch die einige Kriterien bezüglich des Abstands zwischen dem Flächenmittelpunkt eines Clusters und den diesem Cluster zugewiesenen Punkten für eine zuvor angegebene Anzahl an Clustern in den Daten optimiert werden. Die jeweiligen Algorithmen weichen sowohl für die zum Definieren eines Cluster-Flächenmittelpunkts verwendeten Kriterien als auch für die Abstandskennzahlen, die zum Definieren der Nähe eines Punkts in einem Cluster zum Flächenmittelpunkt des jeweiligen Clusters verwendet werden, voneinander ab.

Mit diesem Tool können drei spezifische Typen von K-Centroids-Cluster-Analysen durchgeführt werden: Clustering per K-Mittelwerte, K-Medianwerte und Neural Gas. Bei „K-Mittelwerte“ wird der Mittelwert der Felder für die Punkte in einem Cluster zum Definieren eines Flächenmittelpunkts verwendet und mithilfe von euklidischen Abständen wird die Nähe eines Punkts zu einem Flächenmittelpunkt gemessen.* Bei „K-Mediane“ wird der Mittelwert der Felder für die Punkte in einem Cluster zum Definieren eines Flächenmittelpunkts verwendet und mithilfe der Manhattan-Distanz (auch als „City-Block-Distanz“ bezeichnet) wird die Nähe gemessen.* Die Clusteringmethode „Neural Gas“ ähnelt insofern der Methode „K-Mittelwerte“, dass sie den euklidischen Abstand zwischen einem Punkt und den Flächenmittelpunkten verwendet, um diesen Punkt einem bestimmten Cluster zuzuweisen.*** Die Methode unterscheidet sich jedoch dahingehend von „K-Mittelwerte“, wie die Cluster-Flächenmittelpunkte berechnet werden. Dabei wird in die Position des Flächenmittelpunkts für einen Cluster ein gewichteter Durchschnitt aller Datenpunkte einbezogen, wobei die Punkte, die dem Cluster zugewiesen sind, für den der Flächenmittelpunkt erzeugt wird, die größte Gewichtung erhalten. Punkte aus dem entferntesten Cluster des Fokalclusters erhalten die kleinste Gewichtung. Zudem steigen die Gewichtungen für Punkte in Zwischenclustern, da der Abstand zwischen dem Fokalcluster und dem Cluster, dem ein Punkt zugeordnet ist, steigt.

Dieses Tool verwendet das R-Tool. Gehen Sie zu Optionen > Prognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Herunterladen und Verwalten von Prognose-Tools.

Tool-Konfiguration

Registerkarte „Konfiguration“

Auf der Registerkarte Konfiguration können Sie die Steuerelemente für die Cluster-Analyse einstellen.

  1. Lösungsname: Jede Clusterlösung muss über einen Namen verfügen, um sie später identifizieren zu können. Lösungsnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt und bei „R“ wird zwischen Groß- und Kleinschreibung unterschieden.

  2. Felder (zwei oder mehr auswählen): Wählen Sie die numerischen Felder aus, die beim Aufbau der Clusterlösung verwendet werden sollen.

  3. Felder standardisieren: Wählen Sie diese Option, um die Variablen entweder durch eine Z-Bewertung oder ein Einheitsintervall zu standardisieren.

    • Die Z-Bewertungs-Umwandlung beinhaltet die Subtraktion des Mittelwerts für die einzelnen Felder von den Werten des Felds und die anschließende Division durch die Standardabweichung des Felds. Das Ergebnis ist ein neues Feld mit einem Mittelwert von Null und einer Standardabweichung von Eins.

    • Die Einheiten-Intervallumwandlung beinhaltet die Subtraktion des Minimalwerts eines Felds von den Feldwerten und die anschließende Division durch die Differenz zwischen dem Maximal- und Minimalwert des Felds. Das entsprechende Ergebnis ist ein neues Feld mit Werten von Null bis Eins. Clusteringlösungen sind stark von der Skalierung der Daten abhängig, insbesondere wenn sich die Skala eines Felds stark von der Skala eines anderen Felds unterscheidet. Demzufolge sollte die Skalierung der Daten in Betracht gezogen werden.

  4. Clustering-Methode: Wählen Sie entweder K-Mittelwerte, K-Mediane oder Neural Gas aus.

  5. Anzahl der Cluster: Wählen Sie die Anzahl der Cluster in der Lösung aus.

  6. Anzahl Startwerte: Die K-Centroids-Methoden verwenden eingangs zufällig gewählte Punkte als Ausgangsflächenmittelpunkte. Die von den einzelnen Methoden bestimmte finale Lösung kann durch die Ausgangspunkte beeinflusst werden. Bei Verwendung mehrerer Startwerte wird die beste Lösung aus dem Satz als finale Lösung beibehalten.

Registerkarte „Plotoptionen“

Auf der Registerkarte Plotoptionen können Sie die Steuerelemente für das Diagramm einstellen.

  1. Punkte plotten: Bei Aktivierung dieser Option werden alle Punkte in den Daten geplottet und durch die Clusternummer repräsentiert, der die einzelnen Punkte in der Lösung zugeordnet sind.

  2. Diagramm-Centroids: Bei Aktivierung dieser Option werden die Cluster-Centroids geplottet und durch die Nummer des Clusters repräsentiert, für den sie die Centroids sind.

  3. Die höchste Anzahl Dimensionen in Biplots: Ein Biplot ist ein Mittel zur Visualisierung von Clustering-Lösungen (über Hauptkomponenten) in einem kleineren dimensionalen Raum. Die Dimensionierung erfolgt jeweils für 2 Dimensionen. Diese Option legt den oberen Grenzwert für die in der Visualisierung zu verwendenden Dimensionen fest. Wenn für diesen Parameter z. B. „3“ festgelegt wird, enthalten die Biplots die erste und die zweite, die erste und die dritte und die zweite und die dritte Hauptkomponente in drei separaten Abbildungen.

Registerkarte „Diagrammoptionen“

Auf der Registerkarte Diagrammoptionen können Sie die Steuerelemente für das Ausgabediagramm einstellen.

  • Diagrammgröße: Wählen Sie Inch oder Zentimeter für die Diagrammgröße aus.

  • Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).

    • Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.

    • Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.

  • Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.

Ausgabe anzeigen

Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.

  • O-Anker: Umfasst eine Tabelle des serialisierten Modells mit dem Modellnamen und der Größe des Objekts.

  • R-Anker: umfasst die Berichtsausschnitte, die vom K-Centroids-Clusteranalyse-Tool generiert wurden: eine statistische Zusammenfassung und Clusterlösungspunkte.

*en.wikipedia.org/wiki/K-means_clustering

**en.wikipedia.org/wiki/K-medians_clustering

***en.wikipedia.org/wiki/Neural_gas