Nächste-Nachbarn-suchen-Tool
Das Nächste-Nachbarn-suchen-Tool findet die ausgewählte Anzahl der nächsten Nachbarn im „Datenstrom“, die jedem Datensatz im „Abfragestrom“ auf der Grundlage ihrer euklidischen Distanz entsprechen. Die Methode stellt Ihnen eine Auswahl an Algorithmen zum Suchen nach den unmittelbaren Nachbarn bereit, die hinsichtlich ihrer Geschwindigkeit und möglichen Genauigkeit voneinander abweichen. Standardmäßig erfolgt die Suche basierend auf dem KD-Baumalgorithmus, der im Allgemeinen eine gute Kombination aus Geschwindigkeit und Genauigkeit aufweist. Darüber hinaus haben Sie die Wahl, ob Sie die Berechnungen auf der Grundlage der Originaldaten durchführen oder ob Sie die Daten mit Hilfe einer z-Score-Standardisierung (bei der alle Felder einen Mittelwert von 0 und eine Standardabweichung von 1 haben) oder einer Einheitsintervall-Transformation (bei der die Werte der einzelnen Felder zwischen 0 und 1 liegen) standardisieren.
Es wird empfohlen, eine Art von Feldstandardisierung mit diesem Tool zu verwenden, da die Berechnungen der euklidischen Distanz sehr empfindlich auf Unterschiede in den Feldskalen reagieren (z. B. haben die nicht transformierten Haushaltseinkommens- und Altersdaten sehr unterschiedliche Stufen und Wertebereiche). Angesichts des Verhaltens dieser Methode können nur numerische Felder für Eingaben verwendet werden. Das Tool nutzt das R FFN-Paket.
Dieses Tool verwendet das R-Tool. Gehen Sie zu Optionen > Prognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Weitere Informationen finden Sie unter Prognose-Tools herunterladen und verwenden.
Eingaben verbinden
Das Tool verarbeitet zwei Alteryx-Datenströme:
D-Anker: Verarbeitet den „Datenstrom“. Das Tool findet die ausgewählte Anzahl der nächsten Nachbarn im Datenstrom, die jedem Datensatz im Query- bzw. Abfragestrom (Q-Eingabe) entspricht.
Q-Anker: Akzeptiert den „Abfragestrom“ (Query).
Tool-Konfiguration
Feld: Eindeutiger Schlüssel: Für dieses Tool wird ein eindeutiger Schlüssel benötigt, um die Beziehungen zwischen den Datensätzen in den Abfrage- und Datenströmen zu identifizieren.
Felder (zwei oder mehr auswählen): Wählen Sie die numerischen Felder aus, die beim Aufbau der Clusterlösung verwendet werden sollen.
Felder standardisieren...: Wählen Sie diese Option, um die Felder entweder durch eine Z-Bewertung oder ein Einheitsintervall zu standardisieren.
z-Score-Standardisierung: Bei der z-Score-Transformation wird der Mittelwert für jedes Feld von den Werten des Feldes subtrahiert und dann durch die Standardabweichung des Felds geteilt. Das Ergebnis ist ein neues Feld mit einem Mittelwert von Null und einer Standardabweichung von Eins.
Einheitsintervall-Standardisierung: Bei der Einheitsintervall-Transformation wird der Minimalwert eines Felds von den Feldwerten subtrahiert und dann durch die Differenz zwischen dem Maximal- und dem Minimalwert des Felds dividiert. Das entsprechende Ergebnis ist ein neues Feld mit Werten von Null bis Eins. K-Berechnungen des unmittelbaren Nachbarn sind stark von der Skalierung der Daten abhängig, insbesondere wenn sich die Skala eines Felds stark von der Skala eines anderen Felds unterscheidet. Demzufolge sollte die Skalierung der Daten in Betracht gezogen werden.
Anzahl zu suchender nächster Nachbarn: Der Standard- (und Mindestwert) ist 1 (der nächste) naheliegender Nachbar. Der Höchstwert beträgt 100.
Algorithmus zum Suchen der nächsten Nachbarn: Die Methoden unterscheiden sich in ihrer Berechnungsdauer und Genauigkeit. Der Standardalgorithmus ist der k-d tree , (k-d-Baum) der im Allgemeinen eine gute Berechnungsdauer und Genauigkeit hat. Die lineare Suche findet garantiert die wirklich nächsten Nachbarn, ist aber sehr rechenintensiv. Wählen Sie eine der folgenden Optionen:
VR: Die von Venables und Ripley, 2002 verwendete Methode.
CR: Eine Version des VR-Algorithmus, die auf einem modifizierten Distanzmaß basiert.
Lineare Suche: Dabei wird der Abstand zwischen jedem Punkt im Abfragestrom und allen Punkten im Datenstrom berechnet.
Ausgabe anzeigen
N-Anker: Umfasst eine Tabelle, die den eindeutigen Schlüsselwert und Abstand zu der gewünschten Anzahl unmittelbarer Nachbarn für die einzelnen Punkte im Abfragestrom liefert (identifiziert durch den eindeutigen Schlüssel für die einzelnen Datensätze im Abfragestrom). Wenn die gewünschte Anzahl unmittelbarer Nachbarn 2 lautet und der Name für das Feld „Eindeutiger Schlüssel“ ID lautet, weist dieser Ausgabedatenstrom die Felder „ID“, „ID_1“ (die eindeutigen Schlüssel für die nächsten unmittelbaren Nachbarn), „Dist_1“ (euklidischer Abstand zum nächsten unmittelbaren Nachbarn), „ID_2“ (eindeutiger Schlüssel für den übernächsten unmittelbaren Nachbarn) und „Dist_2“ (euklidischer Abstand zum übernächsten unmittelbaren Nachbarn) auf.
M-Anker: Enthält das eindeutige Schlüsselfeld, die standardisierten Datenwerte und einen Indikator (das Feld "__Typ__"), der angibt, ob ein Datensatz in den Daten- oder Abfrageströmen für alle Datensätze sowohl in den Daten- als auch in den Abfrageströmen enthalten ist.
*en.wikipedia.org/wiki/Cover_tree
**en.wikipedia.org/wiki/K-d_tree
*** Venables, W. N. und Ripley, B. D. (2002), Modern Applied Statistics with S, 4. Ed., Springer, Berlin.