3.0 ­čÜž K-Means-Clusteranalyse

Synopsis: [datatab.de/tutorial/k-means-clusteranalyse ­čöŚ] [databasecamp.de/ki/k-means-cluster ­čöŚ]
Kann ein Datenanalyst aus den Trainingsdaten Cluster erkennen?
Gibt es eine “Cluster-Logik” hinter den Daten, die nutzbar ist?

  • Die Trainings-Daten werden in einem n-dimensionalen Vektorraum angeordnet und sind nicht klassifiziert.
  • Finde eine Anzahl von k-Cluster-Zentren um die Daten m├Âglichst gut in k-Cluster einteilen zu k├Ânnen.
    1. Beginne mit z.B. k=3 und lege zuf├Ąllig im Datenraum k Zentren mit unterschiedlichen Labeln fest.
    2. Bestimme f├╝r jeden Datenpunkt das n├Ąchste Zentrum (Metriken beachten) im Datenraum und gib ihm das Label des n├Ąchsten Zentrums.
      • Ermittle dabei die Distanz des Datenpunkts zum gew├Ąhlten Zentrum und addiere das Quadrat dieser Distanz in einer Variablen auf..
    3. Bestimme die Positionen der Zentren neu: Nimm alle Datenpunkte mit dem Label des jeweiligen Zentrums und ermittle dessen damit Schwerpunkt neu.
    4. Wiederhole mit 2. bis sich die Zentren nicht mehr verschieben.
    5. Erh├Âhe k und fang wieder bei 1. an.
    6. Wenn die Summe der Abstandsquadrate der Datenpunkte zum jeweiligen Zentrum nicht mehr deutlich abnimmt wurde ein k und die Zentren gefunden..
k_App zur Veranschaulichung von K-Means-Clustering
k_App zur Veranschaulichung von K-Means-Clustering

Ein Kommentar

Kommentare sind geschlossen.