3.0 🚧 K-Means-Clusteranalyse

Synopsis: [datatab.de/tutorial/k-means-clusteranalyse 🔗] [databasecamp.de/ki/k-means-cluster 🔗]
Kann ein Datenanalyst aus den Trainingsdaten Cluster erkennen?
Gibt es eine “Cluster-Logik” hinter den Daten, die nutzbar ist?

  • Die Trainings-Daten werden in einem n-dimensionalen Vektorraum angeordnet und sind nicht klassifiziert.
  • Finde eine Anzahl von k-Cluster-Zentren um die Daten möglichst gut in k-Cluster einteilen zu können.
    1. Beginne mit z.B. k=3 und lege zufällig im Datenraum k Zentren mit unterschiedlichen Labeln fest.
    2. Bestimme für jeden Datenpunkt das nächste Zentrum (Metriken beachten) im Datenraum und gib ihm das Label des nächsten Zentrums.
      • Ermittle dabei die Distanz des Datenpunkts zum gewählten Zentrum und addiere das Quadrat dieser Distanz in einer Variablen auf..
    3. Bestimme die Positionen der Zentren neu: Nimm alle Datenpunkte mit dem Label des jeweiligen Zentrums und ermittle dessen damit Schwerpunkt neu.
    4. Wiederhole mit 2. bis sich die Zentren nicht mehr verschieben.
    5. Erhöhe k und fang wieder bei 1. an.
    6. Wenn die Summe der Abstandsquadrate der Datenpunkte zum jeweiligen Zentrum nicht mehr deutlich abnimmt wurde ein k und die Zentren gefunden..
k_App zur Veranschaulichung von K-Means-Clustering
k_App zur Veranschaulichung von K-Means-Clustering

Ein Kommentar

Kommentare sind geschlossen.