Einführung

Die Clusteranalyse ist ein Verfahren zur Gruppierung von Objekten, die sich in bestimmten Merkmalen ähneln. Ziel ist es, innerhalb einer Gruppe (Cluster) möglichst ähnliche Objekte zu bündeln, während die Unterschiede zwischen den Gruppen möglichst groß bleiben.

Diese Objekte können ganz unterschiedlicher Natur sein – zum Beispiel Personen, Produkte, Organisationen oder Länder. Sie werden anhand ausgewählter Merkmale (z. B. Einkommen, Konsumverhalten, Produktauswahl) miteinander verglichen und automatisch zu sinnvollen Gruppen zusammengefasst.

Clusteranalysen sind datengetriebene, explorative Methoden: Statt Hypothesen zu prüfen oder auf statistische Signifikanz zu testen, wird versucht, verborgene Strukturen in den Daten zu identifizieren. Dabei spielt das methodische Vorgehen eine entscheidende Rolle – etwa die Auswahl eines geeigneten Proximitätsmaßes (zur Bestimmung von Ähnlichkeit) und des passenden Algorithmus. Diese Entscheidungen beeinflussen maßgeblich, wie die Cluster gebildet werden.

Das Ergebnis sind Gruppen von Objekten, die nach ihrer Ähnlichkeit gebildet und anschließend beschrieben oder miteinander verglichen werden können – z. B. als Lebensstiltypen, Kundensegmente oder Ländergruppen mit ähnlichem Profil.

Zentrale Leitfrage der Clusteranalyse:
Können innerhalb der Daten sinnvolle, natürliche Gruppen erkannt werden?

Beispiele für mögliche Fragestellungen

  • Können mittels Jahreseinkommen, Alter und Berufserfahrung Cluster gebildet werden?
  • Können Personen anhand ihres Markenbewusstseins, ihres Umweltbewusstseins und ihrer politischen Orientierung gruppiert werden?
  • Lassen sich Sportler in Cluster unterteilen durch die Variablen "Häufigkeit des Ausdauertrainings", "Dauer des Ausdauertrainings", "Körpergewicht" und "Lungenvolumen"?
  • Können Patienten anhand von Symptomen, Krankheitsverlauf und Behandlungserfolg zu Clustern gruppiert werden?
  • Lassen sich Online-Kunden durch ihr Kaufverhalten, ihre Besuchsfrequenz und Rücksendequote sinnvoll clustern?

Voraussetzungen

    ✓ Damit verlässliche Aussagen über die Grundgesamtheit möglich sind, sollte die Stichprobe ausreichend groß sein – auch wenn in der Praxis häufig kleinere Stichproben verwendet werden.
    ✓ Fehlende Werte müssen vor der Durchführung einer Clusteranalyse bereinigt werden. Dazu stehen verschiedene Methoden zur Verfügung, etwa das Entfernen unvollständiger Fälle, das Ersetzen fehlender Werte durch Mittelwerte oder die Imputation.
    ✓ Alle Variablen, die in die Clusteranalyse einfließen, sollten möglichst dasselbe Skalenniveau aufweisen. Falls dies nicht gegeben ist, kann eine Angleichung auf ein gemeinsames (meist niedrigeres) Skalenniveau erforderlich sein.
    ✓ Unterscheiden sich die Variablen stark in ihrem Wertebereich, ist eine Standardisierung – beispielsweise durch z-Transformation – sinnvoll, um Verzerrungen in der Clusterbildung zu vermeiden.

Beispiel einer Studie

Ein Bildungsforschungsinstitut möchte 15 Schulen anhand der Kriterien KlassenBudget und digitaler Ausstattung in Gruppen clustern. Wie viele Cluster lassen sich identifizieren? Und wie können diese Gruppen inhaltlich interpretiert werden? Der zugrunde liegende Datensatz enthält für jede der 15 Schulen Angaben zur durchschnittlichen Budget der Schüler pro Klasse sowie einen Bewertungswert zur digitalen Ausstattung (z. B. Geräteverfügbarkeit, WLAN-Zugang, Einsatz digitaler Lehrmittel).




Downloads

In diesem Bereich werden folgende Dokumente zum Download angeboten. Der erste Link ist der Datensatz, der in R eingelesen werden soll. Das Word-Dokument kann als Protokoll verwendet werden. Die Schritte sind bei der Erstellung einer Auswertung immer die gleichen.


Der Datensatz kann hier heruntergeladen werden: Clusteranalyse (Excel-Datei)


Das Word-Dokument kann hier heruntergeladen werden: Word-Dokument zur Clusteranalyse