Pakate importe

require(dplyr)
require(broom)
require(ggplot2)
require(ggdendro)
require(cluster)

Einlesen der Datei

#library(readxl)
#Clusteranalyse <- read_excel("python_webseite/Clusteranalyse/Clusteranalyse.xlsx")
#View(Clusteranalyse)
Clusteranalyse$KlassenBudget <- as.numeric(Clusteranalyse$KlassenBudget)
Clusteranalyse$digitaler_Ausstattungsscore <- as.numeric(Clusteranalyse$digitaler_Ausstattungsscore)
rownames(Clusteranalyse) <- make.unique(as.character(Clusteranalyse$Schule))

1. Voraussetzungen der Clusteranalyse

✓ Damit verlässliche Aussagen über die Grundgesamtheit möglich sind, sollte die Stichprobe ausreichend groß sein – auch wenn in der Praxis häufig kleinere Stichproben verwendet werden.

✓ Fehlende Werte müssen vor der Durchführung einer Clusteranalyse bereinigt werden. Dazu stehen verschiedene Methoden zur Verfügung, etwa das Entfernen unvollständiger Fälle, das Ersetzen fehlender Werte durch Mittelwerte oder die Imputation.

✓ Alle Variablen, die in die Clusteranalyse einfließen, sollten möglichst dasselbe Skalenniveau aufweisen. Falls dies nicht gegeben ist, kann eine Angleichung auf ein gemeinsames (meist niedrigeres) Skalenniveau erforderlich sein.

✓ Unterscheiden sich die Variablen stark in ihrem Wertebereich, ist eine Standardisierung – beispielsweise durch z-Transformation – sinnvoll, um Verzerrungen in der Clusterbildung zu vermeiden.

2. Grundlegende Konzepte

Die Clusteranalyse ist ein Verfahren der multivariaten Statistik, das dazu dient, Objekte (zum Beispiel Personen, Unternehmen oder – wie in deinem Fall – Schulen) anhand ihrer Merkmale in Gruppen (sogenannte Cluster) einzuteilen. Ziel ist es, dass die Objekte innerhalb eines Clusters möglichst ähnlich sind, während sich die Cluster untereinander möglichst stark unterscheiden. Dabei weiß man zu Beginn meist nicht, wie viele Cluster es geben wird – dies ergibt sich aus den Daten selbst. Die Clusteranalyse kommt häufig in den Sozialwissenschaften, im Marketing oder der Biologie zum Einsatz, um verborgene Muster und Strukturen in großen Datensätzen zu entdecken. Typische Schritte bei einer Clusteranalyse sind die Auswahl relevanter Variablen, das Bereinigen der Daten (z.B. Umgang mit fehlenden Werten), eventuell eine Standardisierung der Merkmale sowie die Anwendung eines Algorithmus (wie K-Means oder hierarchisches Clustering). Die Ergebnisse der Analyse helfen dabei, Gruppen mit ähnlichen Eigenschaften zu identifizieren und diese anschließend zu interpretieren und weiterzuverwenden.

3. Deskriptive Statistiken

describe(Clusteranalyse)
library(dplyr)
Clusteranalyse %>%
  summarise(
    Mittelwert_KlassenBudget = mean(KlassenBudget),
    Mittelwert_DigitalScore = mean(digitaler_Ausstattungsscore),
    n = n()
  )

4. Prüfung der Voraussetzung

✓ Damit verlässliche Aussagen über die Grundgesamtheit möglich sind, sollte die Stichprobe ausreichend groß sein – auch wenn in der Praxis häufig kleinere Stichproben verwendet werden.

N ist mit größer 30

✓ Alle Variablen, die in die Clusteranalyse einfließen, sollten möglichst dasselbe Skalenniveau aufweisen. Falls dies nicht gegeben ist, kann eine Angleichung auf ein gemeinsames (meist niedrigeres) Skalenniveau erforderlich sein.

Beide Spalten sind metrisch.

✓ Fehlende Werte müssen vor der Durchführung einer Clusteranalyse bereinigt werden. Dazu stehen verschiedene Methoden zur Verfügung, etwa das Entfernen unvollständiger Fälle, das Ersetzen fehlender Werte durch Mittelwerte oder die Imputation.

missing_value <- sum(as.numeric(is.na(Clusteranalyse)))
sprintf("Fehlende Werte: %.2f", missing_value)
[1] "Fehlende Werte: 0.00"

✓ Unterscheiden sich die Variablen stark in ihrem Wertebereich, ist eine Standardisierung – beispielsweise durch z-Transformation – sinnvoll, um Verzerrungen in der Clusterbildung zu vermeiden.

daten <- Clusteranalyse[, 2:3]

# # 3. Labels (Schulnamen)
labels <- Clusteranalyse$Schule

rownames(daten) <- labels
Warnung: Setting row names on a tibble is deprecated.
# Standardisierung (z-Transformation)
daten_scaled <- scale(daten)

Da sich die Variablen in ihrem Wertebereich deutlich unterscheiden, wurden die Daten vor der Clusteranalyse mittels z-Transformation standardisiert. So wird sichergestellt, dass beide Merkmale gleich gewichtet in die Distanzberechnung und Clusterbildung eingehen und keine Verzerrungen entstehen.

4. Prozess der Clusterbildung

Bevor mit der eigentlichen Clusterbildung begonnen werden kann, ist die Erstellung einer Distanzmatrix ein zentraler erster Schritt. Sie liefert die Grundlage, um objektiv zu bestimmen, wie ähnlich oder verschieden die einzelnen Fälle im Datensatz zueinander sind und bildet damit die Basis für alle weiteren Schritte der Clusteranalyse.

# Distanzmatrix (euklidisch)
distanz <- dist(daten_scaled, method = "euclidean")

# Quadrierte Distanzen (wie im Beispiel)
naeherungsmatrix <- as.matrix(distanz)^2

# Runden für bessere Lesbarkeit
naeherungsmatrix <- round(naeherungsmatrix, 3)

# Spalten- und Zeilennamen setzen (Überschriften)
colnames(naeherungsmatrix) <- labels
rownames(naeherungsmatrix) <- labels

# Matrix anzeigen
print(naeherungsmatrix)
        AEG    AFS   EvTG    EKG    EAO    FSR    GSS    GG    HHG    HR   MMS   MLS    PS   SSG    TSG
AEG   0.000  0.391  0.219  2.471  6.715  1.554 10.357 7.313  3.339 8.061 7.733 7.385 7.756 6.690 25.739
AFS   0.391  0.000  0.539  0.910  3.988  0.407  6.813 4.353  1.477 4.923 4.673 4.422 4.736 4.021 20.232
EvTG  0.219  0.539  0.000  2.684  7.305  1.443 10.844 7.566  3.072 8.246 7.319 6.897 7.141 5.855 23.688
EKG   2.471  0.910  2.684  0.000  1.140  0.261  2.754 1.283  0.297 1.606 1.717 1.641 1.921 1.830 14.176
EAO   6.715  3.988  7.305  1.140  0.000  2.423  0.427 0.150  1.495 0.265 1.170 1.330 1.664 2.377 11.561
FSR   1.554  0.407  1.443  0.261  2.423  0.000  4.447 2.426  0.338 2.800 2.360 2.164 2.372 1.883 14.930
GSS  10.357  6.813 10.844  2.754  0.427  4.447  0.000 0.315  2.766 0.240 1.189 1.444 1.711 2.774  8.935
GG    7.313  4.353  7.566  1.283  0.150  2.426  0.315 0.000  1.216 0.024 0.508 0.636 0.864 1.496  9.135
HHG   3.339  1.477  3.072  0.297  1.495  0.338  2.766 1.216  0.000 1.416 0.918 0.793 0.924 0.701 10.944
HR    8.061  4.923  8.246  1.606  0.265  2.800  0.240 0.024  1.416 0.000 0.430 0.570 0.770 1.452  8.327
MMS   7.733  4.673  7.319  1.717  1.170  2.360  1.189 0.508  0.918 0.430 0.000 0.014 0.049 0.340  6.154
MLS   7.385  4.422  6.897  1.641  1.330  2.164  1.444 0.636  0.793 0.570 0.014 0.000 0.019 0.218  6.196
PS    7.756  4.736  7.141  1.921  1.664  2.372  1.711 0.864  0.924 0.770 0.049 0.019 0.000 0.152  5.660
SSG   6.690  4.021  5.855  1.830  2.377  1.883  2.774 1.496  0.701 1.452 0.340 0.218 0.152 0.000  6.214
TSG  25.739 20.232 23.688 14.176 11.561 14.930  8.935 9.135 10.944 8.327 6.154 6.196 5.660 6.214  0.000

Bei der Durchführung einer Clusteranalyse wird zunächst eine sogenannte Näherungsmatrix (Distanzmatrix) erstellt. Diese Matrix enthält die quadrierten euklidischen Distanzen für sämtliche Kombinationen von Fällen (hier: Schulen) im Datensatz. Für jedes Wertepaar lässt sich daraus direkt ablesen, wie groß der Abstand zwischen den einzelnen Fällen im Merkmalsraum ist. Die Werte geben jeweils die quadrierte Entfernung zwischen zwei Schulen an.

Beispielsweise beträgt der Abstand zwischen „AEG“ und „AFS“ exakt 0,391 Einheiten, was auf eine hohe Ähnlichkeit dieser beiden Schulen bezüglich der untersuchten Merkmale hindeutet. Im Gegensatz dazu zeigt der Wert von 25,739 für das Paar „AEG“ und „TSG“ eine sehr große Verschiedenheit.

Besonders niedrige Werte in der Matrix deuten darauf hin, dass diese Fälle sich hinsichtlich ihrer Merkmalsausprägungen besonders ähnlich sind und somit bei der Clusterbildung früh zusammengefasst werden. Hohe Distanzwerte zeigen dagegen besonders unterschiedliche Fälle an, die erst in späten Schritten des Clustering-Prozesses gemeinsam einem Cluster zugeordnet werden.

Die Näherungsmatrix bildet somit die Basis für das hierarchische Clustering, da in jedem Schritt stets die jeweils ähnlichsten Fälle bzw. Cluster zusammengefasst werden.

# Hierarchisches Clustering (Ward)
hc <- hclust(dist(daten_scaled), method = "ward.D2")

# Tabelle für die Zuordnungsübersicht bauen
zuordnung <- data.frame(
  Schritt = 1:length(hc$height),
  Cluster_1 = hc$merge[,1],
  Cluster_2 = hc$merge[,2],
  Koeffizient = round(hc$height^2, 3)) # quadrierte Distanz 

zuordnung$Cluster_1_ID <- ifelse(zuordnung$Cluster_1 < 0, -zuordnung$Cluster_1, zuordnung$Cluster_1)
zuordnung$Cluster_2_ID <- ifelse(zuordnung$Cluster_2 < 0, -zuordnung$Cluster_2, zuordnung$Cluster_2)

colnames(zuordnung) <- c("Schritt", "Cluster 1 (intern)", "Cluster 2 (intern)", "Koeffizienten", "Cluster 1", "Cluster 2")


zuordnung_tab <- zuordnung[,c("Schritt", "Cluster 1", "Cluster 2", "Koeffizienten")]
print(zuordnung_tab)
View(zuordnung_tab)

Im weiteren Verlauf der Analyse wird in der sogenannten Zuordnungsübersicht detailliert aufgezeigt, wie die einzelnen Schritte der Clusterbildung ablaufen. Zu Beginn der Analyse bildet jeder Fall ein eigenes Cluster. In jedem Schritt werden dann die beiden Cluster zusammengeführt, die den jeweils geringsten Abstand zueinander aufweisen – dies ist in der Spalte „Koeffizienten“ an den kleinsten Werten zu erkennen.

So zeigt die Übersicht beispielsweise, dass im ersten Schritt (Schritt 14) die Cluster 1 und 14 miteinander verschmolzen werden, da sie den minimalen Abstand zueinander aufweisen (Koeffizient: 0.014). Im darauf folgenden Schritt (Schritt 12) wird dieses neu gebildete Cluster (1/14) direkt mit Cluster 11 zusammengeführt (Koeffizient: 0.019). Dadurch entsteht ein größeres Cluster (1, 11, 14). Parallel dazu werden auch weitere Fälle mit geringer Distanz zusammengefasst, zum Beispiel Cluster 3 und 5 (Schritt 8, Koeffizient: 0.041).

Mit jedem weiteren Schritt in der Tabelle werden jeweils die aktuell ähnlichsten Clusterpaare vereinigt, was sich daran zeigt, dass die jeweiligen Koeffizienten weiterhin eher klein bleiben (z.B. 0.024, 0.219, 0.261 usw.), bevor mit zunehmender Clustergröße die Werte deutlich ansteigen. Am Ende des Prozesses (Schritt 14 und Schritt 13) werden schließlich die größten, verbliebenen Cluster zusammengeführt, wobei die Koeffizienten nun deutlich größer sind (z.B. 13.190 oder 30.693). Dies zeigt, dass in den letzten Schritten auch weniger ähnliche Gruppen zu einem Gesamtcluster verschmolzen werden.

Die Koeffizienten-Spalte dokumentiert dabei die jeweils aktuelle Heterogenität beim Zusammenführen der Cluster – kleine Werte stehen für sehr ähnliche Gruppen, große Werte für die Vereinigung sehr unterschiedlicher Cluster. Die Tabelle macht somit transparent, wie der Algorithmus Schritt für Schritt immer größere, aber auch immer weniger homogene Gruppen bildet, bis alle Fälle in einem einzigen Gesamtcluster vereint sind.

6. Bestimmen der Anzahl Cluster

Zu Beginn eines Clusteranalyse-Verfahrens wird jeder einzelne Fall als eigenständiges Cluster betrachtet. Im Verlauf des Analyseprozesses werden diese Einzelfälle schrittweise zu immer größeren Gruppen zusammengeführt, bis schließlich alle Fälle in einem einzigen, umfassenden Cluster vereint sind. Die zentrale Frage, die sich dabei stellt, ist: Wie viele Cluster sind für die Interpretation der Daten sinnvoll? Das heißt, wo zwischen der maximalen Anzahl von Clustern (bei 15 Fällen: 15 Cluster) und nur einem einzigen Cluster liegt die optimale Lösung?

Um diese Entscheidung zu treffen, wird häufig sowohl auf inhaltliche Überlegungen (also die Sinnhaftigkeit bestimmter Gruppenzahlen für das Untersuchungsziel) als auch auf grafische Hilfsmittel wie das sogenannte Dendrogramm zurückgegriffen.

# Dendrogramm plotten
plot(hc, main = "Dendrogramm mit Ward-Verknüpfung", xlab = "", sub = "")

# Rote Markierung für optimale Cluster-Anzahl (hier: 2-Cluster-Lösung)
rect.hclust(hc, k = 2, border = "red")

Alternative

ggdendro::ggdendrogram(hc, labels = T, rotate =  T)

Das oben dargestellte Dendrogramm visualisiert den gesamten Clusterbildungsprozess in Form einer Baumstruktur. Am Anfang steht jede Schule als eigenständiger Punkt ganz unten in dieser Baumstruktur. Mit jedem Schritt werden jeweils die beiden ähnlichsten Schulen oder Cluster zu einem gemeinsamen Ast zusammengefasst – dies ist an den vertikalen Linien der Baumstruktur erkennbar. Je höher die Verbindung in der Baumstruktur angesetzt ist, desto größer ist die Unterschiedlichkeit (Heterogenität) der zusammengeführten Cluster.

Die vertikale Achse (“Height”) gibt die Distanz an, mit der jeweils zwei Cluster fusionieren. Ein besonders großer Sprung auf dieser Achse signalisiert, dass an dieser Stelle zwei Gruppen zusammengelegt werden, die sich bereits deutlich voneinander unterscheiden.

In diesem Beispiel ist klar zu erkennen, dass sich eine Zwei-Cluster-Lösung anbietet. Die beiden roten Kästen markieren die Cluster, die nach dem größten Sprung in der Baumstruktur entstehen:

Der linke Cluster enthält die Schulen HHG, EKG, FSR, AFS, AEG und EvTG,

der rechte Cluster fasst die übrigen Schulen zusammen (TSG, SSG, PS, MMS, MLS, GSS, EAO, GG, HR).

Die Wahl der optimalen Clusterzahl orientiert sich an dem Punkt, an dem in der Baumstruktur der größte Abstand (“Height”) zwischen zwei Verbindungen auftritt. Dadurch werden zwei Gruppen gebildet, die intern möglichst ähnlich und untereinander möglichst unterschiedlich sind.

Diese Darstellung in Baumstruktur-Form macht den Prozess der Clusterbildung besonders anschaulich und erleichtert die nachvollziehbare Einteilung der betrachteten Schulen in sinnvolle Gruppen.

7. Beschreibung der Cluster

Die Tabelle zur Cluster-Zugehörigkeit zeigt, welche Fälle jeweils demselben Cluster zugeordnet sind. In diesem Beispiel wurde eine Zwei-Cluster-Lösung gewählt, sodass das Hauptaugenmerk auf der Spalte liegt, die die Zugehörigkeit zu den beiden Clustern angibt. Dabei wird deutlich, dass die Fälle 1, 2, 3, 4, 5, 10, 11, 12 und 14 das erste Cluster bilden, während die Fälle 6, 7, 8, 9, 13 und 15 dem zweiten Cluster zugeordnet werden.


# Clusterzugehörigkeiten für 5, 4, 3, 2 Cluster berechnen
clusters <- data.frame(
  Fall = labels,
  `5 Cluster` = cutree(hc, k = 5),
  `4 Cluster` = cutree(hc, k = 4),
  `3 Cluster` = cutree(hc, k = 3),
  `2 Cluster` = cutree(hc, k = 2)
)

# Ausgabe wie im SPSS-Beispiel
print(clusters)

Um die optimale Anzahl an Clustern für das k-Means-Verfahren festzulegen, wird häufig das sogenannte Elbow-Kriterium (Kniepunkt-Kriterium) herangezogen. Dazu wird für verschiedene Werte von k (Anzahl der Cluster) die gesamte innerhalb der Cluster liegende Quadratsumme („Total Within-Cluster Sum of Squares“, tot.withinss) berechnet und grafisch dargestellt. Der daraus entstehende Elbow-Plot zeigt, wie stark die Heterogenität innerhalb der Cluster mit steigender Clusterzahl abnimmt.

Das Ziel dieses Ansatzes ist es, den Punkt zu identifizieren, an dem eine weitere Erhöhung der Clusteranzahl zu keiner wesentlichen Verbesserung mehr führt. Dieser Punkt – der sogenannte „Knick“ oder „Elbow“ – gibt einen Hinweis darauf, wie viele Cluster die vorhandene Struktur der Daten am besten beschreiben. Auf diese Weise lässt sich eine ausgewogene Balance zwischen zu grober und zu feiner Gruppierung finden.

multi.clust <- data.frame(k = 1:4) %>% group_by(k) %>% do(clust = kmeans(Clusteranalyse, .$k))
sumsq.clust <- multi.clust %>% group_by(k) %>% do(glance(.$clust[[1]]))

ggplot(sumsq.clust, aes(k, tot.withinss)) + geom_line() + geom_point()

Die Grafik zeigt den Verlauf der gesamten innerhalb der Cluster liegenden Quadratsumme (tot.withinss) in Abhängigkeit von der gewählten Clusteranzahl (k). Man erkennt deutlich, dass der Wert für tot.withinss beim Wechsel von einem auf zwei Cluster stark abnimmt. Dieser starke Rückgang bedeutet, dass durch die Aufteilung in zwei Cluster ein Großteil der Heterogenität innerhalb der Gruppen bereits erklärt wird.

Mit jeder weiteren Erhöhung von k sinkt die tot.withinss zwar weiter, der Zugewinn an Homogenität fällt jedoch zunehmend geringer aus. Besonders auffällig ist der „Knick“ zwischen k = 2 und k = 3, ab dem sich die Kurve abflacht. Dies deutet darauf hin, dass die Wahl von zwei Clustern eine sinnvolle Lösung darstellt, da zusätzliche Cluster nur noch einen vergleichsweise geringen Mehrwert bringen.

Zusammenfassend lässt sich festhalten, dass das Elbow-Kriterium hier klar für eine Zwei-Cluster-Lösung spricht, weil an dieser Stelle der größte relative Zugewinn an Homogenität erzielt wird und die Daten somit effizient und sinnvoll gruppiert werden.

weitere Klärung

Zur grafischen Darstellung der Cluster eignet sich ein Streudiagramm (Scatterplot), bei dem die Fälle entsprechend ihrer Clusterzugehörigkeit farblich unterschieden werden. Dabei werden die beiden ausgewählten Merkmale auf den Achsen abgetragen, und die Datenpunkte erhalten unterschiedliche Farben oder Symbole, je nachdem, zu welchem Cluster sie gehören. Die Gruppenzugehörigkeit wird dabei durch die Variable dargestellt, die die Clusterzuordnung enthält. Auf diese Weise lässt sich die Verteilung der Cluster visuell leicht nachvollziehen.

Vorbereitung

Clusteranalyse$Schule <- NULL
row.names(Clusteranalyse)<- clusters$Fall
Warnung: Setting row names on a tibble is deprecated.
View(Clusteranalyse)
p.cluster <- Clusteranalyse %>% kmeans(., 2)


p.cluster$cluster <- as.factor(p.cluster$cluster)

ggplot(Clusteranalyse, aes(KlassenBudget, digitaler_Ausstattungsscore, label = rownames(Clusteranalyse))) + 
  scale_fill_discrete(name = "Cluster")  +
  geom_label(aes(fill = p.cluster$cluster), colour = "white", 
  fontface = "bold", size=2)

Das Streudiagramm zeigt anschaulich, wie die einzelnen Datenpunkte den Clustern zugeordnet sind. Dabei fällt auf, dass der Wert für „CEO“ möglicherweise einen Ausreißer darstellt. Obwohl dieser Fall dennoch einem der beiden Cluster zugeordnet wurde, könnte man alternativ auch überlegen, ihn als eigenes Cluster zu behandeln (z. B. durch eine Drei-Cluster-Lösung) oder ihn ganz aus der Analyse auszuschließen.

Cluster 1 umfasst Schulen mit niedrigem Klassenbudget und geringem digitalen Ausstattungs-Score. Diese Gruppe besteht meist aus kleineren oder finanziell schwächer ausgestatteten Schulen mit Nachholbedarf bei der Digitalisierung.

Cluster 2 beinhaltet Schulen mit hohem Budget und fortschrittlicher digitaler Ausstattung. Hierzu zählen häufig größere oder besser geförderte Schulen, die bereits umfassender in moderne Technologien investiert haben.

alle

multi.clust <- data.frame(k = 1:5) %>% group_by(k) %>% do(clust = kmeans(Clusteranalyse, .$k))
multi.k <- multi.clust %>% group_by(k) %>% do(augment(.$clust[[1]], Clusteranalyse))

ggplot(multi.k, aes(KlassenBudget, digitaler_Ausstattungsscore,)) + geom_point(aes(color = .cluster)) + 
  facet_wrap(~k)

Für die Interpretation und Beschreibung der gefundenen Cluster werden häufig deskriptive Statistiken genutzt. Dazu teilt man den Datensatz entsprechend der Clusterzugehörigkeit auf und berechnet für jedes Cluster beispielsweise Mittelwerte oder Häufigkeiten wichtiger Merkmale. So lässt sich die Zusammensetzung der Cluster gezielt vergleichen und charakterisieren.

Clusteranalyse$Cluster2 <- as.factor(cutree(hc, k = 2))

# 9. Clusterbeschreibung (Mittelwerte je Cluster)
cluster_summary <- Clusteranalyse %>%
  group_by(Cluster2) %>%
  summarise(
    Mittelwert_KlassenBudget = mean(KlassenBudget),
    Mittelwert_DigitalScore = mean(digitaler_Ausstattungsscore),
    Anzahl = n()
  )
print(cluster_summary)

# 10. (Optional) t-Test zum Clustervergleich
t.test(KlassenBudget ~ Cluster2, data = Clusteranalyse)

    Welch Two Sample t-test

data:  KlassenBudget by Cluster2
t = -3.2603, df = 11.787, p-value = 0.006975
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
 -52.04893 -10.29885
sample estimates:
mean in group 1 mean in group 2 
       36.58167        67.75556 
t.test(digitaler_Ausstattungsscore ~ Cluster2, data = Clusteranalyse)

    Welch Two Sample t-test

data:  digitaler_Ausstattungsscore by Cluster2
t = -5.2889, df = 8.0922, p-value = 0.000711
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
 -155.30066  -61.12489
sample estimates:
mean in group 1 mean in group 2 
       131.0250        239.2378 

Zur Überprüfung, ob sich die Cluster hinsichtlich des Klassenbudgets und des digitalen Ausstattungs­scores signifikant unterscheiden, wurden unabhängige Stichproben-t-Tests durchgeführt.

Für das Klassenbudget ergab der Test einen signifikanten Unterschied zwischen den beiden Clustern, t(11.79) = -3.26, p = .007. Die mittleren Klassenbudgets lagen bei Cluster 1 bei M = 36.58 und bei Cluster 2 bei M = 67.76. Das 95%-Konfidenzintervall für die Mittelwertsdifferenz lag zwischen -52.05 und -10.30.

Auch für den digitalen Ausstattungsscore zeigte sich ein hochsignifikanter Unterschied zwischen den Clustern, t(8.09) = -5.29, p < .001. Der Mittelwert im ersten Cluster betrug M = 131.03, im zweiten Cluster M = 239.24. Das 95%-Konfidenzintervall für die Mittelwertsdifferenz reichte von -155.30 bis -61.12.

Interpretation: Die Ergebnisse zeigen, dass sich die beiden identifizierten Cluster sowohl im Klassenbudget als auch im digitalen Ausstattungsgrad signifikant unterscheiden.

8. Eine Aussage

Im Rahmen der vorliegenden Untersuchung wurde eine hierarchische Clusteranalyse unter Anwendung der Ward-Methode und auf Basis der quadrierten euklidischen Distanz durchgeführt. Ziel war es, die untersuchten Schulen anhand der Merkmale „Klassenbudget“ und „digitaler Ausstattungs-Score“ in möglichst homogene Gruppen einzuteilen und so verborgene Strukturen innerhalb des Datensatzes sichtbar zu machen.

Die Auswertung des zugehörigen Dendrogramms und die Anwendung des Elbow-Kriteriums (vgl. Abbildung X) deuten darauf hin, dass eine Zwei-Cluster-Lösung die vorhandene Heterogenität in den Daten am besten abbildet. Der markanteste Anstieg der Fusionsdistanzen im Dendrogramm legt nahe, dass die Zusammenfassung auf zwei Gruppen sowohl statistisch sinnvoll als auch aus inhaltlicher Perspektive plausibel ist.

Zur Überprüfung der Unterschiede zwischen den Clustern wurden unabhängige Stichproben-t-Tests durchgeführt. Die Ergebnisse zeigen, dass sich die beiden Cluster signifikant sowohl im Klassenbudget (t(11.79) = -3.26, p = .007, 95%-CI [-52.05; -10.30]) als auch im digitalen Ausstattungs-Score (t(8.09) = -5.29, p < .001, 95%-CI [-155.30; -61.12]) unterscheiden. Die Mittelwerte in den beiden Clustern liegen beim Klassenbudget bei M₁ = 36.58 (SD nicht ausgewiesen) und M₂ = 67.76, beim Ausstattungs-Score bei M₁ = 131.03 und M₂ = 239.24. Die Differenzen sind somit sowohl statistisch signifikant als auch praktisch bedeutsam.

Interpretation der Clusterstruktur: Cluster 1 umfasst jene Schulen, die sowohl über ein unterdurchschnittliches Klassenbudget als auch über einen vergleichsweise niedrigen digitalen Ausstattungs-Score verfügen. Typischerweise gehören zu dieser Gruppe beispielsweise kleinere oder finanziell weniger stark ausgestattete Schulen, die möglicherweise im Bereich der digitalen Infrastruktur noch Entwicklungsbedarf aufweisen.

Cluster 2 hingegen setzt sich aus Schulen zusammen, die sowohl ein deutlich höheres Budget als auch eine fortschrittlichere digitale Ausstattung aufweisen. Diese Gruppe könnte zum Beispiel Gymnasien oder Schulen in wohlhabenderen Regionen umfassen, bei denen mehr Mittel für moderne Ausstattung zur Verfügung stehen und die tendenziell auch von gezielten Digitalisierungsinitiativen profitiert haben.

Die grafische Darstellung der Cluster in der Baumstruktur des Dendrogramms zeigt deutlich, dass innerhalb der beiden Gruppen eine hohe Ähnlichkeit hinsichtlich der betrachteten Merkmale besteht, während sich die Gruppen untereinander klar voneinander abgrenzen. Diese Befunde werden durch die Ergebnisse der t-Tests weiter untermauert.

Zusammenfassend lässt sich festhalten: Die durchgeführte Clusteranalyse bestätigt, dass Schulen anhand der beiden untersuchten Merkmale zuverlässig in zwei unterschiedliche Typen eingeteilt werden können. Die Zugehörigkeit zu einem der beiden Cluster ist dabei eng mit den jeweiligen Ausprägungen in Budget und Digitalisierung verknüpft. Die Analyse bietet somit eine belastbare Grundlage für eine gezielte Förder- oder Interventionsstrategie, etwa indem Schulen mit niedrigerem Budget und Ausstattungsgrad gezielt in ihrer digitalen Entwicklung unterstützt werden.

