import pandas as pd          # Daten laden und bearbeiten
import numpy as np           # Mathematische Funktionen & Arrays
import matplotlib.pyplot as plt  # Diagramme (z. B. Boxplot)
import seaborn as sns        # Erweiterte Diagramme (z. B. Violinplot)
from scipy.stats import kruskal, norm  # Statistik: Kruskal-Wallis, Z-Werte
import scikit_posthocs as sp # Post-hoc-Tests (z. B. Dunn-Test)
from IPython.display import display  # Tabellen hübsch anzeigen im Notebook

wallis_df = pd.read_excel("wallis.xlsx")  
wallis_df.head(5)

# Gruppieren nach Altersgruppe, Anzahl und Median berechnen, dann runden
gruppen_stats = (
    wallis_df
    .groupby("Altersgruppe")
    .agg(Anzahl=("Sportlichkeit", "count"),
         Median=("Sportlichkeit", "median"))
    .round(2)
    .reset_index()
)

# Anzeige der Tabelle

display(gruppen_stats)

# Boxplot nach Altersgruppe (entspricht R boxplot(... ~ ...))
plt.figure(figsize=(8, 6))
wallis_df.boxplot(column="Sportlichkeit", by="Altersgruppe")
plt.title("Boxplot: Sportlichkeit nach Altersgruppe")
plt.suptitle("")  # Entfernt den automatischen Titel von pandas
plt.xlabel("Altersgruppe")
plt.ylabel("Sportlichkeit (Minuten)")
plt.grid(True)
plt.show()

<Figure size 800x600 with 0 Axes>

# Violinplot + Boxplot kombiniert
plt.figure(figsize=(8, 6))
sns.violinplot(data=wallis_df, x="Altersgruppe", y="Sportlichkeit", inner=None, linewidth=0.8)
sns.boxplot(data=wallis_df, x="Altersgruppe", y="Sportlichkeit", width=0.2, showcaps=True, boxprops={'zorder': 2})
plt.title("Boxplot und Violinplot: Sportlichkeit nach Altersgruppe")
plt.xlabel("Altersgruppe")
plt.ylabel("Sportlichkeit (Minuten)")
plt.grid(True)
plt.show()

# Beispiel: Kruskal-Wallis-Test durchführen
gruppen = [gruppe["Sportlichkeit"].dropna().values 
           for _, gruppe in wallis_df.groupby("Altersgruppe")]
stat, p_value = kruskal(*gruppen)

# 📊 Ergebnistabelle erstellen
ergebnis_df = pd.DataFrame([{
    "Test": "Kruskal-Wallis",
    "Teststatistik (H)": f"{stat:.4f}",
    "p-Wert": f"{p_value:.5f}",
}])
print("Ergebnisse des Kruskal-Wallis-Tests:")
print(ergebnis_df.to_string(index=False))

Ergebnisse des Kruskal-Wallis-Tests:
          Test Teststatistik (H)  p-Wert
Kruskal-Wallis           21.1225 0.00003

#from IPython.display import display
# Dunn-Test mit Bonferroni-Korrektur
dunn_df = sp.posthoc_dunn(wallis_df, val_col='Sportlichkeit', group_col='Altersgruppe', p_adjust='bonferroni')

# Ergebnisse anzeigen

display(dunn_df.round(4))

# Z-Wert aus p-Wert berechnen (ungerichtet/zweiseitig)
Zstat = norm.ppf(p_value / 2)  # analog zu qnorm in R
Zstat = abs(Zstat)  # Betrag, da Effektstärke positiv

# Stichprobengröße
daten = len(wallis_df)

# Effektstärke berechnen
eff = Zstat / np.sqrt(daten)

# Ergebnisse anzeigen
print(f"Z-Wert für den H-Test: {Zstat:.2f}")
print(f"Anzahl der Daten: {daten}")
print(f"Effektstärke (r): {eff:.2f}")
#

Z-Wert für den H-Test: 4.21
Anzahl der Daten: 29
Effektstärke (r): 0.78

# Anzahl der Beobachtungen
anzahl = len(wallis_df)

# Teststatistik aus dem Kruskal-Wallis-Test
chi = stat  # das ist H

# Effektstärke w berechnen (nach Cohen)
w = np.sqrt(chi / anzahl)

# Ergebnis anzeigen
print(f"Effektstärke (w): {w:.2f}")

#

Effektstärke (w): 0.85

	ID	Altersgruppe	Sportlichkeit
0	1	0-30	19.0
1	2	0-30	9.0
2	3	0-30	13.0
3	4	0-30	14.0
4	5	0-30	12.5

	Altersgruppe	Anzahl	Median
0	0-30	10	13.5
1	31-55	8	9.2
2	56+	11	3.0

	0-30	31-55	56+
0-30	1.0000	0.1227	0.0000
31-55	0.1227	1.0000	0.0771
56+	0.0000	0.0771	1.0000

Kruskal-Wallis-Test in R¶

Pakete importieren¶

Daten einlesen¶

Hypothese¶

Voraussetzungen für den Kruskal-Wallis-Test¶

Deskriptive Statistiken¶

Boxplots¶

ALTERNATIV¶

Ergebnisse der Kruskal-Wallis-Test¶

Berechnung der Effektstärke¶

ALTERNATIVE¶

Eine Aussage¶