import pandas as pd                    # Tabellenmanipulation
import numpy as np                     # Numerische Funktionen
import warnings                        # Warnungen unterdrücken
warnings.filterwarnings("ignore")
import matplotlib.pyplot as plt        # Plot-Erstellung
import seaborn as sns                  # Statistische Plots
from scipy.stats import probplot      # QQ-Plot
from scipy.stats import levene        # Levene-Test
from scipy.stats import f_oneway      # Klassische Einweg-ANOVA
import scipy.stats as stats            # Weitere Tests (t-Test, Shapiro, …)
import statsmodels.api as sm          # OLS-Modelle, ANOVA
from statsmodels.formula.api import ols
from statsmodels.stats.multicomp import pairwise_tukeyhsd  # Tukey HSD
import pingouin as pg                  # Welch-ANOVA, Games-Howell, Effektstärken

# Excel-Datei laden
df = pd.read_excel("anovaohne.xlsx")
df.columns = df.columns.str.strip()
df.head()

farben = ["lightgreen", "deepskyblue", "tomato", "orange"]

# Boxplot erstellen
sns.boxplot(
    data=df,
    x="Trainingsarten",
    y="Ausdauertest",
    palette=farben
)

# Titel und Achsenbeschriftungen
plt.title("Boxplots zum Vergleich")
plt.xlabel("Trainingsmethode")
plt.ylabel("Ausdauer")
plt.show()

# Facettiertes Histogramm nach Trainingsart
g = sns.displot(
    data=df,
    x="Ausdauertest",
    col="Trainingsarten",
    hue="Trainingsarten",
    bins=20,
    kde=False,
    palette="pastel"
)

# Achsen- und Gesamtbeschriftung
g.set_axis_labels("Ausdauertest", "Anzahl")
g.set_titles("Trainingsart: {col_name}")
g.fig.suptitle("Histogramme nach Trainingsarten", y=1.05)
plt.show()

# Trainingsgruppen extrahieren
gruppen = df["Trainingsarten"].unique()
fig, axes = plt.subplots(1, len(gruppen), figsize=(5 * len(gruppen), 4))

# QQ-Plots für jede Gruppe zeichnen
for ax, gruppe in zip(axes, gruppen):
    werte = df[df["Trainingsarten"] == gruppe]["Ausdauertest"]
    probplot(werte, dist="norm", plot=ax)
    ax.set_title(f"QQ-Plot: {gruppe}")
    ax.set_xlabel("Theoretische Quantile")
    ax.set_ylabel("Beobachtete Werte")

plt.tight_layout()
plt.show()

# Gruppen nach 'Trainingsarten' extrahieren
gruppen = [gruppe["Ausdauertest"].values for name, 
           gruppe in df.groupby("Trainingsarten")]

# Levene-Test mit Mittelwert-Zentrierung
stat, p = levene(*gruppen, center="mean")

# Freiheitsgrade berechnen
k = len(gruppen)                    # Anzahl Gruppen
N = sum(len(g) for g in gruppen)    # Gesamtanzahl Beobachtungen
df_between = k - 1                  # Zählerfreiheitsgrad
df_within = N - k                   # Nennerfreiheitsgrad

# Tabelle mit Ergebnissen erstellen
levene_ergebnisse = pd.DataFrame([{
    "Test": "Levene-Test",
    "W-Wert": f"{stat:.2f}",
    "p-Wert": f"{p:.4f}",
    "df (zwischen)": df_between,
    "df (innerhalb)": df_within
}])

# Tabelle anzeigen
print("Ergebnisse des Levene-Tests:")
print(levene_ergebnisse.to_string(index=False))

Ergebnisse des Levene-Tests:
       Test W-Wert p-Wert  df (zwischen)  df (innerhalb)
Levene-Test   2.91 0.0376              3             115

# Gruppierte deskriptive Statistik
statistik = (
    df.groupby("Trainingsarten")["Ausdauertest"]
    .agg(
        Anzahl="count",
        Mittelwert="mean",
        Median="median",
        Standardabweichung="std"
    )
    .round(2)
)

display(statistik)

model = ols("Ausdauertest ~ C(Trainingsarten)", data=df).fit()

# ANOVA-Tabelle erzeugen (Typ-1-ANOVA)
anova_table = sm.stats.anova_lm(model, typ=1)

# Ausgabe der ANOVA-Ergebnisse
print("Ergebnisse der einfaktoriellen ANOVA:")
print(anova_table)

Ergebnisse der einfaktoriellen ANOVA:
                      df        sum_sq      mean_sq           F        PR(>F)
C(Trainingsarten)    3.0  13337.759828  4445.919943  414.337682  1.838159e-61
Residual           115.0   1233.971264    10.730185         NaN           NaN

# Welch-ANOVA durchführen
welch_anova = pg.welch_anova(dv="Ausdauertest",
                             between="Trainingsarten", data=df)

# Ausgabe der Ergebnisse
print("Welch-ANOVA-Ergebnisse:")
print(welch_anova)

Welch-ANOVA-Ergebnisse:
           Source  ddof1      ddof2           F         p-unc       np2
0  Trainingsarten      3  62.679724  446.849941  3.070231e-42  0.915317

tukey = pairwise_tukeyhsd(
    endog=df["Ausdauertest"],            # abhängige Variable
    groups=df["Trainingsarten"],         # Gruppenfaktor
    alpha=0.05                           # Signifikanzniveau
)

# Ergebnisse anzeigen
print(tukey.summary())

         Multiple Comparison of Means - Tukey HSD, FWER=0.05          
======================================================================
    group1         group2     meandiff p-adj   lower    upper   reject
----------------------------------------------------------------------
Trainingsart 1 Trainingsart 2   9.3391    0.0   7.1152   11.563   True
Trainingsart 1 Trainingsart 3 -13.7276    0.0 -15.9515 -11.5037   True
Trainingsart 1 Trainingsart 4 -16.7943    0.0 -19.0181 -14.5704   True
Trainingsart 2 Trainingsart 3 -23.0667    0.0 -25.2716 -20.8617   True
Trainingsart 2 Trainingsart 4 -26.1333    0.0 -28.3383 -23.9284   True
Trainingsart 3 Trainingsart 4  -3.0667 0.0024  -5.2716  -0.8617   True
----------------------------------------------------------------------

tukey = pairwise_tukeyhsd(endog=df["Ausdauertest"], 
                          groups=df["Trainingsarten"], alpha=0.05)

# Ergebnisse als DataFrame extrahieren
tukey_df = pd.DataFrame(data=tukey._results_table.data[1:],
                        columns=tukey._results_table.data[0])

# Plot vorbereiten
fig, ax = plt.subplots(figsize=(8, 6))
for i, row in tukey_df.iterrows():
    # Mittelwertsdifferenz und Konfidenzintervall
    group_label = f"{row['group1']} – {row['group2']}"
    lower = float(row['lower'])
    upper = float(row['upper'])
    mean_diff = float(row['meandiff'])

    # Konfidenzintervall zeichnen
    ax.plot([lower, upper], [i, i], color="red", linewidth=2)
    # Mittelwertsdifferenz markieren
    ax.plot(mean_diff, i, 'ro')  # roter Punkt

# Achsen formatieren
ax.axvline(0, color='gray', 
           linestyle='--')  # vertikale Linie bei 0
ax.set_yticks(range(len(tukey_df)))
ax.set_yticklabels([f"{row['group1']} – {row['group2']}" for _,
                    row in tukey_df.iterrows()])
ax.set_xlabel("Differenz der Mittelwerte")
ax.set_title("Tukey HSD – 95%-Konfidenzintervalle für Gruppenvergleiche", 
             fontsize=12)
plt.grid(axis='x', linestyle='--', alpha=0.4)
plt.tight_layout()
plt.show()

games_result = pg.pairwise_gameshowell(dv="Ausdauertest", 
                                       between="Trainingsarten", data=df)
# Ausgabe
print(games_result)

                A               B    mean(A)    mean(B)       diff        se  \
0  Trainingsart 1  Trainingsart 2  38.827586  48.166667  -9.339080  0.973306   
1  Trainingsart 1  Trainingsart 3  38.827586  25.100000  13.727586  0.927675   
2  Trainingsart 1  Trainingsart 4  38.827586  22.033333  16.794253  0.863681   
3  Trainingsart 2  Trainingsart 3  48.166667  25.100000  23.066667  0.842046   
4  Trainingsart 2  Trainingsart 4  48.166667  22.033333  26.133333  0.770977   
5  Trainingsart 3  Trainingsart 4  25.100000  22.033333   3.066667  0.712505   

           T         df          pval    hedges  
0  -9.595220  55.258316  1.384670e-12 -2.471824  
1  14.797845  52.451662  0.000000e+00  3.819823  
2  19.444979  45.937352  0.000000e+00  5.036640  
3  27.393581  57.144729  0.000000e+00  6.981135  
4  33.896368  52.028241  0.000000e+00  8.638342  
5   4.304066  55.186023  3.934332e-04  1.096872

# Mittelwert + Konfidenzintervall plotten
plt.figure(figsize=(6, 4))
sns.pointplot(
    data=df,
    x="Trainingsarten",
    y="Ausdauertest",
    ci=95,              # 95%-Konfidenzintervall
    capsize=0.2,        # Breite der Fehlerbalken
    errwidth=0.8,       # Dicke der Balken
    join=True,          # Linien zwischen Punkten
    markers='o',
    dodge=False
)

# Achsentitel und Stil
plt.xlabel("Trainingsart")
plt.ylabel("Ausdauer")
sns.despine()
plt.grid(False)
plt.tight_layout()
plt.show()

# ANOVA + Effektstärke (eta-squared) berechnen
aov_result = pg.anova(dv="Ausdauertest", 
                      between="Trainingsarten",
                      data=df, detailed=True)

# Ausgabe
print(aov_result[["Source", "DF", "F", "p-unc", "np2"]])

           Source   DF           F         p-unc       np2
0  Trainingsarten    3  414.337682  1.838159e-61  0.915317
1          Within  115         NaN           NaN       NaN

# Partielle Eta² aus ANOVA-Ergebnissen
eta_sq = aov_result["np2"].values[0] 

# Effektstärke (Cohen's f) berechnen
cohen_f = np.sqrt(eta_sq / (1 - eta_sq))

# Ausgabe
print(f"Die Effektstärke liegt bei: {cohen_f:.2f}")

Die Effektstärke liegt bei: 3.29

Paket einlesen¶

Daten einlesen¶

Hypothese¶

Voraussetzungen der einfaktoriellen Varianzanalyse ohne Messwiederholung¶

Boxplots¶

Normalverteilung -> Prüfung mittels Histogramm¶

Alternativ QQPlot¶

Prüfung der Varianzhomogenität (Levene-Test)¶

Deskriptive Statistiken¶

Ergebnisse der einfaktoriellen Varianzanalyse¶

Modell¶

mit Welch-Korrektur¶

Post-hoc-Tests¶

Profildiagramm¶

Das partielle Eta-Quadrat¶

Effektstärke¶

Eine Aussage¶

	ID	Trainingsarten	Ausdauertest
0	1	Trainingsart 1	45
1	2	Trainingsart 1	41
2	3	Trainingsart 1	40
3	4	Trainingsart 1	44
4	5	Trainingsart 1	33

	Anzahl	Mittelwert	Median	Standardabweichung
Trainingsarten
Trainingsart 1	29	38.83	40.0	3.99
Trainingsart 2	30	48.17	48.5	3.45
Trainingsart 3	30	25.10	25.0	3.06
Trainingsart 4	30	22.03	22.0	2.43