Hypothese

H1: Es gibt einen Mittelwertsunterschied zwischen der Trainingsarten (Training1, Training 2, Training 3, Training 4) und der Ausdauer.

\(M_{1} \neq M_{2} \neq M_{3} \neq M_{4} \text { für min. einen Vergleich}\)

H0: Es gibt keinen Mittelwertsunterschied zwischen der Trainingsarten (Training1, Training 2, Training 3, Training 4) und der Ausdauer. \(M_{1} = M_{2}= M_{3}= M_{4}\)

Voraussetzungen der einfaktoriellen Varianzanalyse ohne Messwiederholung

✓ Die abhängige Variable ist intervallskaliert -> Ausdauer ist metrisch

✓ Die unabhängige Variable (Faktor) ist kategorial (nominal- oder ordinalskaliert) -> Die Trainingsarten sind nominal-skaliert.

✓ Die durch den Faktor gebildeten Gruppen sind unabhängig Jeder TeilnehmerIn hat ausschliesslich in seiner oder ihrer Gruppe trainiert.

✓ Die abhängige Variablen ist normalverteilt innerhalb jeder der Gruppen (Ab > 25 Probanden pro Gruppe sind Verletzungen in der Regel unproblematisch) -> siehe Histogramm und QQplot

✓ Homogenität der Varianzen: Die Gruppen stammen aus Grundgesamtheiten mit annähernd identischen Varianzen der abhängigen Variablen -> siehe Levene-Test

Boxplots

boxplot(anovaohne$Ausdauertest ~ anovaohne$Trainingsarten, main = "Boxplots zum Vergleich", ylab = "Ausdauer", xlab= "Trainingsmethode" , col = c("lightgreen", "deepskyblue","tomato", "orange"))

Boxplot zeigt keine Ausreisser. Die Verteilungen scheinen sich von einander zu unterscheiden, allerdings nicht so eindeutig bei Training 3 und Training 4.

Normalverteilung -> Prüfung mittels Histogramm

Um einen ersten Überblick über die Daten zu gewinnen, empfiehlt es sich Histogrammm zu erstellen.

anovaohne %>%
  group_by(Trainingsarten) %>%
  ggplot(aes(Ausdauertest, color=Trainingsarten)) + 
  geom_histogram(aes(fill = Trainingsarten), bins = 20) +
  facet_wrap(~Trainingsarten) +
  theme_grey()+
  labs(x= "Ausdauertest",y = "Anzahl" )

Die Daten sind normalverteilt, wenn auch nicht perfekt.

Alternativ QQPlot

library(car)

qqPlot(Ausdauertest ~ Trainingsarten, data=anovaohne, 
       layout=c(1, 4))

Die Daten sind normalverteilt.

Prüfung der Varianzhomogenität (Levene-Test)

Für die Durchführung eines **t-Tests für unabhängige Gruppen** ist die Annahme der *Varianzhomogenität* erforderlich. Wenn jedoch Varianzheterogenität – also ungleiche Varianzen – vorliegt, müssen unter anderem die Freiheitsgrade des t-Wertes angepasst werden. Ob die Varianzen tatsächlich gleich sind, lässt sich mit dem Levene-Test überprüfen. Der Levene-Test geht von der Nullhypothese aus, dass sich die Varianzen *nicht unterscheiden*. Ein nicht signifikantes Ergebnis spricht daher dafür, dass die Varianzen als gleich angenommen werden können – es liegt also Varianzhomogenität vor. Ist das Testergebnis hingegen ignifikant, deutet dies auf Varianzheterogenität/ hin – die Annahme gleicher Varianzen muss dann verworfen werden.

leveneTest(anovaohne$Ausdauertest ~ anovaohne$Trainingsarten, center="mean")
group coerced to factor.
Levene's Test for Homogeneity of Variance (center = "mean")
       Df F value  Pr(>F)  
group   3  2.9087 0.03762 *
      115                  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Im vorliegenden Beispiel ist der Levene-Test signifikant(F(3,115) = 2.908, p = .037), so dass von Varianzhetrogenität ausgegangen werden kann. Das heisst - es muss eine Welch-Korrektur durchgeführt werden.

Mit Welch-Korrektur: p < 0.05 => Ergebnis Signifikant –> Varianzen heterogen

Ohne Welch-Korrektur: p > 0.05 => Ergebnis nicht Signifikant –> Varianzen homogen –> H0 mit Annahme Var1=Var2=… -> Var_n wird angenommen

Deskriptive Statistiken

Die Tabelle in Abbildung gibt die Mittelwerte, Standardabweichungen und Grössen aller vier Gruppen wieder. Diese Informationen werden für die Berichterstattung verwendet.

# sollte ein Meldung zum Thema "summarise" erscheinen - tauschen Sie s mit z oder anderes rum 
anovaohne %>%
group_by(Trainingsarten) %>%
  summarise(Anzahl = n(), Mittelwert = mean(Ausdauertest), Median = median(Ausdauertest), Standardabweichung = sd(Ausdauertest)) %>%
  mutate_if(is.numeric, round, 2)

Es gibt einen Mittelwertsunterschied zwischen den Gruppen. Trainingsart 2 (M = 48.16, SD = 3.45, n = 30) zeigt die besten Ausdauerergebnisse, gefolgt von Trainingsgruppe 2 (M 38.82, SD = 3.99,n = 29). Wie bereits beim Boxplot zu erkennen war, ist der Abstand der Mittelwert bei Trainingsart 3 (M = 25.10, SD = 3.05, n = 30) und Trainingsart 4( M = 22.03, SD = 2.42, n = 30) ähnlich ausgefallen.

Ergebnisse der einfaktoriellen Varianzanalyse

Modell

Das Modell wird im Post-Hoc als auch beim Eta^2 verwendet.

ANOVA <- aov(data=anovaohne, anovaohne$Ausdauertest~anovaohne$Trainingsarten) #Model gebildet

mit Welch-Korrektur

ANOVAmitWelch <- oneway.test(anovaohne$Ausdauertest ~ anovaohne$Trainingsarten)
ANOVAmitWelch

    One-way analysis of means (not assuming equal variances)

data:  anovaohne$Ausdauertest and anovaohne$Trainingsarten
F = 446.85, num df = 3.00, denom df = 62.68, p-value < 2.2e-16

Das Gesamtergebnis der Analyse ist signifikant (F(3, 62.68) = 446.85, p < .001). Dies zeigt, dass es insgesamt Unterschiede zwischen den vier Gruppen gibt. Allerdings verrät dieser Test noch nicht, zwischen welchen Gruppen die Unterschiede tatsächlich bestehen. Es ist z. B. möglich, dass sich nur ein einzelnes Gruppenpaar signifikant unterscheidet, während die übrigen Gruppen ähnlich abschneiden. Um dies genauer zu untersuchen, wird ein Post-hoc-Test durchgeführt, der paarweise Vergleiche ermöglicht.

ohne Welch-Korrektur

ANOVA <- aov(data=anovaohne, anovaohne$Ausdauertest~anovaohne$Trainingsarten) #Model gebildet
summary(ANOVA)
                          Df Sum Sq Mean Sq F value Pr(>F)    
anovaohne$Trainingsarten   3  13338    4446   414.3 <2e-16 ***
Residuals                115   1234      11                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Post-hoc-Tests

Im Allgemeinen sollen durch Post-hoc Tests folgende drei Fragestellungen addressiert werden:
Frage 01 Welcher Vergleich wird signifikant und welcher nicht?
Frage 02 Welche Gruppen sind unabhängig und welche nicht?
Frage 03 Optional: Sind Gruppenbildungen möglich/ sinnvoll? - Wenn ja, welche?

Der F-Test weist darauf hin, dass die Trainingsart einen Einfluss auf die Ergebnisse im Ausdauertest hat. Er zeigt jedoch nicht, welche konkreten Trainingsmethoden sich voneinander unterscheiden. Um festzustellen, zwischen welchen Gruppen tatsächlich signifikante Unterschiede bestehen, sind weiterführende Post-hoc-Analysen notwendig.

\[\frac{k\cdot(k-1)}{2} =\frac{4\cdot(4-1)}{2} = \frac{12}{2} = 6\] mit \(k\) = Ausprägungen/ Gruppen/ Stufen

Bei Post-hoc-Tests wird im Grunde für jede mögliche Paarung von Gruppen ein t-Test durchgeführt, um ihre Mittelwerte miteinander zu vergleichen. In unserem Fall mit vier Gruppen ergeben sich daraus sechs Paarvergleiche.

Das Problem dabei: Je mehr Tests durchgeführt werden, desto größer wird die Wahrscheinlichkeit, dass fälschlich ein signifikanter Unterschied festgestellt wird – also ein sogenannter Alpha-Fehler (Fehler 1. Art).

Ein einzelner t-Test mit einem Signifikanzniveau von 0.05 bedeutet, dass mit 95 %iger Wahrscheinlichkeit kein Alpha-Fehler auftritt. Werden aber sechs unabhängige Tests durchgeführt, liegt die Wahrscheinlichkeit, dass kein einziger dieser Tests einen Alpha-Fehler macht, nur noch bei 0.956 = 0.735. Daraus ergibt sich eine Wahrscheinlichkeit von 1 − 0.735 = 0.2649 für mindestens einen Alpha-Fehler – also rund 26.5 %.

Diese kumulierte Fehlerwahrscheinlichkeit über mehrere Tests hinweg wird als Familywise Error Rate (FWER) bezeichnet. Um diesen Effekt zu kontrollieren, verwendet man in der Regel Korrekturverfahren wie z. B. die Bonferroni-Korrektur, die eine starke Kontrolle der Familywise Error Rate gewährleistet.

Um dieses Problem zu beheben kann zum Beispiel die TukeyHSD angewendet werden. Python rechnet das neue Niveau ein, daher können wir weiter auf 0.05 testen.

TUKEY<- TukeyHSD(aov(data=anovaohne, anovaohne$Ausdauertest~anovaohne$Trainingsarten))
TUKEY
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = anovaohne$Ausdauertest ~ anovaohne$Trainingsarten, data = anovaohne)

$`anovaohne$Trainingsarten`
                                    diff        lwr        upr     p adj
Trainingsart 2-Trainingsart 1   9.339080   7.115206  11.562955 0.0000000
Trainingsart 3-Trainingsart 1 -13.727586 -15.951461 -11.503712 0.0000000
Trainingsart 4-Trainingsart 1 -16.794253 -19.018128 -14.570378 0.0000000
Trainingsart 3-Trainingsart 2 -23.066667 -25.271614 -20.861719 0.0000000
Trainingsart 4-Trainingsart 2 -26.133333 -28.338281 -23.928386 0.0000000
Trainingsart 4-Trainingsart 3  -3.066667  -5.271614  -0.861719 0.0024018

Hinweis für Frage 01 und 02

plot(TUKEY , las=1 , col="red")

Hinweis für Frage 03

library(multcompView)
generate_label_df <- function(TUKEY, variable){
     Tukey.levels <- TUKEY[[variable]][,4]
     Tukey.labels <- data.frame(multcompLetters(Tukey.levels)['Letters'])
     Tukey.labels$treatment=rownames(Tukey.labels)
     Tukey.labels=Tukey.labels[order(Tukey.labels$treatment) , ]
     return(Tukey.labels)
}
 
LABELS <- generate_label_df(TUKEY , "anovaohne$Trainingsarten")

table(LABELS)
       treatment
Letters Trainingsart 1 Trainingsart 2 Trainingsart 3 Trainingsart 4
      a              0              1              0              0
      b              0              0              1              0
      c              0              0              0              1
      d              1              0              0              0

Es wird ersichtlich, dass sich die Trainingsmethoden 1 und 2 sowie 3 und 4 bezüglich der Ausdauertest signifikant unterscheiden. (p < .05).

Es können also vier unabhängige/ generalisierbare Gruppen von Trainingsmethoden gebildet werden.

Hinweis: Sie sollten folgende Fragen beantworten:

  1. Welcher Vergleich wird signifikant und welcher nicht?
    Es wird ersichtlich, dass sich die Trainingsmethoden 1 und 2 sowie 3 und 4 bezüglich der Ausdauertest signifikant unterscheiden (p < .05).

  2. Welche Gruppen sind unabhängig und welche nicht?
    Es gibt also vier unabhängige Gruppen von Trainingsmethoden.

  3. Optional: Sind Gruppenbildungen möglich/ sinnvoll? - Wenn ja, welche?
    Es werden vier Gruppen gebildet - kein Veränderung.

Der TukeyHSD ist für homogene Varianzen sehr gut geeignet, aber nicht für hetrogene Varianzen.

library(rstatix)
anovaohne %>% 
  games_howell_test(Ausdauertest ~ Trainingsarten)

Der Games-Howell ist ein Post-Hoc-Test, der optimiert für hetrogene Daten ist. Daher der Levene-Test eine Verletzung der Homogenotät nahliegt, sollte in Verfahren verwendet werden, welche dieses Verletzung bei dem multiple Tests berücksichtigt.

Wie der Tabelle zu entnehmen ist, gibt es keinen Unterschied- daher bestätigt der Games-Howell-Test das Ergebnis des TukeyHSDs.

Profildiagramm

Spannend ist auch sich die Mittelwerte hilfe dieses Plots anzeigen zu lassen.

ggplot(anovaohne, aes(x=Trainingsarten, y=Ausdauertest, group=1))+
  stat_summary(fun = mean, geom="point", size=3)+
  stat_summary(fun = mean, geom="line")+
  stat_summary(fun.data = mean_cl_normal, geom="errorbar",width=.2, size=.25)+
  labs(x="Trainingsart", y="Ausdauer")+
  theme_classic()

Wie der Plot in Abbildung erkennen lassen, bestehen bezüglich der vier Trainingsmethoden unterschiede im Mittelwert.

Das partielle Eta-Quadrat

Das partielle Eta-Quadrat (partielles η²) ist ein Maß für die Effektstärke, das die durch einen Faktor erklärte Variation ins Verhältnis zurjenigen setzt, die nicht durch die übrigen Faktoren im Modell erklärt wird.
Anders gesagt, es betrachtet ausschließlich den Anteil der Gesamtvariation, der nach Herausrechnung der Effekte aller anderen Faktoren übrig bleibt, und zeigt, welchen Anteil davon der betrachtete Faktor erklärt.
Bei einer einfaktoriellen Varianzanalyse entspricht das partielle η² genau dem Anteil der korrigierten Gesamtvariation, den das Modell (bzw. der Faktor) erklärt.

\[\eta^2 =\frac{QS_{Zwischen}}{QS_{total}}\] \[\eta^2_{par.} =\frac{QS_{Zwischen}}{QS_{zwischen}+QS_{innerhalb}}\]

library(effectsize)

ANOVA <- aov(data=anovaohne, anovaohne$Ausdauertest~anovaohne$Trainingsarten)
eta <- effectsize::eta_squared(ANOVA, partial = TRUE)
For one-way between subjects designs, partial eta squared is equivalent to eta squared.
Returning eta squared.
eta
Parameter                | Eta2 |       90% CI
----------------------------------------------
anovaohne$Trainingsarten | 0.92 | [0.89, 0.93]

Hinweis: Im vorliegenden Beispiel beträgt das partielle Eta-Quadrat .92. Das heisst, es wird 92% der Variation in Ausdauertest durch Trainingsarten aufgeklärt. Das partielle Eta² wird gerundet.“90% CI” beschreibt das Konfidenzintervall für 90 %. Dieses liegt hier zwischen 89% und 93%.

Effektstärke

Um die Bedeutsamkeit eines Ergebnisses zu beurteilen, werden Effektstärken berechnet.

Da R das partielle Eta-Quadrat ausgibt, wird dieses hier in die Effektstärke nach Cohen (1988) umgerechnet. In diesem Fall befindet sich die Effektstärke immer zwischen 0 und unendlich.

\[f=\sqrt\frac{eta^{2}}{1-eta^{2}}\]


eff<- sqrt(eta$Eta2/(1-eta$Eta2))
sprintf ("Die Effektstärke liegt bei:%.2f",eff)

Um zu beurteilen, wie gross dieser Effekt ist, kann man sich an der Einteilung von Cohen (1988) orientieren:

\[ \begin{align} \text{Schwacher Effekt: } 0.10 &< ||f|| < 0.25 \\ \text{Schwacher bis mittlerer Effekt: } 0.25 &= ||f|| \\ \text{Mittlerer Effekt: } 0.25 &< ||f|| < 0.40 \\ \text{Mittlerer bis starker Effekt: }0.40 &= ||f|| \\ \text{Starker Effekt: } 0.40 &< ||f|| \end{align} \]

Hinweis: Diese Beispiel ist sehr sauber und etwas “zu” eindeutig. Damit entspricht eine Effektstärke von 3.29 einem starken Effekt.

Eine Aussage

Die Auswahl der Trainingsmethode hat einen signifikanten Einfluss auf die Ausdauer (F(3,62.68) = 446.85 , p = .000). 92% der Streuung der Ausdauer-Werte um den Gesamtmittelwert kann durch die Trainingsmethoden erklärt werden. Die Effektstärke nach Cohen (1988) liegt bei f = 3.28 und entspricht einem starken Effekt. H0 wird abgelehnt, H1 angenommen.

Post-hoc-Tests mit Tukey zeigen, dass sich vier Gruppen von Trainingsarten bilden lassen (alle p < .05):

Trainingsart 1 (M = 38.82, SD = 3.99, n = 29), Trainingsart 2 (M = 48.16, SD = 3.45, n = 30) Trainingsart 3 (M = 25.10, SD = 3.05, n = 30) und Trainingsart 4 (M = 22.03, SD = 2.42, n = 30) bilden jede für sich eine eigene Gruppe.

Damit kann festgehalten, werden, dass alle vier Gruppen unabhängige Gruppen bilden und sich signifikant unterscheiden. Trainingsart 2 ist am effektivsten und die Trainingsart 4 am schlechtesten für die Ausdauer der Senioren.

