Hypothese

H1: Es gibt einen Zusammmenhang zwischen der Studierbereitschaft vor dem Auslandsjahr und der Studierbereitschaft nach dem Auslandsjahr.

H0: Es gibt keinen Zusammmenhang zwischen der Studierbereitschaft vor dem Auslandsjahr und der Studierbereitschaft nach dem Auslandsjahr.

Alternativ

H0: Beide Variablen sind in der Grundgesamtheit unabhängig voneinander.

H1: Beide Variablen sind in der Grundgesamtheit abhängig voneinander

Vorausetzungen

Die Variablen sind kategorial (nominal- oder ordinalskaliert)

Datensatzgröße

  1. Die Stichprobe ist > 50.

  2. Ist dies nicht der Fall, so wird bei einer Stichprobe kleiner als 20 der exakte Test nach Fisher verwendet

  3. bei einer Stichprobengröße zwischen 20 und 50 die Korrektur nach Yates.

Die erwarteten Zellhäufigkeiten sind > 5. Ist dies nicht der Fall, so wird der exakte Test nach Fisher verwendet.

Die Freiheitsgrade des Chi-Quadrat-Tests sind größer als 1. Ist dies nicht der Fall, so wird die Korrektur nach Yates verwendet.

Datensatz

head(chi, 5)

Balkendiagramm

counts<- table(Vorher= chi$vorher, Nachher = chi$nachher)

barplot(counts, main="Balkendiagramm zur Studierbereitschaft",
col=c("deepskyblue","tomato"),
ylab="Anzahl Personen",xlab = "Studierbereitschaft",
beside=F,

sub = "Nachher",
#names.arg =c("VorH-NachH","VorN-NachH","VorH-NachN", "VorN-NachN"),
legend = rownames(counts),
args.legend = list(x = "topright", title="vorher"))

Sankey Diagram

Dieses Sankey Diagramme bietet sich an bei “vorher” - “nachher” - Darstellungen.

#install.packages("networkD3")
library(networkD3)
library(dplyr)


links <- data.frame(
source=c("hoch_v","hoch_v", "niedrig_v", "niedrig_v"), 
target=c("hoch_n","niedrig_n","hoch_n","niedrig_n"), 
value=c(6,9, 25, 5)
)


# From these flows we need to create a node data frame: it lists every entities involved in the flow
nodes <- data.frame(
name=c(as.character(links$source), 
as.character(links$target)) %>% unique()
)

# With networkD3, connection must be provided using id, not using real name like in the links dataframe.. So we need to reformat it.
links$IDsource <- match(links$source, nodes$name)-1 
links$IDtarget <- match(links$target, nodes$name)-1

# Make the Network
p <- sankeyNetwork(Links = links, Nodes = nodes,
Source = "IDsource", 
Target = "IDtarget",
Value = "value", 
NodeID = "name", 
iterations = 0,
nodeWidth=40, fontSize=13, 
sinksRight=TRUE)
p

Kreuztabelle und beobachteten Werte

counts<- table( Vorher=chi$vorher, Nachher = chi$nachher)
head(counts)
         Nachher
Vorher    hoch niedrig
  hoch       6       9
  niedrig   25       5

Die Tabelle wurde angelegt.

Erwarteten Werte

ch <- chisq.test(counts, correct = F)
round(ch$expected,2)
         Nachher
Vorher     hoch niedrig
  hoch    10.33    4.67
  niedrig 20.67    9.33

Die beobachteten und die erwarteten Werte wurden verglichen. Es zeigen sich für das Beispiel einen Unterschiede. Ob es jedoch signifikant sind, wird mittels Chi-Quadrat-Test geprüft.

Ergebnis zum \(\chi^2\) und Prüfung der Signifikanz

Berechnung der Freiheitsgrade

\[df= (k_1 -1)\cdot (k_2 -1)\] mit

\(k_1\) = die Faktorstufen der ersten Variable
\(k_2\) = die Faktorstufen der zweiten Variable

\[df= (2 -1)\cdot (2 -1) = 1\]

Fall Fisher Yates
Fall 1 - -
Fall 2 - +
Fall 3 + -
Fall 4 + +

Fall 1

\[\chi^2 = \sum^I_{i=1}\sum^J_{j=1}\frac{(f_{ij}-f^{'}_{ij})^2}{f^{'}_{ij}} =\frac{(6-10.33)^2}{10.33}+ \frac{(25-20.67)^2}{20.67}+\frac{(9-4.67)^2}{4.67}+\frac{(5-9.33)^2}{9.33}=8.7\]

round(((6-10.33)^2/10.33)+((25-20.67)^2/20.67)+((9-4.67)^2/4.67)+((5-9.33)^2/9.33), 1)
[1] 8.7

keine Anpassung erforderlich


ch <- chisq.test(counts, correct = F) # correct = F ohne Anpassungen -  die "normale" Formel
ch 

    Pearson's Chi-squared test

data:  counts
X-squared = 8.7615, df = 1, p-value = 0.003077

Bericht:(Chi-Quadrat(1) = 8.7615, p = .003077)

Fall 2

Anpassung: Korrektur nach Yates

\[\chi^2 = \sum^I_{i=1}\sum^J_{j=1}\frac{(\Bigl| f_{ij}-f^{'}_{ij}\Bigl| -0.5)^2}{f^{'}_{ij}} = \\ \frac{(\Bigl| (6-10.33)\Bigl| -0.5)^2}{10.33} +\frac{(\Bigl| (25-20.67)\Bigl| -0.5)^2}{20.67} + \\ \frac{(\Bigl| ((9-4.67)\Bigl| -0.5)^2}{4.67} +\frac{(\Bigl| (5-9.33)\Bigl| -0.5)^2}{9.33} = 6.8\]

round(
    (((abs(6-10.33))-0.5)^2/10.33)+
    (((abs(25-20.67))-0.5)^2/20.67)+
    (((abs(9-4.67))-0.5)^2/4.67)+
    (((abs(5-9.33))-0.5)^2/9.33)
,2)
[1] 6.84
ch <- chisq.test(counts, correct = TRUE) # Die Anpassung nach Yates - correct = TRUE - Die Formel wird um -0.5 erweitert
ch 

    Pearson's Chi-squared test with Yates' continuity correction

data:  counts
X-squared = 6.8563, df = 1, p-value = 0.008833

Bericht:(Chi-Quadrat(1) = 6.8563, p = .008833)

Fall 3

Anpassung: Fisher’s Exact Test

ch <- chisq.test(counts, correct = F)
ch 

    Pearson's Chi-squared test

data:  counts
X-squared = 8.7615, df = 1, p-value = 0.003077
fisher.test(counts)

    Fisher's Exact Test for Count Data

data:  counts
p-value = 0.005673
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.02562454 0.66353638
sample estimates:
odds ratio 
 0.1409759 

Bericht:(Chi-Quadrat(1) = 8.7615, p = .005673)

In dieser Übung ist es notwending nach Fisher und nach Yates zu korregieren. Daher wird folgender Code verwendet.

Fall 4

Anpassung: Fisher’s Exact Test & Anpassung nach Yates

3) bei einer Stichprobengröße zwischen 20 und 50 die Korrektur nach Yates.

*Die erwarteten Zellhäufigkeiten sind > 5. Ist dies nicht der Fall, so wird der exakte Test nach Fisher verwendet.**

Die Freiheitsgrade des Chi-Quadrat-Tests sind größer als 1. Ist dies nicht der Fall, so wird die Korrektur nach Yates verwendet.


ch <- chisq.test(counts, correct = TRUE)
ch

    Pearson's Chi-squared test with Yates' continuity correction

data:  counts
X-squared = 6.8563, df = 1, p-value = 0.008833
a <- fisher.test(counts)

a

    Fisher's Exact Test for Count Data

data:  counts
p-value = 0.005673
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.02562454 0.66353638
sample estimates:
odds ratio 
 0.1409759 

Hinweise: Da in dieser Übungsaufgabe der exakte Test nach Fisher verwendet werden muss, wird nicht folgender p-value = 0.008833 zitiert, sondern Fisher mit einem p-value von 0.005673.

Der Test bestätigt, dass ein Zusammenhang zwischen Studierbereitschaft vor dem Auslandsjahr und die Studierbereitschaft nach dem Auslandsjahr besteht (Chi-Quadrat(1) = 6.8563, p = .005673).

Alternative Darstellung mit gmodels

library(gmodels) 

Kreuztabelle2a <- CrossTable(x =chi$vorher, y = chi$nachher, digits = 1, format = "SPSS", chisq = TRUE) 
Warning in chisq.test(t, correct = TRUE, ...) :
  Chi-squared approximation may be incorrect
Warning in chisq.test(t, correct = FALSE, ...) :
  Chi-squared approximation may be incorrect

   Cell Contents
|-------------------------|
|                   Count |
| Chi-square contribution |
|             Row Percent |
|          Column Percent |
|           Total Percent |
|-------------------------|

Total Observations in Table:  45 

             | chi$nachher 
  chi$vorher |     hoch  |  niedrig  | Row Total | 
-------------|-----------|-----------|-----------|
        hoch |        6  |        9  |       15  | 
             |      1.8  |      4.0  |           | 
             |     40.0% |     60.0% |     33.3% | 
             |     19.4% |     64.3% |           | 
             |     13.3% |     20.0% |           | 
-------------|-----------|-----------|-----------|
     niedrig |       25  |        5  |       30  | 
             |      0.9  |      2.0  |           | 
             |     83.3% |     16.7% |     66.7% | 
             |     80.6% |     35.7% |           | 
             |     55.6% |     11.1% |           | 
-------------|-----------|-----------|-----------|
Column Total |       31  |       14  |       45  | 
             |     68.9% |     31.1% |           | 
-------------|-----------|-----------|-----------|

 
Statistics for All Table Factors


Pearson's Chi-squared test 
------------------------------------------------------------
Chi^2 =  8.761521     d.f. =  1     p =  0.003076524 

Pearson's Chi-squared test with Yates' continuity correction 
------------------------------------------------------------
Chi^2 =  6.856279     d.f. =  1     p =  0.008833031 

 
       Minimum expected frequency: 4.666667 
Cells with Expected Frequency < 5: 1 of 4 (25%)

Cramers V

\[ Cramers\phantom{.}V = \sqrt{\frac{\chi^2}{n\cdot min[k_1-1,k_2-1]}} \]

** Die Zahl \(2\) steht für \(2\times2\) Design.**

\[\mbox{Cramers V} = \sqrt {\frac{\chi^2}{n \cdot (2-1)}}\]

\[\mbox{Cramers V} = \sqrt {\frac{6.86}{45 \cdot (2-1)}} = 0.39\]

anzahl <- nrow(chi)

sprintf("Der Datensatz hat %d Zeilen.",anzahl)
[1] "Der Datensatz hat 45 Zeilen."
sprintf("Das Chi-Quadrat liegt bei %.2f.",ch$statistic)
[1] "Das Chi-Quadrat liegt bei 6.86."
cramersV <- sqrt(( ch$statistic)/(anzahl*(2-1)))
sprintf("Die Effektstärke liegt bei %.2f.",cramersV)
[1] "Die Effektstärke liegt bei 0.39."

Cramer s V ist immer positiv -> keine Aussage über die Richtung des Zusammenhangs

\[ \begin{align} \text{Schwacher Effekt: } 0.1 &< ||Cramers V|| \leq 0.3 \\ \text{Schwacher bis mittlerer Effekt: }0.3 &< ||Cramers V|| \leq 0.4 \\ \text{Mittlerer Effekt: } 0.4 &< ||Cramers V|| < 0.5 \\ \text{Mittlerer bis starker Effekt: }0.5 &= ||Cramers V|| \\ \text{Starker Effekt: } 0.5 &< ||Cramers V|| \end{align}\]

Es zeigt sich für unsere Auswertung, dass ein mittlerer Zusammenhang besteht.

Aussage

Die Studierbereitschaft vor dem Auslandsjahr und die Studierbereitschaft nach dem Auslandsjahr stehen in einem Zusammenhang (Chi-Quadrat(1) = 6.8563, p = .005673, n = 45). Der Zusammenhang ist mittelstark (Cramers V = .4). Damit kann die H0 verworfen werden.

Alternative

Es kann davon ausgegangen werden, dass sich die erwarteten und die beobachteten Häufigkeiten signifikant unterscheiden (Chi-Quadrat(1) = 6.8563, p = .005673, n = 45).Der Zusammenhang ist mittelstark (Cramers V = .4). Damit kann die H0 verworfen werden.

