Hypothese
H1: Es gibt einen Zusammmenhang zwischen der Studierbereitschaft vor dem Auslandsjahr und der Studierbereitschaft nach dem Auslandsjahr.
H0: Es gibt keinen Zusammmenhang zwischen der Studierbereitschaft vor dem Auslandsjahr und der Studierbereitschaft nach dem Auslandsjahr.
Alternativ
H0: Beide Variablen sind in der Grundgesamtheit unabhängig voneinander.
H1: Beide Variablen sind in der Grundgesamtheit abhängig voneinander
Vorausetzungen
Die Variablen sind kategorial (nominal- oder ordinalskaliert)
Datensatzgröße
Die Stichprobe ist > 50.
Ist dies nicht der Fall, so wird bei einer Stichprobe kleiner als 20 der exakte Test nach Fisher verwendet
bei einer Stichprobengröße zwischen 20 und 50 die Korrektur nach Yates.
Die erwarteten Zellhäufigkeiten sind > 5. Ist dies nicht der Fall, so wird der exakte Test nach Fisher verwendet.
Die Freiheitsgrade des Chi-Quadrat-Tests sind größer als 1. Ist dies nicht der Fall, so wird die Korrektur nach Yates verwendet.
Balkendiagramm
counts<- table(Vorher= chi$vorher, Nachher = chi$nachher)
barplot(counts, main="Balkendiagramm zur Studierbereitschaft",
col=c("deepskyblue","tomato"),
ylab="Anzahl Personen",xlab = "Studierbereitschaft",
beside=F,
sub = "Nachher",
#names.arg =c("VorH-NachH","VorN-NachH","VorH-NachN", "VorN-NachN"),
legend = rownames(counts),
args.legend = list(x = "topright", title="vorher"))

Sankey Diagram
Dieses Sankey Diagramme bietet sich an bei “vorher” - “nachher” - Darstellungen.
#install.packages("networkD3")
library(networkD3)
library(dplyr)
links <- data.frame(
source=c("hoch_v","hoch_v", "niedrig_v", "niedrig_v"),
target=c("hoch_n","niedrig_n","hoch_n","niedrig_n"),
value=c(6,9, 25, 5)
)
# From these flows we need to create a node data frame: it lists every entities involved in the flow
nodes <- data.frame(
name=c(as.character(links$source),
as.character(links$target)) %>% unique()
)
# With networkD3, connection must be provided using id, not using real name like in the links dataframe.. So we need to reformat it.
links$IDsource <- match(links$source, nodes$name)-1
links$IDtarget <- match(links$target, nodes$name)-1
# Make the Network
p <- sankeyNetwork(Links = links, Nodes = nodes,
Source = "IDsource",
Target = "IDtarget",
Value = "value",
NodeID = "name",
iterations = 0,
nodeWidth=40, fontSize=13,
sinksRight=TRUE)
p
Kreuztabelle und beobachteten Werte
counts<- table( Vorher=chi$vorher, Nachher = chi$nachher)
head(counts)
Nachher
Vorher hoch niedrig
hoch 6 9
niedrig 25 5
Die Tabelle wurde angelegt.
Erwarteten Werte
ch <- chisq.test(counts, correct = F)
round(ch$expected,2)
Nachher
Vorher hoch niedrig
hoch 10.33 4.67
niedrig 20.67 9.33
Die beobachteten und die erwarteten Werte wurden verglichen. Es zeigen sich für das Beispiel einen Unterschiede. Ob es jedoch signifikant sind, wird mittels Chi-Quadrat-Test geprüft.
Ergebnis zum \(\chi^2\) und Prüfung der Signifikanz
Berechnung der Freiheitsgrade
\[df= (k_1 -1)\cdot (k_2 -1)\] mit
\(k_1\) = die Faktorstufen der ersten Variable
\(k_2\) = die Faktorstufen der zweiten Variable
\[df= (2 -1)\cdot (2 -1) = 1\]
Fall 1 |
- |
- |
Fall 2 |
- |
+ |
Fall 3 |
+ |
- |
Fall 4 |
+ |
+ |
Fall 1
\[\chi^2 = \sum^I_{i=1}\sum^J_{j=1}\frac{(f_{ij}-f^{'}_{ij})^2}{f^{'}_{ij}} =\frac{(6-10.33)^2}{10.33}+ \frac{(25-20.67)^2}{20.67}+\frac{(9-4.67)^2}{4.67}+\frac{(5-9.33)^2}{9.33}=8.7\]
round(((6-10.33)^2/10.33)+((25-20.67)^2/20.67)+((9-4.67)^2/4.67)+((5-9.33)^2/9.33), 1)
[1] 8.7
keine Anpassung erforderlich
ch <- chisq.test(counts, correct = F) # correct = F ohne Anpassungen - die "normale" Formel
ch
Pearson's Chi-squared test
data: counts
X-squared = 8.7615, df = 1, p-value = 0.003077
Bericht:(Chi-Quadrat(1) = 8.7615, p = .003077)
Fall 2
Anpassung: Korrektur nach Yates
\[\chi^2 = \sum^I_{i=1}\sum^J_{j=1}\frac{(\Bigl| f_{ij}-f^{'}_{ij}\Bigl| -0.5)^2}{f^{'}_{ij}} = \\
\frac{(\Bigl| (6-10.33)\Bigl| -0.5)^2}{10.33} +\frac{(\Bigl| (25-20.67)\Bigl| -0.5)^2}{20.67} + \\
\frac{(\Bigl| ((9-4.67)\Bigl| -0.5)^2}{4.67} +\frac{(\Bigl| (5-9.33)\Bigl| -0.5)^2}{9.33} = 6.8\]
round(
(((abs(6-10.33))-0.5)^2/10.33)+
(((abs(25-20.67))-0.5)^2/20.67)+
(((abs(9-4.67))-0.5)^2/4.67)+
(((abs(5-9.33))-0.5)^2/9.33)
,2)
[1] 6.84
ch <- chisq.test(counts, correct = TRUE) # Die Anpassung nach Yates - correct = TRUE - Die Formel wird um -0.5 erweitert
ch
Pearson's Chi-squared test with Yates' continuity correction
data: counts
X-squared = 6.8563, df = 1, p-value = 0.008833
Bericht:(Chi-Quadrat(1) = 6.8563, p = .008833)
Fall 3
Anpassung: Fisher’s Exact Test
ch <- chisq.test(counts, correct = F)
ch
Pearson's Chi-squared test
data: counts
X-squared = 8.7615, df = 1, p-value = 0.003077
fisher.test(counts)
Fisher's Exact Test for Count Data
data: counts
p-value = 0.005673
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.02562454 0.66353638
sample estimates:
odds ratio
0.1409759
Bericht:(Chi-Quadrat(1) = 8.7615, p = .005673)
In dieser Übung ist es notwending nach Fisher und nach Yates zu korregieren. Daher wird folgender Code verwendet.
Fall 4
Anpassung: Fisher’s Exact Test & Anpassung nach Yates
3) bei einer Stichprobengröße zwischen 20 und 50 die Korrektur nach Yates.
*Die erwarteten Zellhäufigkeiten sind > 5. Ist dies nicht der Fall, so wird der exakte Test nach Fisher verwendet.**
Die Freiheitsgrade des Chi-Quadrat-Tests sind größer als 1. Ist dies nicht der Fall, so wird die Korrektur nach Yates verwendet.
ch <- chisq.test(counts, correct = TRUE)
ch
Pearson's Chi-squared test with Yates' continuity correction
data: counts
X-squared = 6.8563, df = 1, p-value = 0.008833
a <- fisher.test(counts)
a
Fisher's Exact Test for Count Data
data: counts
p-value = 0.005673
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.02562454 0.66353638
sample estimates:
odds ratio
0.1409759
Hinweise: Da in dieser Übungsaufgabe der exakte Test nach Fisher verwendet werden muss, wird nicht folgender p-value = 0.008833 zitiert, sondern Fisher mit einem p-value von 0.005673.
Der Test bestätigt, dass ein Zusammenhang zwischen Studierbereitschaft vor dem Auslandsjahr und die Studierbereitschaft nach dem Auslandsjahr besteht (Chi-Quadrat(1) = 6.8563, p = .005673).
Alternative Darstellung mit gmodels
library(gmodels)
Kreuztabelle2a <- CrossTable(x =chi$vorher, y = chi$nachher, digits = 1, format = "SPSS", chisq = TRUE)
Warning in chisq.test(t, correct = TRUE, ...) :
Chi-squared approximation may be incorrect
Warning in chisq.test(t, correct = FALSE, ...) :
Chi-squared approximation may be incorrect
Cell Contents
|-------------------------|
| Count |
| Chi-square contribution |
| Row Percent |
| Column Percent |
| Total Percent |
|-------------------------|
Total Observations in Table: 45
| chi$nachher
chi$vorher | hoch | niedrig | Row Total |
-------------|-----------|-----------|-----------|
hoch | 6 | 9 | 15 |
| 1.8 | 4.0 | |
| 40.0% | 60.0% | 33.3% |
| 19.4% | 64.3% | |
| 13.3% | 20.0% | |
-------------|-----------|-----------|-----------|
niedrig | 25 | 5 | 30 |
| 0.9 | 2.0 | |
| 83.3% | 16.7% | 66.7% |
| 80.6% | 35.7% | |
| 55.6% | 11.1% | |
-------------|-----------|-----------|-----------|
Column Total | 31 | 14 | 45 |
| 68.9% | 31.1% | |
-------------|-----------|-----------|-----------|
Statistics for All Table Factors
Pearson's Chi-squared test
------------------------------------------------------------
Chi^2 = 8.761521 d.f. = 1 p = 0.003076524
Pearson's Chi-squared test with Yates' continuity correction
------------------------------------------------------------
Chi^2 = 6.856279 d.f. = 1 p = 0.008833031
Minimum expected frequency: 4.666667
Cells with Expected Frequency < 5: 1 of 4 (25%)
Cramers V
\[
Cramers\phantom{.}V = \sqrt{\frac{\chi^2}{n\cdot min[k_1-1,k_2-1]}}
\]
** Die Zahl \(2\) steht für \(2\times2\) Design.**
\[\mbox{Cramers V} = \sqrt {\frac{\chi^2}{n \cdot (2-1)}}\]
\[\mbox{Cramers V} = \sqrt {\frac{6.86}{45 \cdot (2-1)}} = 0.39\]
anzahl <- nrow(chi)
sprintf("Der Datensatz hat %d Zeilen.",anzahl)
[1] "Der Datensatz hat 45 Zeilen."
sprintf("Das Chi-Quadrat liegt bei %.2f.",ch$statistic)
[1] "Das Chi-Quadrat liegt bei 6.86."
cramersV <- sqrt(( ch$statistic)/(anzahl*(2-1)))
sprintf("Die Effektstärke liegt bei %.2f.",cramersV)
[1] "Die Effektstärke liegt bei 0.39."
Cramer s V ist immer positiv -> keine Aussage über die Richtung des Zusammenhangs
\[
\begin{align}
\text{Schwacher Effekt: } 0.1 &< ||Cramers V|| \leq 0.3 \\
\text{Schwacher bis mittlerer Effekt: }0.3 &< ||Cramers V|| \leq 0.4 \\
\text{Mittlerer Effekt: } 0.4 &< ||Cramers V|| < 0.5 \\
\text{Mittlerer bis starker Effekt: }0.5 &= ||Cramers V|| \\
\text{Starker Effekt: } 0.5 &< ||Cramers V||
\end{align}\]
Es zeigt sich für unsere Auswertung, dass ein mittlerer Zusammenhang besteht.
Aussage
Die Studierbereitschaft vor dem Auslandsjahr und die Studierbereitschaft nach dem Auslandsjahr stehen in einem Zusammenhang (Chi-Quadrat(1) = 6.8563, p = .005673, n = 45). Der Zusammenhang ist mittelstark (Cramers V = .4). Damit kann die H0 verworfen werden.
Alternative
Es kann davon ausgegangen werden, dass sich die erwarteten und die beobachteten Häufigkeiten signifikant unterscheiden (Chi-Quadrat(1) = 6.8563, p = .005673, n = 45).Der Zusammenhang ist mittelstark (Cramers V = .4). Damit kann die H0 verworfen werden.
