Hypothese
H1: Es gibt einen Zusammenhang zwischen der Nettowarmmiete(Netto_Warmmiete) und der Nettokosten in Prozentpunkten (Nebenkosten_Prozent_von_KaltMiete).
H0: Es gibt keinen Zusammenhang zwischen der Nettowarmmiete(Netto_Warmmiete) und der Nettokosten in Prozentpunkten (Nebenkosten_Prozent_von_KaltMiete).
Prüfen der Voraussetzungen der einfachen Regressionsanalyse
Die abhängige und die unabhängige Variable sind intervallskaliert.UV
Nettowarmmiete ist metrisch und die AV Nebenkosten_Prozent_von_KaltMiete
ist ebenfalls metrisch.
Linearität des Zusammenhangs: Es wird ein linearer Zusammenhang
zwischen der abhängigen und der unabhängigen Variablen modelliert.
<-siehe Scatterplot und Pearson
Unabhängigkeit des Fehlerwerts: Die Fehlerwerte hängen nicht voneinander ab. <- siehe Homoskedastizität
Normalverteilung des Fehlerwerts: Die Fehlerwerte sind näherungsweise normalverteilt. <- siehe Histogramm
Boxplots
boxplot(regression$Netto_Warmmiete, main="Boxplot zur Warmmiete", xlab="Warmiete in Euro", ylab="Preis pro m²")

Es liegen keine Ausreißer in der Einzelbetrachtung vor.
neben <- boxplot(regression$Nebenkosten_Prozent_von_KaltMiete, main="Boxplot zur Kosten in Prozent", xlab="Kaltmiete und Nebenkosten ins Verhältnis", ylab="Preis pro m²")

$stats
[,1]
[1,] 0.08333333
[2,] 0.25591667
[3,] 0.40445238
[4,] 0.59366667
[5,] 1.09250000
$n
[1] 100
$conf
[,1]
[1,] 0.3510879
[2,] 0.4578169
$out
[1] 1.888000 1.872000 1.788000 1.988000 1.362857 1.376667 1.116667
$group
[1] 1 1 1 1 1 1 1
$names
[1] ""
Es gibt einige Ausreißer. Grundsätzlich ist das für diese Auswertung eher kein Problem, da der Datensatz relativ groß ist.
Ausreißer finden und löschen
ausreisser <- neben$out
ausreisser
[1] 1.888000 1.872000 1.788000 1.988000 1.362857 1.376667 1.116667
drops <- c(21)
loeschen <- regression[-drops,]
View(regression)
Deskriptive Statistik
Für die deskriptive Statistik empfiehlt es sich das Package “psych” zu verwenden.
| | | | | | | | | | |
---|
ID | 1 | 100 | 50.50 | 29.01 | 50.50 | 50.50 | 37.06 | 1.00 | 100.00 | |
Netto_Kaltmiete | 2 | 100 | 14.97 | 5.70 | 15.00 | 14.97 | 7.41 | 5.00 | 25.00 | |
Netto_Warmmiete | 3 | 100 | 21.05 | 6.06 | 20.40 | 21.05 | 7.38 | 8.92 | 33.92 | |
Nebenkosten | 4 | 100 | 6.08 | 2.47 | 6.31 | 6.11 | 3.16 | 2.00 | 10.00 | |
Nebenkosten_Prozent_von_KaltMiete | 5 | 100 | 0.50 | 0.39 | 0.40 | 0.43 | 0.26 | 0.08 | 1.99 | |
Die Warmmiete liegt bei 21.05 Euro pro m²(SD=6.06, n= 100). Der
Anzahl der Kosten ins Verhätnis legt bei 50 Prozentpunkten (SD= .39, n=
100). Es zeigt sich, dass der Anzahl der Prozentpunkt nach oben
verschoben ist (Median=.40).
Scatterplot und Pearson
Nicht in jedem Fall besteht eine lineare Beziehung zwischen y und x.
Dennoch kann die Regressionsanalyse auch für nicht-lineare Zusammenhänge genutzt werden,
indem man die beteiligten Variablen zunächst so transformiert,
dass das Ergebnis linear wird. Typischerweise werden dafür geeignete
mathematische Transformationen (z.B. logarithmisch, polynomisch) auf
y und/oder x angewendet.
Anschließend wird nicht die ursprüngliche Beziehung zwischen y und x
modelliert, sondern zwischen den entsprechend veränderten Werten. Durch diesen Ansatz
lässt sich ein scheinbar nicht-linearer Zusammenhang mithilfe der linearen Regression
untersuchen, da die Methode nun auf die transformierten Variablen angewendet wird.
plot( regression$Nebenkosten_Prozent_von_KaltMiete ~ regression$Netto_Warmmiete, main= "Streudiagramm Warmmiete und Kosten ins Verhältnis", xlab = "Warmmiete" , ylab="Kaltmiete und die Nebenkosten ins Verhältnis (in %)")
abline(lm(Nebenkosten_Prozent_von_KaltMiete ~ Netto_Warmmiete, data = regression), col="tomato")

Das Streudiagramm lässt für das Beispiel einen negativen Zusammenhang
vermuten. Damit scheint die Voraussetzung, dass der Zusammenhang an
sich linear ist, erfüllt.
test <- cor.test(regression$Netto_Warmmiete, regression$Nebenkosten_Prozent_von_KaltMiete)
test
Pearson's product-moment correlation
data: regression$Netto_Warmmiete and regression$Nebenkosten_Prozent_von_KaltMiete
t = -4.0234, df = 98, p-value = 0.000113
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.5334832 -0.1944839
sample estimates:
cor
-0.3765189
Der R-Output in Abbildung gibt den Korrelationskoeffizienten sowie
den p-Wert (Signifikanz) und die Stichprobengrösse n wieder. Es wird
ersichtlich, dass ein Zusammenhang vorliegt zwischen Warmniete und
Nebenkosten in Prozent(r = -0.3763, p= .000113, n = 100). Da r einen
negativen Wert aufweist, kann von einem negativen, linearen und
signifikanten Zusammenhang zwischen Warmmiete und Kosten in Prozent
ausgegangen werden.
Da der Korrelation mittelstark und signifikant ist, ist es sinnvoll eine Regression durchzuführen zur Prüfung der Kausalität.
Homoskedastizität
Unter Homoskedastizität versteht man die Annahme, dass der Fehlerterm
für alle Werte der unabhängigen Variable dieselbe Varianz aufweist. Anders ausgedrückt:
Die Streuung der Residuen ändert sich nicht, egal welchen Wert x annimmt.
Diese Voraussetzung überprüft man häufig im selben Streudiagramm, in dem bereits der
bedingte Erwartungswert der Fehler kontrolliert wurde.
Weil die gemessenen Datenpunkte in der Realität meist nicht exakt auf der
Regressionsgeraden liegen, beinhaltet jedes Regressionsmodell
einen Fehlerterm (ε). Er spiegelt jene Einflüsse wider, die nicht durch die
unabhängige Variable erklärt werden können. Mit anderen Worten:
ε entspricht der Differenz zwischen dem vom Modell vorhergesagten Wert für eine
bestimmte Beobachtung (Proband i) und dem tatsächlich gemessenen Wert
dieses Probanden.
regression1 <- lm(regression$Nebenkosten_Prozent_von_KaltMiete ~ regression$Netto_Warmmiete )
zpred <- scale(fitted(regression1), center = T, scale = T)
sres <-rstandard(regression1)
plot (x=zpred, y=sres, main = "Streudiagramm der Residuen",
xlab ="Regression: Standardisierter geschätzter Wert",
ylab = "Regression: Standardisiertes Residuum",
col = "darkblue")
abline (a=0, b=0)

Bei der optischen Prüfung der Daten prüfen wir auf Homoskedastizität.
Unsere Daten lassen auf Homoskedastizität schließen. Das wäre nicht der
Fall, wenn die Daten eher Trompetenform sich darstellen. Gerne kann
hier großzügig gearbeitet werden.
Histogramme
hist (sres, freq = T, breaks = 10, main ="Verteilung des Fehlerwerts", xlab= "Regression: Standardisiertes Residuum", ylab="Häufigkeiten", xlim = c(-3,5),ylim = c(0,40), col = "lightblue" )

Das Histogramm ist normalverteilt, wenn auch nicht perfekt.
Signifikanz des Regressionsmodells und der Regressionskoeffizienten
Um zu ermitteln, ob ein Regressionsmodell in seiner Gesamtheit
signifikant ist, kommt der sogenannte F-Test zum Einsatz.
Er überprüft, ob die Einbeziehung einer oder mehrerer unabhängiger Variablen
die Vorhersage der abhängigen Variable tatsächlich verbessert.
Mit anderen Worten beurteilt der F-Test, ob das gesamte Modell einen
statistisch bedeutsamen Erklärungsbeitrag liefert.
regression1 <- lm(regression$Nebenkosten_Prozent_von_KaltMiete ~ regression$Netto_Warmmiete )
reg <- summary(regression1)
reg
Hinweis -> Zuerst die abhängige Varibale nennen und dann die
unabhängige Varibale. In unserem Beispiel ist die AV =
Nebenkosten_Prozent_von_KaltMiete und die UV = Warmmiete
Signifikanz des Regressionsmodells
Das Gesamtmodell wird signifikant(F(1,98)=16.19, p = .0001, n=100)
Regressionsmodells
Die Auswertung (siehe Abbildung) macht deutlich, dass sowohl der
Regressionskoeffizient für
Netto_Warmmiete
(t = -4.023, p < .001) als auch die
Konstante
(Y-Achsenabschnitt; t = 1.011, p < .001)
statistisch signifikant sind.
Eine signifikante Konstante bedeutet in diesem Fall,
dass der Schnittpunkt mit der Y-Achse ungleich null ist
und die Regressionsgerade somit nicht durch den Ursprung verläuft.
Ebenso ist der Regressionskoeffizient von
Nebenkosten_Prozent_von_KaltMiete
signifikant von null verschieden. Dies weist darauf hin,
dass die Variable Netto_Warmmiete einen
messbaren Einfluss auf die
Nebenkosten_Prozent_von_KaltMiete ausübt.
In der folgenden Regressionsgleichung wird dieser Zusammenhang
deutlich:
Nebenkosten_Prozent_von_KaltMiete = 1.011465 − 0.024114 × Netto_Warmmiete
Die Interpretation des Koeffizienten für Netto_Warmmiete
gestaltet sich wie folgt: Erhöht sich die Warmmiete um eine Einheit
(zum Beispiel einen Euro), so nimmt der Wert von
Nebenkosten_Prozent_von_KaltMiete im Durchschnitt um
0.024 Einheiten ab. Das entspricht einem Rückgang von
2,4 Prozentpunkten.
Bestimmtheitsmaß R2
[1] 0.133009
Das sogenannte R-Quadrat (auch als
Bestimmtheitsmaß bezeichnet) gibt Auskunft darüber,
wie gut ein Regressionsmodell zu den vorliegenden Daten passt.
Es zeigt an, welcher Anteil der Gesamtstreuung in der
abhängigen Variable durch die unabhängigen Variablen
erklärt wird. Das R-Quadrat kann zwischen 0 und 1 liegen:
Ein Wert von 0 bedeutet, dass das Modell keinerlei Vorhersagekraft besitzt,
während ein Wert von 1 darauf hindeutet, dass die beobachteten Daten
perfekt erklärt werden.
Mit wachsendem R-Quadratwert nimmt also die
Güte der Modellanpassung (engl. „Goodness of Fit“) zu.
Bei multiplen Regressionsmodellen steigt das R-Quadrat automatisch,
wenn weitere unabhängige Variablen in das Modell aufgenommen werden
– selbst wenn diese keine wirkliche Erklärungskraft besitzen.
Deshalb verwendet man zusätzlich das korrigierte R-Quadrat,
das diese Verzerrung abmildert, indem es die Zahl der Prädiktoren
sowie die Stichprobengröße in die Berechnung einbezieht.
Je mehr Einflussfaktoren im Modell enthalten sind und
je kleiner die Stichprobe ist, desto deutlicher fällt diese
Abschwächung von R-Quadrat aus.
In der Praxis berichten viele Programme deshalb standardmäßig
sowohl das „normale“ R-Quadrat als auch das korrigierte R-Quadrat.
Dies gilt sogar im Fall einer einfachen Regression (nur eine unabhängige Variable).
Im vorliegenden Beispiel beträgt das R-Quadrat .133.
Das bedeutet, dass rund 13,3 % der Streuung in
Nebenkosten_Prozent_von_KaltMiete durch die Variable
Netto_Warmmiete erklärt werden kann.
Berechnung der Effektstärke
Häufig genügt es nicht, allein festzustellen, dass ein statistischer Zusammenhang
signifikant ist. Um zusätzlich die Bedeutung oder
Größe des Effekts einzuschätzen, werden sogenannte
Effektstärken herangezogen. Im obigen Beispiel kann man zwar
sehen, dass 13,3 % der Gesamtstreuung in der abhängigen Variable durch die
unabhängige Variable erklärt werden (R-Quadrat = 0,133), doch stellt sich die Frage,
ob dies als klein, mittel oder groß zu bewerten ist.
In der Forschung werden dafür unterschiedliche Kennzahlen eingesetzt.
Besonders verbreitet ist die Effektgröße nach Cohen (d),
aber auch der Korrelationskoeffizient
(r) nach Pearson findet häufig Anwendung.
Letzterer kann Werte zwischen 0 (keinerlei Effekt) und 1 (maximaler Effekt) annehmen
und eignet sich daher gut zur Verdeutlichung der Effektstärke.
Das bei Regressionen oft berichtete Bestimmtheitsmaß (R-Quadrat)
lässt sich zudem in die Effektstärke f nach
Cohen (1988) umrechnen. Diese Effektgröße reicht
theoretisch von 0 bis unendlich und wird folgendermaßen berechnet:
R2)−−−−−−−−√
Auf diese Weise lässt sich abschätzen, wie viel Substanz hinter der reinen
Signifikanz steckt. Ein R-Quadrat von 0,133 bedeutet beispielsweise,
dass sich 13,3 % der Streuung in der abhängigen Variable mit Hilfe
der unabhängigen Variable erklären lassen. Ob das als
nennenswerte Effektstärke gilt, hängt jedoch vom konkreten
Forschungsfeld und den gängigen Richtwerten (z.B. nach Cohen) ab.
f<- sqrt(reg$adj.r.squared/ (1-reg$adj.r.squared))
f
Um die Stärke dieses Effekts zu beurteilen, eignet sich die Einteilung von Cohen (1988):
f = .10 entspricht einem schwachen Effekt
f = .25 entspricht einem mittleren Effekt
f = .40 entspricht einem starken Effekt
Damit entspricht die Effektstärke von 0.39 einem starken Effekt.
Eine Aussage
Die Höhe der Nettowarmmiete (Nettowarmmiete) hat einen Einfluss
darauf, wie hoch die Nebenkosten in Prozent von Kaltmiete
(Nebenkosten_Prozent_von_KaltMiete) sind(F(1, 95) = 16.19 p = .000, n =
100). Mit dem einem Euro mehr an der Warmmiete sinken die Nebenkosten in
Prozent um 2,4 Prozentpunkte. 13.3% der Streuung des Nebenkosten in
Prozent an der Kaltmiete wird durch die Warmmiete erklärt, was nach
Cohen (1988) einem starken Effekt entspricht. H0 kannn verworfen werden.
