Hypothese

H1: Es gibt einen Zusammenhang zwischen der Nettowarmmiete(Netto_Warmmiete) und der Nettokosten in Prozentpunkten (Nebenkosten_Prozent_von_KaltMiete).

H0: Es gibt keinen Zusammenhang zwischen der Nettowarmmiete(Netto_Warmmiete) und der Nettokosten in Prozentpunkten (Nebenkosten_Prozent_von_KaltMiete).

Prüfen der Voraussetzungen der einfachen Regressionsanalyse

Die abhängige und die unabhängige Variable sind intervallskaliert.UV Nettowarmmiete ist metrisch und die AV Nebenkosten_Prozent_von_KaltMiete ist ebenfalls metrisch.

Linearität des Zusammenhangs: Es wird ein linearer Zusammenhang zwischen der abhängigen und der unabhängigen Variablen modelliert. <-siehe Scatterplot und Pearson

Unabhängigkeit des Fehlerwerts: Die Fehlerwerte hängen nicht voneinander ab. <- siehe Homoskedastizität

Normalverteilung des Fehlerwerts: Die Fehlerwerte sind näherungsweise normalverteilt. <- siehe Histogramm

Boxplots

boxplot(regression$Netto_Warmmiete, main="Boxplot zur Warmmiete", xlab="Warmiete in Euro", ylab="Preis pro m²")

Es liegen keine Ausreißer in der Einzelbetrachtung vor.

neben <- boxplot(regression$Nebenkosten_Prozent_von_KaltMiete, main="Boxplot zur Kosten in Prozent", xlab="Kaltmiete und  Nebenkosten ins Verhältnis", ylab="Preis pro m²")

neben
$stats
           [,1]
[1,] 0.08333333
[2,] 0.25591667
[3,] 0.40445238
[4,] 0.59366667
[5,] 1.09250000

$n
[1] 100

$conf
          [,1]
[1,] 0.3510879
[2,] 0.4578169

$out
[1] 1.888000 1.872000 1.788000 1.988000 1.362857 1.376667 1.116667

$group
[1] 1 1 1 1 1 1 1

$names
[1] ""

Es gibt einige Ausreißer. Grundsätzlich ist das für diese Auswertung eher kein Problem, da der Datensatz relativ groß ist.

Ausreißer finden und löschen

ausreisser <- neben$out
ausreisser
[1] 1.888000 1.872000 1.788000 1.988000 1.362857 1.376667 1.116667

# Diese Zeilen sollen entfernt werden
drops <- c(21)

# Zeilen löschen
loeschen <- regression[-drops,]
View(regression)

Deskriptive Statistik

Für die deskriptive Statistik empfiehlt es sich das Package “psych” zu verwenden.

library(psych)
describe(regression)
ABCDEFGHIJ0123456789
 
 
vars
<dbl>
n
<dbl>
mean
<dbl>
sd
<dbl>
median
<dbl>
trimmed
<dbl>
mad
<dbl>
min
<dbl>
max
<dbl>
ID110050.5029.0150.5050.5037.061.00100.00
Netto_Kaltmiete210014.975.7015.0014.977.415.0025.00
Netto_Warmmiete310021.056.0620.4021.057.388.9233.92
Nebenkosten41006.082.476.316.113.162.0010.00
Nebenkosten_Prozent_von_KaltMiete51000.500.390.400.430.260.081.99

Die Warmmiete liegt bei 21.05 Euro pro m²(SD=6.06, n= 100). Der Anzahl der Kosten ins Verhätnis legt bei 50 Prozentpunkten (SD= .39, n= 100). Es zeigt sich, dass der Anzahl der Prozentpunkt nach oben verschoben ist (Median=.40).

Scatterplot und Pearson

Nicht in jedem Fall besteht eine lineare Beziehung zwischen y und x. Dennoch kann die Regressionsanalyse auch für nicht-lineare Zusammenhänge genutzt werden, indem man die beteiligten Variablen zunächst so transformiert, dass das Ergebnis linear wird. Typischerweise werden dafür geeignete mathematische Transformationen (z.B. logarithmisch, polynomisch) auf y und/oder x angewendet.

Anschließend wird nicht die ursprüngliche Beziehung zwischen y und x modelliert, sondern zwischen den entsprechend veränderten Werten. Durch diesen Ansatz lässt sich ein scheinbar nicht-linearer Zusammenhang mithilfe der linearen Regression untersuchen, da die Methode nun auf die transformierten Variablen angewendet wird.

plot( regression$Nebenkosten_Prozent_von_KaltMiete ~ regression$Netto_Warmmiete, main= "Streudiagramm Warmmiete und Kosten ins Verhältnis", xlab = "Warmmiete" , ylab="Kaltmiete und die Nebenkosten ins Verhältnis (in %)")
abline(lm(Nebenkosten_Prozent_von_KaltMiete ~ Netto_Warmmiete, data = regression), col="tomato")

Das Streudiagramm lässt für das Beispiel einen negativen Zusammenhang vermuten. Damit scheint die Voraussetzung, dass der Zusammenhang an sich linear ist, erfüllt.


test <- cor.test(regression$Netto_Warmmiete, regression$Nebenkosten_Prozent_von_KaltMiete)
test

    Pearson's product-moment correlation

data:  regression$Netto_Warmmiete and regression$Nebenkosten_Prozent_von_KaltMiete
t = -4.0234, df = 98, p-value = 0.000113
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.5334832 -0.1944839
sample estimates:
       cor 
-0.3765189 

Der R-Output in Abbildung gibt den Korrelationskoeffizienten sowie den p-Wert (Signifikanz) und die Stichprobengrösse n wieder. Es wird ersichtlich, dass ein Zusammenhang vorliegt zwischen Warmniete und Nebenkosten in Prozent(r = -0.3763, p= .000113, n = 100). Da r einen negativen Wert aufweist, kann von einem negativen, linearen und signifikanten Zusammenhang zwischen Warmmiete und Kosten in Prozent ausgegangen werden.

Da der Korrelation mittelstark und signifikant ist, ist es sinnvoll eine Regression durchzuführen zur Prüfung der Kausalität.

Homoskedastizität

Unter Homoskedastizität versteht man die Annahme, dass der Fehlerterm für alle Werte der unabhängigen Variable dieselbe Varianz aufweist. Anders ausgedrückt: Die Streuung der Residuen ändert sich nicht, egal welchen Wert x annimmt. Diese Voraussetzung überprüft man häufig im selben Streudiagramm, in dem bereits der bedingte Erwartungswert der Fehler kontrolliert wurde.

Weil die gemessenen Datenpunkte in der Realität meist nicht exakt auf der Regressionsgeraden liegen, beinhaltet jedes Regressionsmodell einen Fehlerterm (ε). Er spiegelt jene Einflüsse wider, die nicht durch die unabhängige Variable erklärt werden können. Mit anderen Worten: ε entspricht der Differenz zwischen dem vom Modell vorhergesagten Wert für eine bestimmte Beobachtung (Proband i) und dem tatsächlich gemessenen Wert dieses Probanden.


regression1 <-  lm(regression$Nebenkosten_Prozent_von_KaltMiete ~ regression$Netto_Warmmiete )

zpred <- scale(fitted(regression1), center = T, scale = T)
sres <-rstandard(regression1)

plot (x=zpred, y=sres, main = "Streudiagramm der Residuen", 
      xlab ="Regression: Standardisierter geschätzter Wert", 
      ylab = "Regression: Standardisiertes Residuum",
      col = "darkblue")

abline (a=0, b=0)

Bei der optischen Prüfung der Daten prüfen wir auf Homoskedastizität. Unsere Daten lassen auf Homoskedastizität schließen. Das wäre nicht der Fall, wenn die Daten eher Trompetenform sich darstellen. Gerne kann hier großzügig gearbeitet werden.

Histogramme

hist (sres, freq = T, breaks = 10, main ="Verteilung des Fehlerwerts", xlab= "Regression: Standardisiertes Residuum", ylab="Häufigkeiten", xlim = c(-3,5),ylim = c(0,40), col = "lightblue" )

Das Histogramm ist normalverteilt, wenn auch nicht perfekt.

Signifikanz des Regressionsmodells und der Regressionskoeffizienten

Um zu ermitteln, ob ein Regressionsmodell in seiner Gesamtheit signifikant ist, kommt der sogenannte F-Test zum Einsatz. Er überprüft, ob die Einbeziehung einer oder mehrerer unabhängiger Variablen die Vorhersage der abhängigen Variable tatsächlich verbessert. Mit anderen Worten beurteilt der F-Test, ob das gesamte Modell einen statistisch bedeutsamen Erklärungsbeitrag liefert.


regression1 <-  lm(regression$Nebenkosten_Prozent_von_KaltMiete ~ regression$Netto_Warmmiete )

reg <- summary(regression1)
reg

Hinweis -> Zuerst die abhängige Varibale nennen und dann die unabhängige Varibale. In unserem Beispiel ist die AV = Nebenkosten_Prozent_von_KaltMiete und die UV = Warmmiete

Signifikanz des Regressionsmodells

Das Gesamtmodell wird signifikant(F(1,98)=16.19, p = .0001, n=100)

Regressionsmodells

Die Auswertung (siehe Abbildung) macht deutlich, dass sowohl der Regressionskoeffizient für Netto_Warmmiete (t = -4.023, p < .001) als auch die Konstante (Y-Achsenabschnitt; t = 1.011, p < .001) statistisch signifikant sind. Eine signifikante Konstante bedeutet in diesem Fall, dass der Schnittpunkt mit der Y-Achse ungleich null ist und die Regressionsgerade somit nicht durch den Ursprung verläuft.

Ebenso ist der Regressionskoeffizient von Nebenkosten_Prozent_von_KaltMiete signifikant von null verschieden. Dies weist darauf hin, dass die Variable Netto_Warmmiete einen messbaren Einfluss auf die Nebenkosten_Prozent_von_KaltMiete ausübt. In der folgenden Regressionsgleichung wird dieser Zusammenhang deutlich:

Nebenkosten_Prozent_von_KaltMiete = 1.011465 − 0.024114 × Netto_Warmmiete

Die Interpretation des Koeffizienten für Netto_Warmmiete gestaltet sich wie folgt: Erhöht sich die Warmmiete um eine Einheit (zum Beispiel einen Euro), so nimmt der Wert von Nebenkosten_Prozent_von_KaltMiete im Durchschnitt um 0.024 Einheiten ab. Das entspricht einem Rückgang von 2,4 Prozentpunkten.

Bestimmtheitsmaß R2

reg$adj.r.squared
[1] 0.133009

Das sogenannte R-Quadrat (auch als Bestimmtheitsmaß bezeichnet) gibt Auskunft darüber, wie gut ein Regressionsmodell zu den vorliegenden Daten passt. Es zeigt an, welcher Anteil der Gesamtstreuung in der abhängigen Variable durch die unabhängigen Variablen erklärt wird. Das R-Quadrat kann zwischen 0 und 1 liegen: Ein Wert von 0 bedeutet, dass das Modell keinerlei Vorhersagekraft besitzt, während ein Wert von 1 darauf hindeutet, dass die beobachteten Daten perfekt erklärt werden. Mit wachsendem R-Quadratwert nimmt also die Güte der Modellanpassung (engl. „Goodness of Fit“) zu.

Bei multiplen Regressionsmodellen steigt das R-Quadrat automatisch, wenn weitere unabhängige Variablen in das Modell aufgenommen werden – selbst wenn diese keine wirkliche Erklärungskraft besitzen. Deshalb verwendet man zusätzlich das korrigierte R-Quadrat, das diese Verzerrung abmildert, indem es die Zahl der Prädiktoren sowie die Stichprobengröße in die Berechnung einbezieht. Je mehr Einflussfaktoren im Modell enthalten sind und je kleiner die Stichprobe ist, desto deutlicher fällt diese Abschwächung von R-Quadrat aus. In der Praxis berichten viele Programme deshalb standardmäßig sowohl das „normale“ R-Quadrat als auch das korrigierte R-Quadrat. Dies gilt sogar im Fall einer einfachen Regression (nur eine unabhängige Variable).

Im vorliegenden Beispiel beträgt das R-Quadrat .133. Das bedeutet, dass rund 13,3 % der Streuung in Nebenkosten_Prozent_von_KaltMiete durch die Variable Netto_Warmmiete erklärt werden kann.

Berechnung der Effektstärke

Häufig genügt es nicht, allein festzustellen, dass ein statistischer Zusammenhang signifikant ist. Um zusätzlich die Bedeutung oder Größe des Effekts einzuschätzen, werden sogenannte Effektstärken herangezogen. Im obigen Beispiel kann man zwar sehen, dass 13,3 % der Gesamtstreuung in der abhängigen Variable durch die unabhängige Variable erklärt werden (R-Quadrat = 0,133), doch stellt sich die Frage, ob dies als klein, mittel oder groß zu bewerten ist.

In der Forschung werden dafür unterschiedliche Kennzahlen eingesetzt. Besonders verbreitet ist die Effektgröße nach Cohen (d), aber auch der Korrelationskoeffizient (r) nach Pearson findet häufig Anwendung. Letzterer kann Werte zwischen 0 (keinerlei Effekt) und 1 (maximaler Effekt) annehmen und eignet sich daher gut zur Verdeutlichung der Effektstärke.

Das bei Regressionen oft berichtete Bestimmtheitsmaß (R-Quadrat) lässt sich zudem in die Effektstärke f nach Cohen (1988) umrechnen. Diese Effektgröße reicht theoretisch von 0 bis unendlich und wird folgendermaßen berechnet:

R2(1R2)

Auf diese Weise lässt sich abschätzen, wie viel Substanz hinter der reinen Signifikanz steckt. Ein R-Quadrat von 0,133 bedeutet beispielsweise, dass sich 13,3 % der Streuung in der abhängigen Variable mit Hilfe der unabhängigen Variable erklären lassen. Ob das als nennenswerte Effektstärke gilt, hängt jedoch vom konkreten Forschungsfeld und den gängigen Richtwerten (z.B. nach Cohen) ab.


f<- sqrt(reg$adj.r.squared/ (1-reg$adj.r.squared))
f

Um die Stärke dieses Effekts zu beurteilen, eignet sich die Einteilung von Cohen (1988):

f = .10 entspricht einem schwachen Effekt
f = .25 entspricht einem mittleren Effekt
f = .40 entspricht einem starken Effekt

Damit entspricht die Effektstärke von 0.39 einem starken Effekt.

Eine Aussage

Die Höhe der Nettowarmmiete (Nettowarmmiete) hat einen Einfluss darauf, wie hoch die Nebenkosten in Prozent von Kaltmiete (Nebenkosten_Prozent_von_KaltMiete) sind(F(1, 95) = 16.19 p = .000, n = 100). Mit dem einem Euro mehr an der Warmmiete sinken die Nebenkosten in Prozent um 2,4 Prozentpunkte. 13.3% der Streuung des Nebenkosten in Prozent an der Kaltmiete wird durch die Warmmiete erklärt, was nach Cohen (1988) einem starken Effekt entspricht. H0 kannn verworfen werden.

