Pakete importieren

library(haven)
library(car)
library(PerformanceAnalytics)
library(psych)
library(knitr)
library(broom)
library(lmtest)
library(lm.beta)
library(readxl)

Daten einlesen


#Multiple_Regression <- read_excel("Multiple_Regression.xlsx")
#View(Multiple_Regression)
attach(Multiple_Regression)

1) Hypothese

Nullhypothese (H₀):

Alle Regressionskoeffizienten sind gleich null: \[ H_0: \beta_1 = \beta_2 = \beta_3 = 0 \] Die unabhängigen Variablen haben gemeinsam keinen Einfluss auf die Besucherzahl.

Alternativhypothese (H₁):

Mindestens ein Regressionskoeffizient ist ungleich null: \[ H_1: \text{Mindestens ein } \beta_j \neq 0 \] Mindestens eine der unabhängigen Variablen beeinflusst die Besucherzahl.

2) Grundlegende Konzepte: Was ist multiple Regression?

Die multiple Regression ist ein statistisches Verfahren, mit dem untersucht wird, wie mehrere unabhängige Variablen gemeinsam die Ausprägung einer abhängigen Variablen vorhersagen oder erklären können. Während die einfache lineare Regression nur einen Einflussfaktor betrachtet, analysiert die multiple Regression den Einfluss mehrerer Faktoren gleichzeitig. So kann man zum Beispiel erforschen, wie Mitgliedsbeitrag, Werbeausgaben und Produktqualität zusammen die Verkaufszahlen beeinflussen. Dabei zeigt das Verfahren nicht nur, wie stark jede einzelne Variable die abhängige Variable beeinflusst, sondern auch, wie gut das Gesamtmodell die tatsächlichen Werte vorhersagt. Die multiple Regression wird häufig in Sozialwissenschaften, Wirtschaft und Medizin genutzt, um komplexe Zusammenhänge zwischen verschiedenen Einflussgrößen und einem Ergebnis zu analysieren und fundierte Entscheidungen auf Basis der ermittelten Zusammenhänge zu treffen.

3) Prüfen der Voraussetzungen

4) Boxplot

par(mfrow=c(1,4))
boxplot(Fanartikelverkauf, main="Boxplot Fanartikelverkauf")
boxplot(Besucherzahlen, main="Boxplot Besucher")
boxplot(Werbeausgaben, main="Boxplot Werbeausgaben")
boxplot(Mitgliedsbeitrag, main="Boxplot Mitgliedsbeitrag")

Keine Ausreißer zu erkennen.

5) Deskriptive Statistik

psych::describe(Multiple_Regression)

Die Tabelle gibt einen Überblick über die deskriptiven Statistiken von fünf Variablen aus dem Datensatz. Für die abhängige Variable Besucher lag der Mittelwert bei M = 1877.89, mit einer Standardabweichung von SD = 350.52 (n = 36). Die Besucherzahlen variierten dabei zwischen 1172 und 2604. Der Mitgliedsbeitrag (Mitgliedsbeitrag) zeigte einen Mittelwert von M = 110.38 (SD = 1.61, n = 36), mit Werten von 107 bis 113. Für das Werbebudget (Werbeausgaben) wurde ein Mittelwert von M = 1274.44 (SD = 481.50, n = 36) bei einer Spannweite von 460 bis 2000 beobachtet. Die Variable Fanartikelverkauf hatte einen Mittelwert von M = 905.28 (SD = 159.47, n = 36), mit Werten zwischen 600 und 1250. Die ID-Variable dient lediglich der Identifikation der einzelnen Fälle und ist für die inhaltliche Analyse nicht relevant.

6) Scatterplot und Pearson

Ein lineares Modell geht davon aus, dass der Zusammenhang zwischen der abhängigen Variable und jeder unabhängigen Variable linear ist – und zwar unter der Kontrolle aller weiteren unabhängigen Variablen. Bei multipler Regression bedeutet das: Die Beziehung zwischen einer unabhängigen Variable und der Zielgröße sollte auch dann linear sein, wenn man die Effekte der anderen Einflussgrößen berücksichtigt.

Diese Bedingung lässt sich jedoch nicht allein mit einem einfachen Streudiagramm zwischen abhängiger und einer unabhängigen Variable prüfen. Im Gegensatz zur einfachen Regression können weitere Einflussfaktoren das Verhältnis verfälschen, sodass die tatsächliche Beziehung komplexer ist. Ein einfaches Streudiagramm bietet daher nur einen groben ersten Anhaltspunkt, ob eine lineare Beziehung vorliegen könnte, und wird häufig als erster, orientierender Schritt genutzt. Für eine genaue Überprüfung sind weiterführende grafische Methoden erforderlich.

library(car)

scatterplotMatrix(~Mitgliedsbeitrag+Fanartikelverkauf+Werbeausgaben + Besucherzahlen, 
                       regLine=TRUE, smooth=FALSE, 
  diagonal=list(method="density"), by.groups=TRUE, 
  data=Multiple_Regression)

library(PerformanceAnalytics)
chart.Correlation(Multiple_Regression[1:4],
histogram=TRUE,
method = "pearson",
pch=19)

Die Streudiagramm-Matrix liefert einen ersten Eindruck davon, wie die abhängige Variable mit den einzelnen unabhängigen Variablen zusammenhängt. Dabei wird sichtbar, dass zwischen den unabhängigen Variablen und der Zielgröße zumindest auf den ersten Blick jeweils eine lineare Beziehung denkbar ist: Die Besucherzahl nimmt mit höheren Fanartikelverkäufen und einem größeren Werbebudget offenbar zu. Der Zusammenhang mit dem TicketMitgliedsbeitrag erscheint dagegen weniger ausgeprägt.

Um die Annahme der Linearität genauer zu überprüfen, empfiehlt es sich, für jede unabhängige Variable ein spezielles Streudiagramm zu erstellen, das sogenannte Component-plus-residual-Plot. Damit lässt sich erkennen, ob die Beziehung tatsächlich linear ist oder ob möglicherweise eine andere Form des Zusammenhangs vorliegt. Alternativ können auch partielle Regressionsdiagramme verwendet werden, die für jede Variable die Beziehung zum Rest des Modells darstellen.

# modell 
modell <- lm(Besucherzahlen ~ Mitgliedsbeitrag + Werbeausgaben + Fanartikelverkauf, data = Multiple_Regression)

# Component-plus-residual-Plot für Fanartikelverkauf
crPlots(modell, terms = ~ Fanartikelverkauf)

Das partielle Regressionsdiagramm für Fanartikelverkauf zeigt auf der Y-Achse das Residuum, das entsteht, wenn die Variable Besucher auf alle unabhängigen Variablen außer Fanartikelverkauf regressiert wird. Auf der X-Achse ist das Residuum dargestellt, das übrig bleibt, wenn Fanartikelverkauf auf alle anderen unabhängigen Variablen regressiert wird. Das bedeutet: Es wird jeweils der Teil betrachtet, der durch die anderen unabhängigen Variablen nicht erklärt werden kann. Diese beiden Residuen werden gegeneinander aufgetragen.

Zeigen die partiellen Regressionsdiagramme für alle unabhängigen Variablen eine lineare Beziehung, kann davon ausgegangen werden, dass die Linearitätsvoraussetzung erfüllt ist. In Abbildung 4 ist dies für Fanartikelverkauf der Fall. Auch bei den anderen unabhängigen Variablen zeigt sich diese Linearität, was aus Gründen der Übersichtlichkeit hier jedoch nicht weiter dargestellt wird.

7) Homoskedastizität

Homoskedastizität bedeutet, dass die Fehler für jeden Wert der unabhängigen Variablen eine konstante Varianz aufweisen. Das wird meist anhand eines Streudiagramms überprüft, in dem die Residuen gegen die vorhergesagten Werte aufgetragen werden. Die Voraussetzung ist erfüllt, wenn sich die Fehlerwerte über den gesamten Wertebereich der Vorhersagen zufällig und ohne erkennbares Muster verteilen und ihre Streuung in etwa gleich bleibt.

Falls die Streuung der Fehler nicht konstant ist, spricht man von Heteroskedastizität. In solchen Fällen erkennt man häufig ein bestimmtes Muster im Streudiagramm, beispielsweise eine trichterförmige oder trompetenartige Ausprägung.


regression1 <-  lm(Besucherzahlen ~ Mitgliedsbeitrag+Fanartikelverkauf+Werbeausgaben )

zpred <- scale(fitted(regression1), center = T, scale = T)
sres <-rstandard(regression1)

plot (x=zpred, y=sres, main = "Streudiagramm der Residuen", 
      xlab ="Regression: Standardisierter geschätzter Wert", 
      ylab = "Regression: Standardisiertes Residuum",
      col = "darkblue")

abline (a=0, b=0)

Neben der visuellen Beurteilung gibt es auch verschiedene statistische Tests, mit denen Homoskedastizität geprüft werden kann, zum Beispiel den Breusch-Pagan-Test, den Cook-Weisberg-Test oder den White-Test. Wird bei diesen Tests die Nullhypothese nicht verworfen, spricht das für Homoskedastizität. Das Ergebnis gilt als unproblematisch, wenn der p-Wert größer als 0,05 ist. Wird dieser Wert nicht unterschritten, kann davon ausgegangen werden, dass die Annahme der Homoskedastizität erfüllt ist.

8) Unabhängigkeit des Fehlerwerts

Für die multiple Regression ist es wichtig, dass die Fehler verschiedener Beobachtungen unabhängig voneinander sind. Das bedeutet, dass die Fehlerwerte nicht miteinander in Verbindung stehen dürfen und keine systematischen Muster aufweisen, wie zum Beispiel zeitliche oder räumliche Abfolgen. Werden Abhängigkeiten festgestellt, kann dies beispielsweise an mehrfachen Messungen innerhalb derselben Gruppe oder an wiederkehrenden Zeitpunkten liegen.

Treten solche Abhängigkeiten auf, kann die Annahme der Unabhängigkeit verletzt sein, was sich meist durch auffällige Muster in den Residuen äußert. Bei unabhängigen Fehlern sind dagegen keine Regelmäßigkeiten erkennbar. Ist dies der Fall, kann davon ausgegangen werden, dass die Voraussetzung erfüllt ist.

Neben der visuellen Beurteilung gibt es auch statistische Tests zur Überprüfung der Unabhängigkeit der Fehler, wie etwa den Durbin-Watson-Test. Ein Wert nahe 2 deutet darauf hin, dass keine Autokorrelation vorliegt, während Werte nahe 0 oder 4 auf eine starke Abhängigkeit der Fehlerwerte hindeuten.

9) Normalverteilung des Fehlerwerts

Eine weitere Voraussetzung ist, dass die Fehlerwerte annähernd normalverteilt sind. Dies lässt sich oft gut anhand eines Histogramms der standardisierten Residuen beurteilen. Im Idealfall zeigt das Histogramm eine glockenförmige Verteilung. Weichen die Fehler stark von der Normalverteilung ab, zum Beispiel indem sie zweigipflig (bimodal) verteilt sind, kann dies problematisch für die Interpretation der Regressionsanalyse sein. Kleinere Abweichungen werden häufig als unkritisch betrachtet.


# regression1 <-  lm(Besucherzahlen ~ Mitgliedsbeitrag+Fanartikelverkauf+Werbeausgaben )
# 
# zpred <- scale(fitted(regression1), center = T, scale = T)
# sres <-rstandard(regression1)

hist (sres, freq = T, breaks = 10, main ="Verteilung des Fehlerwerts", xlab= "Regression: Standardisiertes Residuum", ylab="Häufigkeiten", xlim = c(-3,3),ylim = c(0,12), col = "lightblue" )

10) Keine Multikollinearität

Für die multiple Regression ist es wesentlich, dass die unabhängigen Variablen nicht in einem starken linearen Zusammenhang zueinander stehen. Das bedeutet, keine unabhängige Variable darf sich durch eine Linearkombination der anderen vollständig erklären lassen. In der Praxis sind kleine Korrelationen normal, doch eine zu große Multikollinearität führt dazu, dass die Schätzung der Regressionskoeffizienten unsicher wird. Dann kann es passieren, dass eigentlich wichtige Einflussgrößen statistisch unauffällig erscheinen.

Zur Überprüfung von Multikollinearität werden zwei Kennzahlen genutzt: Toleranzwert und Varianzinflationsfaktor (VIF). Beide Größen geben Auskunft darüber, wie sehr eine unabhängige Variable von den übrigen abhängt. Sie stehen in einem Kehrwertverhältnis zueinander.

Toleranzwert:

\[ T_j = 1 - R_j^2 \]

Hierbei ist \(R_j^2\) das Bestimmtheitsmaß, das angibt, wie gut sich die Variable \(x_j\) durch die anderen unabhängigen Variablen erklären lässt.

Varianzinflationsfaktor (VIF):

\[ \text{VIF}_j = \frac{1}{T_j} \] ### Faustregel zur Beurteilung:

# regression1 <-  lm(Besucherzahlen ~ Mitgliedsbeitrag+Fanartikelverkauf+Werbeausgaben )
# VIF berechnen
vif_values <- vif(regression1)


# Toleranz berechnen (1/VIF)
toleranz <- 1 / vif_values


# Zusammenfassen als DataFrame
ergebnisse <- data.frame(
  Variable = names(vif_values),
  VIF = round(vif_values, 3),
  Toleranz = round(toleranz, 3)
)
print(ergebnisse)

Werden diese Grenzwerte nicht eingehalten, liegt eine problematische Multikollinearität vor. In diesem Fall sollte das Regressionsmodell überarbeitet werden – zum Beispiel, indem betroffene Prädiktoren entfernt oder umgewandelt werden. Perfekte Multikollinearität, also eine vollständig lineare Beziehung, wird automatisch erkannt. Bei moderater Multikollinearität ist eine eigenständige Kontrolle und Anpassung notwendig. Sind alle Voraussetzungen akzeptabel erfüllt, kann das Modell weiter interpretiert werden.

11) Signifikanz des Regressionsmodells

Um zu bestimmen, ob das Regressionsmodell insgesamt statistisch bedeutsam ist, wird ein F-Test verwendet. Dieser Test prüft, ob die unabhängigen Variablen gemeinsam dazu beitragen, die abhängige Variable besser vorherzusagen, als es der Zufall könnte. Anders gesagt, bewertet der F-Test, ob das gesamte Modell einen signifikanten Erklärungswert für die abhängige Variable besitzt.

\[Besucherzahlen=\beta_0+\beta_1\cdot Mitgliedsbeitrag+\beta_2\cdot Werbeausgaben+\beta_3\cdot Verkauf+\epsilon_i\]

Wenn das Ergebnis des F-Tests signifikant ausfällt (typischerweise p < 0,05), zeigt das, dass das Modell insgesamt einen relevanten Beitrag zur Vorhersage leistet. In diesem Fall kann die Analyse weitergeführt werden, beispielsweise indem die einzelnen Einflussgrößen betrachtet werden. Ist das Modell insgesamt nicht signifikant, wäre eine weitere Analyse nicht sinnvoll.

12) Signifikanz der Regressionskoeffizienten und die Regressionsgrade

Hier wird die Multiple Regression durchgeführt. Achten Sie auf die Rundung.

# modell
regression1 <-  lm(Besucherzahlen ~ Mitgliedsbeitrag+Fanartikelverkauf+Werbeausgaben )


# Koeffizienten holen
koefs <- tidy(regression1)

# VIF und Toleranz berechnen 
vif_vals <- vif(regression1)
toleranz <- 1 / vif_vals

# Intercept
VIF_full <- c(NA, round(vif_vals, 3))        # Intercept hat keinen VIF
Toleranz_full <- c(NA, round(toleranz, 3))   # Intercept hat keine Toleranz

# Alles in eine Tabelle
ergebnisse <- data.frame(
  Variable = koefs$term,
  Regressionskoeffizient = round(koefs$estimate, 3),
  Standardfehler = round(koefs$std.error, 3),
  t_Wert = round(koefs$statistic, 3),
  p_Wert = round(koefs$p.value, 3),
  Toleranz = Toleranz_full,
  VIF = VIF_full
)

print(ergebnisse)

Im nächsten Schritt wird untersucht, ob die einzelnen Einflussgrößen (Regressionskoeffizienten) tatsächlich einen bedeutsamen Zusammenhang mit der Zielgröße haben. Dafür wird zu jedem einzelnen Koeffizienten ein t-Test durchgeführt. Das Ergebnis zeigt, ob die jeweilige Variable einen messbaren Einfluss auf die Besucherzahl ausübt.

Die Ergebnisse der t-Tests zeigen, dass die Regressionskoeffizienten für Mitgliedsbeitrag (t = -2,612, p = 0,014), Werbeausgaben (t = 9,657, p < 0,001), Fanartikelverkauf (t = 5,759, p < 0,001) sowie für die Konstante (Y-Achsenabschnitt; t = 2,797, p = 0,009) jeweils statistisch signifikant sind. Ein signifikanter Y-Achsenabschnitt bedeutet, dass die Regressionsgerade den Ursprung nicht schneidet. Die signifikanten Koeffizienten der unabhängigen Variablen zeigen, dass diese Faktoren einen relevanten Einfluss auf die Besucherzahl haben.

Daraus ergibt sich folgende Regressionsgleichung:

Besucherzahlen = 5091,21 – 43,23 · Mitgliedsbeitrag + 0,54 · Werbeausgaben + 0,97 · Fanartikelverkauf

Die Gleichung macht deutlich, dass der Mitgliedsbeitrag einen negativen Effekt hat: Erhöht sich der Mitgliedsbeitrag um eine Einheit (z. B. in Euro), sinkt die Besucherzahl im Mittel um 43,23 Personen, sofern die anderen Variablen konstant bleiben. Die positiven Koeffizienten für Werbeausgaben und Fanartikelverkauf bedeuten, dass mit jeder zusätzlichen Einheit im Werbebudget oder Fanartikelverkauf steigt die Besucherzahl jeweils um 0,54 bzw. 0,97 Personen steigt, wenn alle anderen Einflussgrößen gleich bleiben.

13) Modellgüte

Das Bestimmtheitsmaß ist eine Kennzahl, die beschreibt, wie gut eine Regressionsanalyse die beobachteten Daten wiedergibt. Es zeigt an, welcher Anteil der Gesamtschwankung der abhängigen Variable durch die gewählten Einflussgrößen erklärt werden kann. Ein R²-Wert von 0 bedeutet, dass das Modell keine Vorhersagekraft besitzt; ein Wert von 1 steht für eine perfekte Erklärung der Daten. Werte näher an 1 deuten also darauf hin, dass das Modell sehr gut geeignet ist, die beobachteten Zusammenhänge abzubilden.

Bei der multiplen Regression ist zu beachten, dass R² allein oft zu optimistisch ausfällt, weil es bei jeder zusätzlichen unabhängigen Variable automatisch steigt – selbst wenn diese keinen wirklichen Mehrwert bietet. Aus diesem Grund wird häufig das angepasste (korrigierte) R² berichtet. Dieses korrigiert den Wert nach unten, falls unnötig viele Einflussgrößen berücksichtigt werden, und ist dadurch ein zuverlässigeres Maß für die Modellgüte.

# Modellgüte berechnen
summary_model <- summary(regression1)

R <- sqrt(summary_model$r.squared)
R2 <- summary_model$r.squared
adjR2 <- summary_model$adj.r.squared
SE <- summary_model$sigma

# Durbin-Watson-Test
dw <- lmtest::dwtest(regression1)$statistic

# Alles in ein DataFrame 
modelguete <- data.frame(
  R = round(R, 3),
  R_Quadrat = round(R2, 3),
  Korrigiertes_R_Quadrat = round(adjR2, 3),
  Standardfehler_des_Schätzers = round(SE, 3),
  Durbin_Watson_Statistik = round(dw, 3)
)

print(modelguete)

Ein korrigiertes R² von 0,80 besagt zum Beispiel, dass 80 % der Streuung in den Daten durch die gewählten unabhängigen Variablen erklärt werden können.

14) Berechnung der Effektstärke

Um zu beurteilen, wie bedeutsam das Ergebnis einer Regression ist, berechnet man oft eine Effektstärke. Auch wenn ein hoher Anteil der Streuung in der Zielgröße erklärt wird, stellt sich die Frage, wie groß dieser Effekt im Vergleich zu typischen Standards einzuschätzen ist.

Es existieren verschiedene Maße für die Effektstärke. Zu den gebräuchlichsten zählt das nach Cohen benannte Maß \(f^2\), das insbesondere für Regressionsanalysen geeignet ist. Damit lässt sich abschätzen, ob der gefundene Zusammenhang schwach, mittel oder stark ist.

Die Effektstärke \(f^2\) kann aus dem Bestimmtheitsmaß \(R^2\) berechnet werden:

\[ f^2 = \frac{R^2}{1 - R^2} \]

wobei:

Beispiel:
Angenommen, \(R^2 = 0,80\), ergibt sich:

\[ f^2 = \frac{0,80}{1 - 0,80} = \frac{0,80}{0,20} = 4,0 \]

Zur Einordnung schlägt Cohen (1992) folgende Schwellenwerte vor:

\[ \begin{align} \text{Schwacher Effekt:} \quad & 0.10 < ||f|| < 0.25 \\ \text{Schwacher bis mittlerer Effekt:} \quad & 0.25 = ||f|| \\ \text{Mittlerer Effekt:} \quad & 0.25 < ||f|| < 0.40 \\ \text{Mittlerer bis starker Effekt:} \quad & 0.40 = ||f|| \\ \text{Starker Effekt:} \quad & 0.40 < ||f|| \end{align} \]

reg <- summary(regression1)

f<- reg$adj.r.squared/ (1-reg$adj.r.squared)
sprintf("Die Effektstärke liegt bei: %.2f", f)
[1] "Die Effektstärke liegt bei: 4.00"

Ein Wert von \(f^2 = 4,0\) steht damit für einen sehr starken Effekt.

15) Eine Aussage

Eine multiple Regressionsanalyse ergab, dass sowohl die Zahl der verkauften Fanartikel, der Mitgliedsbeitrag als auch die Werbeausgaben einen Einfluss auf die Besucherzahl bei Vereinsveranstaltungen haben, F(3,32) = 47,65, p < .001, n = 36. Erhöht sich der Mitgliedsbeitrag um einen Euro, sinkt die Besucherzahl im Durchschnitt um 43,23 Personen. Werden die Werbeausgaben um einen Euro gesteigert, steigt die Besucherzahl um etwa 0,54 Personen. Jeder zusätzlich verkaufte Fanartikel führt durchschnittlich zu 0,97 weiteren Besuchern. Insgesamt erklären diese drei Faktoren 80 % der Streuung in den Besucherzahlen – ein Wert, der gemäß Cohen (1992) auf einen starken Effekt hinweist.

