Die multiple Regressionsanalyse untersucht, ob und wie mehrere unabhängige Variablen gemeinsam mit einer abhängigen Variable zusammenhängen.

Der Begriff „Regression“ beschreibt das Zurückführen der abhängigen Variable y auf eine oder mehrere unabhängige Variablen xk. Daher spricht man auch von der „Regression von y auf x“. In diesem Zusammenhang wird die abhängige Variable oft als Kriteriumsvariable und die unabhängigen Variablen als Prädiktorvariablen bezeichnet.

In der empirischen Sozial- und Marktforschung liegt einer Wirkung meist nicht nur eine einzelne Ursache zugrunde. Vielmehr wirken häufig mehrere Einflussfaktoren gleichzeitig auf ein Ergebnis. Die multiple Regressionsanalyse trägt diesem Umstand Rechnung, indem sie – im Gegensatz zur einfachen linearen Regression – mehrere unabhängige Variablen gleichzeitig berücksichtigt.

Die methodische Grundlage der multiplen Regression basiert auf der einfachen Regressionsanalyse. Allerdings sind hier zusätzliche Voraussetzungen zu beachten. Außerdem gibt es unterschiedliche Verfahren, wie die unabhängigen Variablen in das Modell eingebracht werden können (vgl. Multiple Regression mit SPSS).

Drei zentrale Fragestellungen der Regressionsanalyse

  • Ursachenanalyse: Besteht ein Zusammenhang zwischen der unabhängigen und der abhängigen Variable? Wie stark ist dieser Zusammenhang?
  • Wirkungsanalyse: Wie verändert sich die abhängige Variable, wenn sich die unabhängige Variable verändert?
  • Prognose: Inwieweit lassen sich die Werte der abhängigen Variable aus den Werten der unabhängigen Variable vorhersagen?

Wichtig: Jeder angenommene ursächliche Zusammenhang sollte theoretisch begründet und nicht nur statistisch belegt sein.

Fragestellungen bei der multiplen Regression

  • Wie beeinflussen mehrere unabhängige Variablen die abhängige Variable?
  • Wie gut lassen sich die Werte der abhängigen Variable durch die unabhängigen Variablen vorhersagen?
  • Welchen Beitrag leistet jede unabhängige Variable zur Erklärung der abhängigen Variable?

Beispielfragestellungen

  • Wie beeinflussen die Bildschirmzeit, die Schlafdauer und das Bewegungsverhalten die Konzentrationsfähigkeit von Jugendlichen im Schulunterricht?
  • Wird die Kundenzufriedenheit in einem Online-Shop durch die Lieferzeit, die Produktqualität, den Kundenservice und die Benutzerfreundlichkeit der Website beeinflusst?
  • Wie stark wird der Energieverbrauch eines Haushalts durch die Wohnfläche, die Anzahl der Personen im Haushalt, die Heizart und das Alter des Gebäudes bestimmt?
  • Welchen Einfluss haben die Berufserfahrung, der Bildungsabschluss, das Alter und die Region auf das monatliche Bruttoeinkommen von Beschäftigten?
  • Wie beeinflussen die Unterrichtsqualität, die Klassengröße, der sozioökonomische Hintergrund und die Schulform die schulischen Leistungen in Mathematik?

Voraussetzungen der Regressionsanalyse

  • Skalenniveau: Die abhängige Variable muss intervallskaliert sein, die unabhängigen Variablen sollten ebenfalls intervallskaliert oder als Dummy-Variablen codiert sein.
  • Homoskedastizität: Für jeden Wert der unabhängigen Variablen besitzen die Fehlerwerte die gleiche Varianz.
  • Unabhängigkeit der Fehlerwerte: Die Fehlerwerte sind voneinander unabhängig.
  • Normalverteilung der Fehlerwerte: Die Fehlerwerte sind näherungsweise normalverteilt.
  • Keine Multikollinearität: Die unabhängigen Variablen dürfen nicht zu stark miteinander korrelieren.

Beispiel einer Studie

Ein Sportverein möchte herausfinden, welche Faktoren die Besucherzahlen bei seinen regelmäßigen Veranstaltungen beeinflussen. Aus der Erfahrung der Vereinsleitung ist bekannt, dass insbesondere der Mitgliedsbeitrag (in Euro), die monatlichen Werbeausgaben (in Euro) sowie der Verkauf von Fanartikeln (Stückzahl pro Monat) einen wesentlichen Einfluss auf den Erfolg der Veranstaltungen haben könnten.

Um diese Zusammenhänge zu überprüfen, wurde ein Datensatz erstellt, der für jeden Monat neben einer Identifikationsnummer (ID) die Anzahl der Besucher (Besucher), den jeweils erhobenen Mitgliedsbeitrag (Mitgliedsbeitrag), die Werbeausgaben (Werbeausgaben) sowie die verkaufte Anzahl an Fanartikeln (Fanartikelverkauf) umfasst.

Ziel der Analyse ist es, mittels statistischer Methoden zu bestimmen, wie stark die genannten Einflussgrößen die Besucherzahlen beeinflussen. Die Erkenntnisse sollen dem Verein ermöglichen, zukünftige Veranstaltungen besser zu planen und die Besucherzahlen gezielt zu steigern.

Der zu analysierende Datensatz enthält neben der Probandennummer (ID), die Gruppierungsvariable (Traingstatus) und den Wert für das köperliche Wohlbefinden Wohlbefinden.



Downloads

In diesem Bereich werden folgende Dokumente zum Download angeboten. Der erste Link ist der Datensatz, der in R eingelesen werden soll. Das Word-Dokument kann als Protokoll verwendet werden. Die Schritte sind bei der Erstellung einer Auswertung immer die gleichen.


Der Datensatz kann hier heruntergeladen werden: Multiple Regression (Excel-Datei)


Das Word-Dokument kann hier heruntergeladen werden: Word-Dokument zur Multiplen Regression