1) Statistische Hypothesen austellen

Hypothesen

Allgemeines:
Eine Hypothese ist eine konkrete, praktische Vorhersage/Aussage, die gewöhnlich aus allgemeinen, theoretischen Aussagen abgeleitet wird.

Es wird eine Nullhypothese aufgestellt (H0), dass die Beobachtung durch Zufall entstanden ist.
Die Alternativhypothese (H1), besagt, dass die Beobachtung durch eine bestimmte Ursache entstanden ist.

Richtung:

Eine ungerichtete Hypothese sagt, dass es einen Effekt gibt.
H0: “Mehr Sport zu machen, ändert die körperliche Fitness nicht.”
H1: “Mehr Sport zu machen, ändert die körperliche Fitness.”

Eine gerichtete Hypothese sagt, in welche Richtung dieser Effekt geht.
H0: “Mehr Sport zu machen, führt zu schlechterer oder gleicher körperlicher Fitness.”
H1: “Mehr Sport zu machen, führt zu besserer körperlicher Fitness.”

Quantifizierung:

Die Hypothesen werden mathematisch durch eine Vergleichs-Relation ausgedrückt, welchen Wert eine experimentell ermittelte Prüfgröße annehmen sollte.

H0: “Mehr Sport zu machen, ändert die körperliche Fitness nicht.” \(\rightarrow\) \(r=0\)
H1: “Mehr Sport zu machen, ändert die körperliche Fitness.” \(\rightarrow\) \(r \neq 0\)

H0: “Mehr Sport zu machen, führt zu schlechterer oder gleicher körperlicher Fitness.” \(\rightarrow\) \(r \leq 0\)
H1: “Mehr Sport zu machen, führt zu besserer körperlicher Fitness.” \(\rightarrow\) \(r > 0\)

Unterschiedshypothese:
- Unterscheiden sich die Mittelwerte zweier unabhängiger Stichproben?
z.B t-test für unabhängige Stichproben, ANOVA ohne Messwiederholung, …

Zusammenhangshypothese:
- Gibt es einen Zusammenhang zwischen dem Verhalten zweier Variablen, die von einer gemeinsamen unabhängigen Variablen abhängen?
- z.B. Pearson r, Spearman rho, Regression

Unabhängige Variable(UV) = Treatment, Faktor = Die Variable für die eine ursächliche Wirkung angenommen wird.

Abhängige Variable(AV) = Outcome = Die Variable von deren Ausprägung angenommen wird, dass sie von der UV abhängt. Sie wird gemessen.

Entscheidung und Wirklichkeit



Entscheidungen für den Hypothesentest

Entscheidungsregeln H0 gilt für Grundgesamtheit H1 gilt für Grundgesamtheit
Entscheidung Stichprobe für H0 Richtige Entscheidung Fehler 2. Art
Entscheidung Stichprobe für H1 Fehler 1. Art Richtige Entscheidung


Fehlerwahrscheinlichkeiten im Hypothesentest

Fehlerwahrscheinlichkeiten H0 gilt für Grundgesamtheit H1 gilt für Grundgesamtheit
Ergebnis im Annahmebereich Sicherheitswahrsheinlichkeit(1-α) Fehlerwahrscheinlichkeit 2.Art (β)
Entscheidung Ablehnungsbereich Fehlerwahrscheinlichkeit 1.Art (α) Teststärke oder Power (1-β)

Definition

Sicherheitswahrscheinlichkeit (1-α) (Sicherheit 1.Art):
Wahrscheinlichkeit, die Nullhypothese aufgrund der Stichprobendaten annehmen, wenn die Nullhypothese in der Grundgesamtheit auch gilt.

Fehlerwahrscheinlichkeit 1.Art (α):
Wahrscheinlichkeit, die Nullhypothese aufgrund der Stichprobendaten nicht annehmen,obwohl sie in der Grundgesamtheit gilt.

Teststärke oder Power (1-β) (Sicherheit 2.Art):
Wahrscheinlichkeit, die Alternativehypothese auf grund der Stichprobendaten annehmen ,wenn die Alternativhypothese in der Grundheit auch gilt.

Fehlerwahrscheinlichkeit 2.Art (β):
Wahrscheinlichkeit, die Alternativehypothese aufgrund der Stichprobendaten nicht annehmen,obwohl sie in der Grundgesamtheit gilt.

Hypothesen werden dichotom formuliert!

Beispiel:E-Mail vs Spammail
Im Postfach ist eine Email eingetroffen. Jetzt wird folgende Annahme getroffen.
H0 = Es liegt eine E-Mail (kein Spammail) vor.
H1 = Es liegt Spammail vor.

H0 normale E-mail H1 Spam E-mail
H0 annehmmen Alles Ok (1-α) , wir bekommen das E-mail im Posteingang Wir bekommen eine E-mail ins Posteingang, obwohl es eine Spammail ist. Fehler 2. Art (β-Fehler)
H1 annehmen Eine E-mail ist im Spamfach gelandet, obwohl ein normale E-mail vorliegt. Fehler 1. Art (α-Fehler) Alles Ok (1-β). Spammail ist im Spamfach

2) Entscheidungsregeln festlegen

Die Entscheidungsregel werden nicht willkürlich gewählt, denn sie bestimmt die Aussagekraft eines Tests. Wird der kritische Wert zu niedrig oder zu hoch angesetzt, kann es dazuführen, dass die Hypothese unabhängig von der tatsächlichen Wahrscheinlichkeit angenommen bzw. abgelehnt wird. Daher werden Entscheidungsregeln bestimmt, ab wann man eine Hypothese ablehnt oder nicht.

Abwägung der Fehlerwahrscheinlichkeiten

  • Entscheiden, welche Fehlentscheidung die schwerer wiegenden Konsequenzen hat
    –> Werte für die Wahrscheinlichkeiten Fehler 1. Art und 2. Art vor der Untersuchung festlegen
Fehler 1. Art (\(\alpha\))
  • Wahrscheinlichkeit \(H_0\) abzuwählen, obwol es in der Grundgesammtheit gilt

  • meist auf \(\alpha = 0.05\) festgelegt (nicht für jede Situation angemessen)

    Bsp.: teure Therapie mit vielen Nebenwirkungen (Fehler sollte deutlich kleiner als 5% sein)
    –> Therapie nur anwenden, wenn es wirklich gerechtfertigt/nötig ist

Fehler 2. Art (\(\beta\))
  • Wahrscheinlichkeit \(H_1\) abzuwählen, obwol es in der Grundgesammtheit gilt
  • wird betrachtet wenn die Alternativhypothese ebenfalls Gegenstand des Hypothesentest wird
  • meist auf \(\beta = 0.20\) festgelegt
  • Häufig wird nur der Fehler 1. Art betrachtet

Entscheidungsregeln

Überschreitungswahrscheinlichkeit (p)

  • ist die Wahrscheinlichkeit mit der über \(H_0\) entschieden wird

  • wird mit Hilfe der Stichhprobendaten ermittelt

    • \(H_0\) ablehnen, wenn \(p \leq \alpha\)
    • \(H_0\) annehmen, wenn \(p > \alpha\)
  • je gringer \(p\) ausfällt, desto mehr spricht ein Stichprobenergebnis gegen \(H_0\)

  • \(p\) stellt keine Effektstärke dar

3) Stichprobe ziehen

Zufallsgesteuerte Auswahl

Einfache Zufallsstichprobe

  • Aus der Grundgesamtheit werden Teilmengen ohne Zurücklegen erhoben (Grundgesamtheit muss bekannt sein)

    Bsp.: Die Grundgesamtheit, sind alle Schüler in Deutschland. Die Auswahl: Zufällig werden Schüler gezogen

Geschichtete Stichprobe

  • Grundgesamtheit wird nach relevanten Merkmalen in Teilpopulationen aufgeteilt

  • Aus jeder Schicht wird eine Zufallsstichprobe gezogen und zur einer Stichprobe zusammengeführt.

  • Das geschichtete Merkmal und das untersuchte Merkmal steht in einem engen Zusammenhang.

  • Jede Schicht wird entsprenend Ihrer Größe in der Grundgesammtheit gewichtet.

    Bsp.: Teilpopulationen: Schularten Merkmal: Motivation in Mathematik

Klumpenstichprobe

  • Die Klumpenstichprobe ist eine Teilmenge der Grundgesammtheit

  • Grundgesamtheit liegt vor und ist vollständig erhoben

    Bsp.: Die Grundgesamtheit ist, alle Städe mit Schulen. Die Auswahl erfolgt zufällig auf mehrere Schulen, aus diesen Schulen werden alle Schüler erhoben.

Nicht zufallsgesteuerte Auswahl

Quotenstichprobe

  • Die Stichprobe wird so ausgewählt, dass die prozentualen Anteile relevanter Merkmale den Anteil in der Grundgesamtheit entsprechen.

    Bsp.: relevante Merkmale: Alter, sozialer Status, Bildung

Theoriegeleitete Auswahl

  • wie Quotenstichprobe nur zusätzlich auch nah theoretisch interessierenden Merkmalen

    Bsp.: Wie beeinflussen blutdrucksenkende Medikamente bei Männern zwischen 50 und 65 Jahren die Fahrtauglichkeit

Ad-hoc-Auswahl

  • Es werden die ersten zur Verfügung sthenden Personen/Daten in die Stichprobe aufgenommen

    Bsp.: Erste 50 Studenten befragen die einem begegnen

LINK

weitere Arten von Stichproben

Konfidenzintervall

Definition

Unter dem Konfidenzintervall (abgekürzt KI; veraltet- Vertrauensintervall) ist ein statistisches Intervall zu verstehen, das die Lage eines wahren Parameters einer Grundgesamtheit mit einer gewissen Wahrscheinlichkeit lokalisieren soll.

Beispielaufgabe:

Es würde untersucht, wie hoch die Boni der Verkaufsmitarbeiter sind.

ID Boni
1 1000
2 1500
3 900
4 1200

Berechnung:

1) Wahl des Konfidenzniveaus

1-a 0.85 0.9 0.95 0.975 0.99 0.995
z-Wert 1,036 1,282 1,645 1,960 2,326 2,576

2) Berechnung der Standardweichung und des Mittweltwertes

df <- data.frame( boni = c(1000,1500,900,1200)) # Tabelle anlegen
psych::describe(df)

Der Mittelwert liegt bei 1150€ und die SD bei 264.58€

3) Alle Werte in die Formeln für Unter- und Obergrenze einsetzen

\[ x_u = \overline{x} - z * \frac{s_x}{\sqrt{n}} = 1150 - 1,96 * \frac{264.58}{\sqrt{4}} = 890.71\]

\[ x_o = \overline{x} + z * \frac{s_x}{\sqrt{n}}= 1150 + 1,96 * \frac{264.58}{\sqrt{4}} = 1409.28\]

95 Konfidenzintervall
Der KI liegt zwischen 890.71€ und 1409.28€. In diesem Wertebereich liegt zu 95% der wahre Mittelwert der Grundgesamtheit.

Irrtumswahrscheinlichkeit
In Anlehnung an das 95 Konfidenzintervall lässt sich dann auch ganz einfach die Irrtumswahrscheinlichkeit ermitteln. Diese liegt im Falle eines 95% Konfidenzintervalls bei 5%.

Standardfehler der Mittelwerte(SEM)

Definition:
Der Standardfehler des Mittelwerts ist die Standardabweichung der Schätzung des Mittelwerts der Grundgesamtheit durch den Mittelwert der Stichprobe.

\[\widehat{SE} =\frac{\hat{o}}{\sqrt{n}} = \frac{{264.58}}{\sqrt{4}} \]

sprintf("Standardfehler des Mittelwert ist %2f", (264.58/sqrt(4)))

In der Tabelle “psych::describe(df)” ist der letzte Wert der Standardfehler.

Standardfehler vs Standardabweichung

In wissenschaftlichen Arbeiten werden Daten meist mit dem Mittelwert und der Standardabweichung oder dem Mittelwert und dem Standardfehler zusammengefasst. (In sehr wenigen Fällen findet man auch alle drei Angaben, nämlich Mittelwert, Standardabweichung und Standardfehler.) Dies führt zu Verwirrungen über deren Anwendbarkeit und Austauschbarkeit. Allerdings gehören sowohl Mittelwert als auch Standardabweichung zu den deskriptiven Statistiken, während der Standardfehler des Mittelwerts die Grenzen eines zufälligen Stichprobenverfahrens beschreiben.

Einfacher ausgedrückt: der Standardfehler macht eine Aussage darüber wie weit der Mittelwert der Stichprobe wahrscheinlich von dem Mittelwert der Grundgesamtheit entfernt ist, während uns die Standardabweichung sagt, wie weit sich einzelne Datenpunkte innerhalb einer Stichprobe vom Mittelwert der Stichprobe unterscheiden.

In diesem Kurs verwenden wir zur Beschreibung den Mittelwert und die Standardabweichung.

4) Daten auswerten und 5) Entscheiden

Konstruktion einer Prüfgroße:

Im Mittelpunkt eines statistischen Tests steht die Prüfgröße. Der Wert der Prüfgröße wird für die beobachtete Stichprobe errechnet. Dabei ist es notwendig, dass die Stichprobe zufällig erhoben worden ist. Zur Berechnung der jeweiligen Prüfgröße gibt es unterschiedliche Formeln. Diese sind pro Testart auf der Webseite unter dem jeweiligen Test in der Teststatistik zu finden. Zur Vertiefung wird die Prüfgröße eines t-Testes für unabhängige Stichproben berechnet.


Verteilung empirischer Werte in der Stichprobe, empirische Prüfgröße

\[t_{\mathrm{emp}} = \frac {\bar{x}_1-\bar{x}_2} {\widehat{SE_{\delta}}}\]



Anzahl der Freiheitsgrade (df):
Die Anzahl der Freiheitsgrade fasst (eng. number of degrees of freedom, kurz df) die Anzahl der Werte, die frei variiert können, ohne den interessierenden statistischen Parameter zu ändern, zusammen. Oft werden mithilfe einer Stichprobe die unbekannten Parameter einer Grundgesamtheit geschätzt.

\[df=n_1+n_2-2\]

Kritische Prüfgröße (t-kritisch)
Dieser Wert schneidet eine Fläche unter der Prüfgrößenverteilung (t-Verteilung) ab, zu der die extremsten \(\alpha\)-Prozent (\(\alpha\) entspricht der Fehlerwahrscheinlichkeit 1. Art) der t-Werte gehören.

Vergleich von kritischer und empirischer Prüfgröße

Nach der Ermittlung des empirischen t-Wertes muss dieser mit der kritischen Prüfgröße verglichen werden. Alternativ kann die Überschreitungswahrscheinlichkeit (\(p\)-value) mit dem Fehler 1. Art (\(\alpha{}\)-Fehler) verglichen werden.
Der kritische t-Wert wird aus der t-Wert-Tabelle abgelesen. Hierbei spielen die Freiheitsgrade der Stichprobe (\(df\)) und die Fläche der Verteilung eine wichtige Rolle. Bei der Fläche muss man beachten, ob es sich um eine ungerichtete (1 - \(\frac{\alpha{}}{2}\)) oder gerichtete (1 - \(\alpha{}\)) Hypothese handelt. Bei Freiheitsgraden, die nicht in der Tabelle stehen, kann mittels der vorhandenen Werte ein kritischer t-Wert extrapoliert werden.

Zweiseitiger Ablehnungsbereich:<br

Bei einem zweiseitigen Ablehnungsbereich muss die Fehlerwahrscheinlichkeit 1. Art auf beide Enden der Nullhypothesenverteilung aufgeteilt werden. Daher wird die gewählte Fehlerwahrscheinlichkeit 1. Art von der Größe fünf Prozent auf beide Seiten mit jeweils 2.5 Prozent aufgeteilt.

Einseitiger Ablehnungsbereich:<br

Bei einem einseitigen Ablehnungsbereich reicht es aus, das Fehlerrisiko auf der entsprechenden Seite der Nullhypothesenverteilung zu berücksichtigen, auf welcher ein extremes empirisches Ergebnis erwartet wird.

Zusammenfassung Entscheidungskriterien

Für t-Werte:

\[\ |t_{\textrm{empirisch}}| \geq{} t_{\textrm{kritisch},1 - \frac{\alpha}{2}} bzw. t_{\textrm{kritisch},1 - \alpha{}}\textrm{, dann}\:H_0\:\textrm{verwerfen}\]

\[\ |t_{\textrm{empirisch}}| < t_{\textrm{kritisch},1 - \frac{\alpha}{2}} bzw. t_{\textrm{kritisch},1 - \alpha}\textrm{, dann}\:H_0\: \textrm{beibehalten}\]

Für p-Werte (Übergangswahrscheinlichkeiten):

\[\ p > \alpha{} \textrm{, dann}\:H_0\:\textrm{beibehalten}\]

\[\ p \leq \alpha{} \textrm{, dann}\:H_0\:\textrm{verwerfen}\]

