Normalverteilung

Im folgenden Teil wird die Dichtefunktion (für stetige Verteilungen) bzw. Wahrscheinlichkeitsfunktion (für diskrete Verteilungen) dargestellt.

Die Normalverteilung oder Gauß-Verteilung ist eine stetige Verteilung (reellen Zahlen z. B. -1,3.5, 0.5 … ) und stellt die wichtigste Wahrscheinlichkeitsverteilung dar. Die Dichtefunktion ist dabei durch die sogenannte Gaußsche Glockenkurve gegeben.

\[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}(\frac{x -\mu}{\sigma})^2}\]

plot(function(x) dnorm(x, mean=0, sd=sqrt(1)), 
     from=-4, to=8, lwd=2, 
        ylab="Dichte", main = "(a)     Normalverteilung")
plot(function(x) dnorm(x, mean=2, sd=sqrt(5)), 
     from=-4, to=8, lwd=2, 
       col="blue", lty=2, add=TRUE)    
legend("topright", inset=0.02, legend=c("N(0,1)", "N(2,5)"), col=c("black", "blue"), lwd=c(2,2), lty=c(1,2))

So sehen normalverteilte Daten aus.

a = rnorm(10000, mean = 3)
hist(a, breaks = 100, main = "Histogramm - Normalverteilung")

Histogramm zur Darstellung der Normalverteilung

Normalverteilte Zufallsvariablen in der Praxis sehr beliebt. Biologische Größen sind normalverteilt wie etwa die Körpergröße, der Intelligenzquotienten oder Sozialkompetenz. Physikalische Großen meist auch wie etwa die durchschnittliche Sonnenscheindauer.

Der mathematische Hintergrund ist der zentrale Grenzwertsatz, der besagt, dass unter bestimmten allgemeinen Voraussetzungen die Summe aus n unabhängigen, identisch verteilten Zufallsvariablen wiederum normalverteilt ist.

Standardormalverteilung

Eine besondere Form der Normalverteilung ist die Standardnormalverteilung. Für sie gilt, dass der Mittelwert bei 0 liegt und die Standardabweichung bei 1, also µ=0 und σ=1. Damit nimmt die Funktionsgleichung folgende Form an:

\[f(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}^2}\]

x = rnorm(10000)
hist(x, breaks = 100, main = "Histogramm - Standardnormalverteilung")

Histogramm zur Darstellung der Standardnormalverteilung

Durch Standardisierung bzw. z-Transformation kann eine Normalverteilung in eine Standardnormalverteilung überführt werden. Auf diese Weise können unterschiedliche Verteilungen besser miteinander verglichen werden. Dazu setzt man als neue Variable

\[z = (x-µ)/σ \]

z <- (a-mean(a))/sd(a)
summary(z)
     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
-3.733200 -0.661936  0.002156  0.000000  0.669903  4.328027 

\(\chi^2\)-Verteilung

Die Chi-Quadrat-Verteilung bzw. χ 2 ist eine stetige Wahrscheinlichkeitsverteilung über der Menge der nichtnegativen reellen Zahlen (z.B 2.3, 445, 0.5). Die Chi-Quadrat-Verteilung ist eine der Verteilungen, die aus der Normalverteilung abgeleitet werden kann.


plot(function(x) dchisq(x, df=4), from=0, to=50, lwd=2, 
    ylab="Dichte", main = "(b)     Chi-Quadrat-Verteilung")
plot(function(x) dchisq(x, df=20), from=0, to=50, lwd=2, 
    col="blue", lty=2, add=TRUE)
legend("topright", inset=0.02, legend=c(expression({chi^2}(4)), expression({chi^2}(20))), col=c("black", "blue"), lwd=c(2,2), lty=c(1,2))

So sieht die Chi^2 - Verteilung aus

Von der chi^2 zur Normalverteilung

plot(function(x) dchisq(x, df=50), from=30, to=150, lwd=2, 
    ylab="Dichte", main = "(b)     Chi-Quadrat-Verteilung")
plot(function(x) dchisq(x, df=100), from=30, to=150, lwd=2, 
    col="blue", lty=2, add=TRUE)
plot(function(x) dnorm(x, mean = 100, sd = sqrt(200)), from=30, to=150, lwd=2, col="red", lty=2, add=TRUE) legend("topright", inset=0.02, legend=c(expression({chi^2}(50)), expression({chi^2}(100)), expression(N(100,200))), col=c("black", "blue", "red"), lwd=c(2,2,2), lty=c(1,2, 2))

Die Chi^2 - Verteilung nähert sich der Normalverteilung.

Die \(\chi^2\)-Verteilung findet selten Anwendung in der Realität. Hauptsächlich wird sie für die Schätzung von Verteilungsparametern, wie zum Beispiel der Varianz , und bei Hypothesentests angewendet.

\(t\)-Verteilung

Die t-Verteilung ist Quasie eine Verwandte der der Normalverteilung. Normalverteilung unterschätzen bei kleinen Stichprobenumfängen bestimmte statistische Größen. Dieser Effekt kann aber ausgeglichen werden, t-Verteilung verwendet. Die t-Verteilung hat ein breiteres Enden als die Normalverteilung. Mit steigenden Stichprobenumfänge nähern sich die beiden Verteilungen an bis sie sind schließlich identisch sind.

Eine Zufallsvariable T heißt t-verteilt mit n Freiheitsgraden, in Zeichen T∼t(n), n∈N, falls sie als Quotient zweier unabhängigen Zufallsvariablen geschrieben werden kann, wobei im Zähler Z ∼ N(0,1)und im Nenner die Wurzel einer standardisierten, d. h. in diesem Fall durch die Anzahl der Freiheitsgradengeteilten χ2 (n)-verteilten Zufallsvariable Y steht:

\[T = \frac{Z}{\sqrt{Y/n}} ⇒ T ∼ t(n)\]


plot(function(x) dt(x, df=30), from=-6, to=6, lwd=2, 
    ylab="Dichte", main = "(c)     t-Verteilung")
plot(function(x) dt(x, df=2), from=-6, to=6, lwd=2, 
    col="blue", lty=2, add=TRUE)
legend("topright", inset=0.02, legend=c("t(30)", "t(2)"), col=c("black", "blue"), lwd=c(2,2), lty=c(1,2))

NA
NA

So sieht die t-Verteilung aus.

Von der t-Verteilung zur Normalverteilung

plot(function(x) dnorm(x, mean=0, sd=sqrt(1)), 
     from=-4, to=4, lwd=2, 
     ylab="Dichte", main = "(a)     Normalverteilung")
plot(function(x) dt(x, df = 30), 
     from=-4, to=4, lwd=2, 
        col="blue", lty=2, add=TRUE)
legend("topright", inset=0.02, legend=c("N(0,1)", "t(30)"), col=c("black", "blue"), lwd=c(2,2), lty=c(1,2))

Die t-Verteilung nähert sich der Normalverteilung mit N = 30.

Die t-Verteilung spielt eine wichtige Rolle beim Hypothesentests und Konfidenzintervalle.

\(F\)-Verteilung

Die F-Verteilung oder Fisher-Verteilung ist eine stetige Wahrscheinlichkeitsverteilung.Die F-Verteilung verwendet zwei unabhängige Freiheitsgrade als Parameter.

Eine Zufallsvariable F heißt F-verteilt mit m Zählergraden undnNennergraden, in Zeichen F∼F(m,n),m, n∈ \(\mathbb{N}\), falls sie als Quotient zweier unabhängigen , standardisierter, χ2 -verteilter Zufallsvariablen Y1∼χ2(m) ,Y2∼χ2(n) geschrieben werden kann:

\[F= \frac {Y_1/m}{Y_2/n} ⇒ F ∼ F(m,n)\]

plot(function(x) df(x, df1=4, df2=30), from=0, to=8, lwd=2, 
    ylab="Dichte", main = "(d)     F-Verteilung")
plot(function(x) df(x, df1=4, df2=2), from=0, to=8, lwd=2, 
    col="blue", lty=2, add=TRUE)
legend("topright", inset=0.02, legend=c("F(4,30)", "F(4,2)"), col=c("black", "blue"), lwd=c(2,2), lty=c(1,2))

Die F-Verteilung sieht so aus.

Von der F-Verteilung zur chi^2 Verteilung (Transformationssatz)

plot(function(x) df(x, df1=4, df2=30), from=0, to=8, lwd=2, 
    ylab="Dichte", main = "(d)     F-Verteilung")
plot(function(x) df(x/4, df1=4, df2=30)/4, from=0, to=8, lwd=2,
col="red", lty=2, add=TRUE)
plot(function(x) dchisq(x, df=4), from=0, to=8, lwd=2, col="darkgreen", lty=1, add=TRUE) legend("topright", inset=0.02, legend=c(expression(F(4,30)), expression(4 * F(4,30)), expression({chi^2}(4))), col=c("black", "red", "darkgreen"), lwd=c(2,2,2), lty=c(1,2, 2))

Die F-Verteilung nähert sich der Chi- Verteilung.

Wichtige Anwendungsgebiete der F-Verteilung sind statistische Testverfahren, etwa der Vergleich von Varianzen bei normalverteilten Variablen (Varianzanalyse).

Poisson-Verteilung

Die Poisson-Verteilung richtet sich an eine diskrete Wahrscheinlichkeitsverteilung mit Zählenwerten. Kurz um: Wie oft tritt ein bestimmtes, zählbares Ereignis ein, wenn man es sehr oft wiederholt?

\[P(X = x) = \frac{\lambda ^x}{x!}*e^{-\lambda}\] λ = ist der Erwartungswert einer binomialverteilten Zufallsgröße ( n! ist die Fakultät der natürlichen Zahl n e ist die Euler’sche Zahl

library(tidyverse)

# Build Poisson distributions

p_dat <- map_df(1:10, ~ tibble(
  l = paste(.),
  x = 0:20,
  y = dpois(0:20, .)
))

# Build Normal distributions

n_dat <- map_df(1:10, ~ tibble(
  l = paste(.),
  x = seq(0, 20, by = 0.001),
  y = dnorm(seq(0, 20, by = 0.001), ., sqrt(.))
))

# Use ggplot2 to plot

ggplot(n_dat, aes(x, y, color = factor(l, levels = 1:10))) +
  geom_line() +
  geom_point(data = p_dat, aes(x, y, color = factor(l, levels = 1:10))) +
  labs(color = "Lambda:") +
  theme_minimal()

So sieht die Poisson-Verteilung aus. Sie nähert sich er Normalverteilung. Ein klassisches Beispiel der Poisson-Verteilung ist die Anzahl der Soldaten der preußischen Armee, die pro Jahr durch einen Pferdetritt versehentlich getötet wurden. Die Anzahl der Mutationen eines bestimmten DNA-Strang pro Zeiteinheit oder die Anzahl der Besucher einer Website pro Minute sind weitere sehr gute Beispiele.

