Aufgabe

Wir haben keine Normalverteilung oder wir kennen die Verteilung nicht. Wir müssen einen Wert (Mittelwert, Median,SD oder ein Perzentil) der Grundgesamtheit und sein Konfidenzintervall schätzen. Wie können wir das tun?

Beschreibung der Methode Bootstrap

Das Bootstrapping-Verfahren ist in der Statistik eine Methode des Resampling, das heißt aus den gegebenen Daten werden wiederholt Stichproben gezogen. Der Vorteil von Bootstrapping ist, dass diese Methode keine Verteilungsannahme trifft. Es handelt sich also um ein non-parametrisches Verfahren und kann auch angewandt werden, wenn Normalverteilungsannahmen des Modells nicht oder nur zweifelhaft erfüllt sind. Des Weiteren ist es ein robuster, einfacher Computer-Algorithmus.

Es gibt viele Bootstrap-Verfahren, unter anderem Bayesian Bootstrap, Smooth Bootstrap, Parametric Bootstrap, Residual Bootstrap, Gaussian process regression Bootstrap, Wild Bootstrap, Block Bootstrap.

Der grundlegende Prozess für das Bootstrapping ist wie folgt:

Nehmen Sie k wiederholte Proben mit Ersatz aus einem bestimmten Datensatz. Berechnen Sie für jede Stichprobe die Statistik, an der Sie interessiert sind. Dies führt zu k verschiedenen Schätzungen für eine bestimmte Statistik, mit denen Sie dann den Standardfehler der Statistik berechnen und ein Konfidenzintervall für die Statistik erstellen können.

Voraussetzungen

Variable “residual.sugar” - metrisch

Histogramm

hist_plot(wine_all,'residual.sugar', bins=100)

Es ist offensichtlich, dass es in diesem Fall keine Normalverteilung gibt.

Deskriptive Statistiken

Ohne Gruppirung

describe(wine_all$residual.sugar)

Für residual.sugar der Mittelwert liegt bei 5.44, SD=4.76, n=6497

Basic Bootstrap

Erstellen wir eine Funktion, die eine Zufallsstichprobe aus unserer Stichprobe zieht und deren Mittelwert und sein 95% KI berechnet.

mean_generator <- function(population, n){
  sample <- sample(population, #unsere ursprüngliche Stichprobe
                   n,# die Größe einer Zufallsstichprobe
                   replace = T) # mit Zurücklegen 
  mean(sample, na.rm = T)
  }

Wiederholung der Zufallsstichprobe aus der Stichprobe und Speicherung der Mittelwerte dieser Zufallsstichprobe.

means_distribution <- numeric(0)
x <- wine_all$residual.sugar

for (i in 1:2000) {
  mean_basic <- mean(x)
  mean_sample <- mean_generator(x, floor(length(x)*0.6))
  means_distribution <- c(means_distribution, mean_sample)
}
bounds <- quantile(means_distribution, probs=c(0.025,0.975))
sprintf("Die Mittelwert der Stichprobe = %.4f ", mean_basic)
[1] "Die Mittelwert der Stichprobe = 5.4432 "
print("Das KI befindet sich im folgenden Wertebereich zu 95% der wahre Mittelwert der Grundgesamtheit:")
[1] "Das KI befindet sich im folgenden Wertebereich zu 95% der wahre Mittelwert der Grundgesamtheit:"
bounds
    2.5%    97.5% 
5.297316 5.592838 

Visualisieren der Berechnung von Mittelwerten für unsere Stichproben:

means_distribution <- data.frame(means_distribution)
hist_plot(means_distribution, 'means_distribution')

Es ist zu erkennen, dass die Mittelwerte der Stichproben normal verteilt sind.

Mit Hilfe boot-Bibliothek

library(boot)
# Bootstrapping mit  Replikationen durchführen
samplemean <- function(x, d) {
  return(mean(x[d], na.rm = T))
}

reps <- boot(x, statistic= samplemean, R=2000)
# Ergebnisse des Boostrappings anzeigen
boot_means <- data.frame('boot_means'= reps$t)
hist_plot(boot_means,'boot_means')

Es ist zu erkennen, dass die Mittelwerte der Stichproben normal verteilt sind.

#95% KI  berechnen
print("Das KI befindet sich im folgenden Wertebereich zu 95% der wahre Mittelwert der Grundgesamtheit:")
[1] "Das KI befindet sich im folgenden Wertebereich zu 95% der wahre Mittelwert der Grundgesamtheit:"
quantile(reps$t, c(0.025, 0.975))
    2.5%    97.5% 
5.323493 5.557901 

Eine Aussage

Es gibt einen Unterschied in den Intervallgrenzen zwischen der selbst geschriebenen Funktion ( 95% KI : [5.298173 ,5.590283] ) und der Bibliothek (95% KI:[5.328805, 5.557393]), da die Bibliothek einen fortgeschrittenen mathematischen Algorithmus verwendet, der es ermöglicht, die Intervallgrenzen im Allgemeinen zu verengen.

Aufgabe 2

Unterscheiden sich die Mittelwerte des “residual.sugar” zwischen Weiß- und Rotwein signifikant?

Hypothesen

  • H0: Es gibt keinen Unterscheid in den Mittelwerten des “residual.sugar” zwischen Weiß- und Rotwein.

  • H1: Es gibt einen Unterscheid in den Mittelwerten des “residual.sugar” zwischen Weiß- und Rotwein.

Wie werden Hypothesen mit einem Bootstrap getestet?

    1. Bootstrap-Verteilungen der Parameter in A und B werden erstellt
    1. Dann wird deren Differenz (Matrixsubtraktion) berechnet
    1. Das Konfidenzintervall Intervall wird dann berechnet
    1. Es muss geprüft werden, ob das Konfidenzintervall auf 0 fällt, und wenn ja, dann die Nullhypothese wird bei einem bestimmten Signifikanzniveau beibehalten.

Histogramm

g1 <-hist_plot(wine_all[wine_all$color=='white',],'residual.sugar', 
               fill = '#eda1ba')+
    xlab('White')
g2 <- hist_plot(wine_all[wine_all$color=='red',],'residual.sugar')+
    xlab('Red')
grid.arrange(arrangeGrob(g1, g2, ncol=2),nrow = 1) 

Es ist offensichtlich, dass es in diesem Fall keine Normalverteilung gibt.

Deskriptive Statistiken

table <- describeBy(wine_all$residual.sugar, group = wine_all$color, mat = T, digits = 4)
table[1:6]

Im Mittel liegt die Variable residual.sugar :

Rotwein: M = 2.5388, SD = 1.4099, n = 1599 Weißwein: M = 6.3914, SD = 5.0721, n = 4898

Basic Bootstrap

# Erstellung der Subsets
red_subset <- wine_all[wine_all$color=='red',]
white_subset <- wine_all[wine_all$color=='white',]
#View(white_subset)

samplemean <- function(x, d) {
  return(mean(x[d], na.rm = T))
}

reps_red <- boot(red_subset$residual.sugar, statistic= samplemean, R=2000)
reps_white <-boot(white_subset$residual.sugar, statistic= samplemean, R=2000)

Ergebnisse des Boostrappings anzeigen mittels Histogramms


boot_means_red <- data.frame('boot_means_red'= reps_red$t)
boot_means_white <- data.frame('boot_means_white'= reps_white$t)

g1 <- hist_plot(boot_means_red,'boot_means_red')
g2 <- hist_plot(boot_means_white,'boot_means_white')

grid.arrange(arrangeGrob(g1,g2, ncol=2), nrow=1)

Offensichtlich eine Normalverteilung

diff_means <- boot_means_red$boot_means - boot_means_white$boot_means
print('95% KI')
[1] "95% KI"
quantile(diff_means, c(0.025, 0.975))
     2.5%     97.5% 
-4.011194 -3.699677 

Eine Aussage

Es gibt einen deutlichen Unterschied in den Mittelwerten von Zucker zwischen Rot ( M = 2.5388, SD = 1.4099, n = 1599)- und Weißweinen (M = 6.3914, SD = 5.0721, n = 4898)
Das 95% Konfidenzintervall vom Differenz der Mittelwerten ([-4.166267; -3.626046 ])auf 0 nicht fällt, deswegen kann H0 verworfen werden.

---
title: "Bootstrapping-Verfahren"
output: html_notebook
---
```{r warning= FALSE, message=FALSE, echo=FALSE}
library(ggplot2)
library(dplyr)
library(car)
library(psych)
```

```{r warning= FALSE, message=FALSE, echo=FALSE}
wine_all <- read.csv('wine_all.csv')
```

## Aufgabe

Wir haben keine Normalverteilung oder wir kennen die Verteilung nicht. Wir müssen einen Wert (Mittelwert, Median,SD oder ein Perzentil) der Grundgesamtheit und sein Konfidenzintervall schätzen.  Wie können wir das tun?

## Beschreibung der Methode Bootstrap

Das Bootstrapping-Verfahren ist in der Statistik eine Methode des Resampling,
das heißt aus den gegebenen Daten werden wiederholt Stichproben gezogen.
Der Vorteil von Bootstrapping ist, dass diese Methode keine Verteilungsannahme trifft. Es handelt sich also um ein non-parametrisches Verfahren und kann auch angewandt werden, wenn Normalverteilungsannahmen des Modells nicht oder nur zweifelhaft erfüllt sind. Des Weiteren ist es ein robuster, einfacher Computer-Algorithmus.

Es gibt viele Bootstrap-Verfahren, unter anderem Bayesian Bootstrap, Smooth Bootstrap, Parametric Bootstrap, Residual Bootstrap, Gaussian process regression Bootstrap, Wild Bootstrap, Block Bootstrap.

Der grundlegende Prozess für das Bootstrapping ist wie folgt:

Nehmen Sie k wiederholte Proben mit Ersatz aus einem bestimmten Datensatz.
Berechnen Sie für jede Stichprobe die Statistik, an der Sie interessiert sind.
Dies führt zu k verschiedenen Schätzungen für eine bestimmte Statistik, mit denen Sie dann den Standardfehler der Statistik berechnen und ein Konfidenzintervall für die Statistik erstellen können.

## Voraussetzungen

+ die Stichprobe ist repräsentativ für die Grundgesamtheit.
+ genügende Stichprobengröße -> es müssen viele Teilstichproben gezogen werden (in der Regel mindestens 1000 mal)

**Variable**
"residual.sugar" - metrisch

**Histogramm**

```{r warning= FALSE, message=FALSE, echo=FALSE}
# eine Funktion fuer Histogramm
hist_plot <- function(data, column, bins=100, fill="#69b3a2"){
      ggplot(data,aes(x=data[,column])) +
        geom_histogram(bins=bins,
                     aes(y=..density..),
                     fill=fill,
                     #color="#e9ecef", 
                     alpha=0.9) +
      geom_density(color="red")+
      theme(legend.position="none")+
      xlab(column)+
      stat_function(fun = dnorm, 
                    args = list(mean = mean(data[,column]), 
                                sd = sd(data[,column])))
  }

```

```{r}
hist_plot(wine_all,'residual.sugar', bins=100)
```
Es ist offensichtlich, dass es in diesem Fall keine Normalverteilung gibt.

### Deskriptive Statistiken 

**Ohne Gruppirung**

```{r}
describe(wine_all$residual.sugar)
```
Für **residual.sugar** der Mittelwert liegt bei 5.44, SD=4.76, n=6497


### Basic Bootstrap

Erstellen wir eine Funktion, die eine Zufallsstichprobe aus unserer Stichprobe zieht und deren Mittelwert und sein 95% KI berechnet.

```{r}
mean_generator <- function(population, n){
  sample <- sample(population, #unsere ursprüngliche Stichprobe
                   n,# die Größe einer Zufallsstichprobe
                   replace = T) # mit Zurücklegen 
  mean(sample, na.rm = T)
  }
```

Wiederholung der Zufallsstichprobe aus der Stichprobe und Speicherung der Mittelwerte dieser Zufallsstichprobe.
```{r}
means_distribution <- numeric(0)
x <- wine_all$residual.sugar

for (i in 1:2000) {
  mean_basic <- mean(x)
  mean_sample <- mean_generator(x, floor(length(x)*0.6))
  means_distribution <- c(means_distribution, mean_sample)
}
```

```{r}
bounds <- quantile(means_distribution, probs=c(0.025,0.975))
sprintf("Die Mittelwert der Stichprobe = %.4f ", mean_basic)
print("Das KI befindet sich im folgenden Wertebereich zu 95% der wahre Mittelwert der Grundgesamtheit:")
bounds
```
Visualisieren  der Berechnung von Mittelwerten für unsere Stichproben:
```{r}
means_distribution <- data.frame(means_distribution)
hist_plot(means_distribution, 'means_distribution')
```
Es ist zu erkennen, dass die Mittelwerte der Stichproben normal verteilt sind.

### Mit Hilfe boot-Bibliothek
```{r}
library(boot)
```

```{r}
# Bootstrapping mit  Replikationen durchführen
samplemean <- function(x, d) {
  return(mean(x[d], na.rm = T))
}

reps <- boot(x, statistic= samplemean, R=2000)

```
```{r}
# Ergebnisse des Boostrappings anzeigen
boot_means <- data.frame('boot_means'= reps$t)
hist_plot(boot_means,'boot_means')
```
Es ist zu erkennen, dass die Mittelwerte der Stichproben normal verteilt sind.

```{r}
#95% KI  berechnen
print("Das KI befindet sich im folgenden Wertebereich zu 95% der wahre Mittelwert der Grundgesamtheit:")
quantile(reps$t, c(0.025, 0.975))
```
### Eine Aussage

Es gibt einen Unterschied in den Intervallgrenzen zwischen der selbst geschriebenen Funktion ( 95% KI : [5.298173 ,5.590283] ) und der Bibliothek (95% KI:[5.328805, 5.557393]), da die Bibliothek einen fortgeschrittenen mathematischen Algorithmus verwendet, der es ermöglicht, die Intervallgrenzen im Allgemeinen zu verengen.

### Aufgabe 2

Unterscheiden sich die Mittelwerte des "residual.sugar" zwischen Weiß- und Rotwein signifikant?

### Hypothesen

+ H0: Es gibt keinen Unterscheid in den Mittelwerten des "residual.sugar" zwischen Weiß- und Rotwein.

+ H1: Es gibt einen Unterscheid in den Mittelwerten des "residual.sugar" zwischen Weiß- und Rotwein.


### Wie werden Hypothesen mit einem Bootstrap getestet?
 
+ 1) Bootstrap-Verteilungen der Parameter in A und B werden erstellt
+ 2) Dann wird deren Differenz (Matrixsubtraktion) berechnet
+ 3) Das Konfidenzintervall Intervall wird dann berechnet
+ 4) Es muss geprüft werden, ob das Konfidenzintervall auf 0 fällt, und wenn ja, dann die Nullhypothese wird bei einem bestimmten Signifikanzniveau beibehalten.


### Histogramm

```{r}
g1 <-hist_plot(wine_all[wine_all$color=='white',],'residual.sugar', 
               fill = '#eda1ba')+
    xlab('White')
g2 <- hist_plot(wine_all[wine_all$color=='red',],'residual.sugar')+
    xlab('Red')
grid.arrange(arrangeGrob(g1, g2, ncol=2),nrow = 1) 
```
Es ist offensichtlich, dass es in diesem Fall keine Normalverteilung gibt.

### Deskriptive Statistiken
```{r}
table <- describeBy(wine_all$residual.sugar, group = wine_all$color, mat = T, digits = 4)
table[1:6]
```
Im Mittel liegt die Variable **residual.sugar** : <br>

Rotwein: M = 2.5388, SD = 1.4099, n = 1599
Weißwein: M = 6.3914, SD = 5.0721, n =  4898

### Basic Bootstrap
```{r}
# Erstellung der Subsets
red_subset <- wine_all[wine_all$color=='red',]
white_subset <- wine_all[wine_all$color=='white',]
#View(white_subset)
```


```{r}

samplemean <- function(x, d) {
  return(mean(x[d], na.rm = T))
}

reps_red <- boot(red_subset$residual.sugar, statistic= samplemean, R=2000)
reps_white <-boot(white_subset$residual.sugar, statistic= samplemean, R=2000)
```

Ergebnisse des Boostrappings anzeigen mittels Histogramms
```{r}

boot_means_red <- data.frame('boot_means_red'= reps_red$t)
boot_means_white <- data.frame('boot_means_white'= reps_white$t)

g1 <- hist_plot(boot_means_red,'boot_means_red')
g2 <- hist_plot(boot_means_white,'boot_means_white')

grid.arrange(arrangeGrob(g1,g2, ncol=2), nrow=1)
```
Offensichtlich eine Normalverteilung

```{r}
diff_means <- boot_means_red$boot_means - boot_means_white$boot_means
print('95% KI')
quantile(diff_means, c(0.025, 0.975))
```

### Eine Aussage
Es gibt einen deutlichen Unterschied in den Mittelwerten von Zucker zwischen Rot ( M = 2.5388, SD = 1.4099, n = 1599)- und Weißweinen (M = 6.3914, SD = 5.0721, n =  4898)  
Das 95% Konfidenzintervall  vom Differenz der Mittelwerten ([-4.166267; -3.626046 ])auf 0 nicht fällt, deswegen kann H0 verworfen werden.



