# Datenanalyse & Tabellenverarbeitung
import pandas as pd  # Für den Umgang mit Datenrahmen (DataFrames)
import numpy as np   # Für numerische Operationen, Arrays, mathematische Funktionen

# Visualisierung
import matplotlib.pyplot as plt  # Zum Erstellen von Diagrammen
import seaborn as sns            # Erweiterung für schönere statistische Visualisierungen

# Statistische Tests
from scipy.stats import wilcoxon  # Wilcoxon-Test für verbundene Stichproben
from scipy.stats import norm      # Zugriff auf Standardnormalverteilung (für z-Werte, p-Werte etc.)

# Daten einlesen
wilcoxen = pd.read_excel("wilcoxen.xlsx")  # Pfad ggf. anpassen

wilcoxen["Differenz"] = wilcoxen["Vorher"] - wilcoxen["Nachher"]
print(wilcoxen.head(5))

   ID  Vorher  Nachher  Differenz
0   1      30       40        -10
1   2      31       30          1
2   3      32       33         -1
3   4      31       33         -2
4   5      29       33         -4

print(wilcoxen.info())              # zeigt Spaltennamen, Nicht-Null-Werte, Datentypen 
print(wilcoxen.sample(5))           # gibt 5 zufällige Zeilen aus dem DataFrame – für einen schnellen Datenüberblick
print(wilcoxen.columns)             # listet alle Spaltennamen auf – gut zur Orientierung oder für Zugriff per Index
print(wilcoxen.isnull().sum())      # zählt pro Spalte, wie viele fehlende Werte (NaN) vorhanden sind

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   ID         34 non-null     int64
 1   Vorher     34 non-null     int64
 2   Nachher    34 non-null     int64
 3   Differenz  34 non-null     int64
dtypes: int64(4)
memory usage: 1.2 KB
None
    ID  Vorher  Nachher  Differenz
29  30      33       32          1
9   10      30       40        -10
28  29      31       29          2
31  32      24       38        -14
18  19      29       39        -10
Index(['ID', 'Vorher', 'Nachher', 'Differenz'], dtype='object')
ID           0
Vorher       0
Nachher      0
Differenz    0
dtype: int64

# Boxplots einzeln
plt.figure(figsize=(5, 4))
sns.boxplot(y=wilcoxen["Vorher"], color="hotpink")
plt.title("Boxplot vor dem Rabatt")
plt.ylabel("Vorher")
plt.grid(False)
plt.show()

plt.figure(figsize=(5, 4))
sns.boxplot(y=wilcoxen["Nachher"], color="deepskyblue")
plt.title("Boxplot nach dem Rabatt")
plt.ylabel("Nachher")
plt.grid(False)
plt.show()

# Boxplot - zusammen
plt.figure(figsize=(6, 4))
sns.boxplot(data=[wilcoxen["Vorher"], wilcoxen["Nachher"]], palette=["hotpink", "deepskyblue"])
plt.xticks([0, 1], ["(links) Vorher", "(rechts) Nachher"])
plt.ylabel("Anzahl der verkauften Actionfiguren")
plt.title("Boxplots zu den Verkaufszahlen")
plt.grid(False)
plt.tight_layout()
plt.show()

# Median der Spalte "Vorher"
median_vorher = wilcoxen["Vorher"].median()
print(f"Median für Vor dem Rabatt: {median_vorher:.2f}")

# Median der Spalte "Nachher"
median_nachher = wilcoxen["Nachher"].median()
print(f"Median für Nach dem Rabatt: {median_nachher:.2f}")

# Anzahl der Datenzeilen insgesamt
anzahl_zeilen = len(wilcoxen)
print(f"Anzahl der Daten: {anzahl_zeilen}")

Median für Vor dem Rabatt: 31.00
Median für Nach dem Rabatt: 34.00
Anzahl der Daten: 34

# Statistische Übersicht für "Vorher" und "Nachher"
mediane = wilcoxen[["Vorher", "Nachher"]].agg(["count","median", "min", "max"])

print("Überblick über zentrale Kennwerte:")
print(mediane)

Überblick über zentrale Kennwerte:
        Vorher  Nachher
count     34.0     34.0
median    31.0     34.0
min       17.0     23.0
max       39.0     44.0

# Wilcoxon-Test für gepaarte Stichproben (zweiseitig, ohne exakte Berechnung)
stat, p_value = wilcoxon(wilcoxen["Vorher"], wilcoxen["Nachher"], alternative="two-sided", zero_method="wilcox")

# Ausgabe der Teststatistik
print(f"Wilcoxon-Test (gepaart, zweiseitig):")
print(f"W-Wert: {stat:.2f}")
print(f"p-Wert: {p_value:.4f}")

Wilcoxon-Test (gepaart, zweiseitig):
W-Wert: 69.50
p-Wert: 0.0008

filtered = wilcoxen[wilcoxen["Vorher"] != wilcoxen["Nachher"]]

# Wilcoxon-Test mit gepaarten Daten (exakt möglich, da keine Null-Differenzen)
stat, p_value = wilcoxon(filtered["Vorher"], filtered["Nachher"], alternative="two-sided", zero_method="pratt", correction=False)

print("exakter Wilcoxon-Test:")
print(f"W-Wert: {stat:.2f}")
print(f"p-Wert: {p_value:.8f}")

exakter Wilcoxon-Test:
W-Wert: 69.50
p-Wert: 0.00046011

# Anzahl gültiger Paare (ohne Null-Differenz)
nk = np.sum(wilcoxen["Vorher"] != wilcoxen["Nachher"])

# Wilcoxon-Test ohne Null-Differenzen
filtered = wilcoxen[wilcoxen["Vorher"] != wilcoxen["Nachher"]]
stat, p_val = wilcoxon(filtered["Vorher"], filtered["Nachher"], alternative="two-sided", zero_method="wilcox")

# z-Wert (asymptotisch, wie in R mit qnorm)
mu_w = nk * (nk + 1) / 4
sigma_w = np.sqrt(nk * (nk + 1) * (2 * nk + 1) / 24)
z_stat = (stat - mu_w) / sigma_w

print(f"Z-Wert für den WSR: {z_stat:.2f}")

Z-Wert für den WSR: -3.35

print(f"Anzahl ohne Null: {nk:.0f}")

Anzahl ohne Null: 30

eff = round(abs(z_stat) / np.sqrt(nk), 1)
print(f"Effektstärke: {eff:.1f}")

Effektstärke: 0.6

Pakete einlesen¶

Daten einlesen¶

Differenzspalte anlegen¶

Überblick¶

Hypothese¶

Voraussetzungen für den Wilcoxon-Test¶

Boxplots zur Darstellung der Werte¶

Berechnung der Mediane¶

ALTERNATIV¶

Ergebnisse des Wilcoxon-Tests¶

Ist die Stichprobe hinreichend gross (n > 20), so ist der kritische Wert asymptotisch normalverteilt.¶

Ist dies nicht der Fall, so wird die exakte Signifikanz verwendet.¶

Hinweis und Erklärung¶

Berechnung der Effektstärke¶

Der z - Wert¶

Anzahl der Daten aus dem Datensatz¶

Eine Aussage¶