# Datenhandling und Berechnungen
import pandas as pd
import numpy as np

# Statistische Tests und Maße
from scipy.stats import (
    ttest_rel,     # gepaarter t-Test
    mannwhitneyu,  # Mann-Whitney-U-Test (optional)
    pearsonr,      # Korrelation
    skew,          # Schiefe
    kurtosis,      # Kurtosis
    t              # t-Verteilung (z. B. für Konfidenzintervall)
)

# Visualisierung
import matplotlib.pyplot as plt
import seaborn as sns

# Datei einlesen
ttestVER = pd.read_csv("ttestVER.txt", sep=";", encoding="utf-8")

# Ersten Überblick über die Daten anzeigen
print(ttestVER.head())

   Fremdeinschaetzung  Selbsteinschaetzung
1                  25                   30
2                  26                   32
3                  20                   23
4                  21                   27
5                  24                   24

kritischer_wert = t.ppf(0.975, df=28)
print(f"Kritischer t-Wert für df=28 und α=0.05 (zweiseitig): {kritischer_wert:.4f}")

Kritischer t-Wert für df=28 und α=0.05 (zweiseitig): 2.0484

# Differenz berechnen
zwischen = ttestVER["Fremdeinschaetzung"] - ttestVER["Selbsteinschaetzung"]

# Neue Spalte an den DataFrame anhängen
ttestVER["Differenz"] = zwischen

print(ttestVER.head(5))

   Fremdeinschaetzung  Selbsteinschaetzung  Differenz
1                  25                   30         -5
2                  26                   32         -6
3                  20                   23         -3
4                  21                   27         -6
5                  24                   24          0

# Spalte "Differenz" wieder löschen
#ttestVER.drop(columns="Differenz", inplace=True)

# Optional anzeigen
# print(ttestVER.head(5))


# Nur Zeilen löschen, in denen NA in den relevanten Spalten vorkommt
#ttestVER.dropna(subset=["Fremdeinschaetzung", "Selbsteinschaetzung"], inplace=True

# Histogramm der Differenz
plt.figure(figsize=(6, 4))

# Stil setzen (optional)
sns.set(style="whitegrid")

# Besseres Histogramm
sns.set(style="white")  # kein 'whitegrid'

plt.figure(figsize=(8, 5))
sns.histplot(ttestVER["Differenz"], bins=6, color="#d63384", edgecolor="black")

# Achsentitel und Beschriftung
plt.xlabel("Differenz: Selbst- vs. Fremdeinschätzung (Extraversion)", fontsize=12)
plt.ylabel("Häufigkeit", fontsize=12)
plt.title("Histogramm der Differenz", fontsize=14, weight='bold')

# Achsenanpassung und Layout
plt.xticks(fontsize=10)
plt.yticks(fontsize=10)
plt.tight_layout()
plt.show()
#

<Figure size 600x400 with 0 Axes>

# QQ-Plot
plt.figure(figsize=(6, 4))
stats.probplot(ttestVER["Differenz"], dist="norm", plot=plt)
plt.title("QQPlot für die Var. Differenz")
plt.grid(True)
plt.show()

sns.regplot(
    x=ttestVER["Selbsteinschaetzung"],
    y=ttestVER["Fremdeinschaetzung"],
    line_kws={"color": "red"},
    scatter_kws={"color": "#0072B2", "edgecolor": "black"}
)

<Axes: xlabel='Selbsteinschaetzung', ylabel='Fremdeinschaetzung'>

# Pearson-Korrelation berechnen
korrelation, p_wert = pearsonr(ttestVER["Selbsteinschaetzung"], ttestVER["Fremdeinschaetzung"])

# Ergebnistabelle erstellen
korrelation_ergebnis = pd.DataFrame([{
    "Test": "Pearson-Korrelation",
    "r (Korrelationskoeffizient)": f"{korrelation:.4f}",
    "p-Wert": f"{p_wert:.4f}"
}])

# Tabelle anzeigen
print("Ergebnisse der Korrelationsanalyse:")
print(korrelation_ergebnis.to_string(index=False))

Ergebnisse der Korrelationsanalyse:
               Test r (Korrelationskoeffizient) p-Wert
Pearson-Korrelation                      0.7653 0.0000

# Statistische Übersicht ähnlich wie describe() aus dem psych-Paket in R
beschreibung = ttestVER.describe().T  # transponieren für bessere Lesbarkeit
## Zusätzliche Werte wie Schiefe und Kurtosis hinzufügen (optional)
from scipy.stats import skew, kurtosis

beschreibung["skew"] = ttestVER.skew()
beschreibung["kurtosis"] = ttestVER.kurtosis()

# Ergebnis anzeigen
print("Deskriptive Statistik:")
print(beschreibung.round(2))

Deskriptive Statistik:
                     count   mean   std   min   25%   50%   75%   max  skew  \
Fremdeinschaetzung    29.0  21.79  4.55  14.0  19.0  21.0  25.0  32.0  0.45   
Selbsteinschaetzung   29.0  26.52  5.44  15.0  25.0  26.0  30.0  38.0 -0.23   
Differenz             29.0  -4.72  3.52 -12.0  -7.0  -5.0  -3.0   3.0 -0.12   

                     kurtosis  
Fremdeinschaetzung      -0.22  
Selbsteinschaetzung      0.65  
Differenz               -0.21

# Gepaarter t-Test: Selbst- vs. Fremdeinschätzung
t_stat, p_val = ttest_rel(ttestVER["Selbsteinschaetzung"], ttestVER["Fremdeinschaetzung"])

# Freiheitsgrade
df = len(ttestVER) - 1

# Konfidenzintervall (95 %)
diff = ttestVER["Selbsteinschaetzung"] - ttestVER["Fremdeinschaetzung"]
mean_diff = np.mean(diff)
sem = np.std(diff, ddof=1) / np.sqrt(len(diff))
ci = t.ppf(0.975, df) * sem
ci_low = mean_diff - ci
ci_high = mean_diff + ci


# Tabelle erstellen
ttest_ergebnisse = pd.DataFrame([{
    "Test": "Gepaarter t-Test",
    "t-Wert": f"{t_stat:.4f}",
    "df": df,
    "p-Wert": f"{p_val:.4f}",
    "95%-KI": f"[{ci_low:.4f}, {ci_high:.4f}]",
}])

# Tabelle anzeigen
print("Ergebnisse des gepaarten t-Tests:")
print(ttest_ergebnisse.to_string(index=False))

Ergebnisse des gepaarten t-Tests:
            Test t-Wert  df p-Wert           95%-KI
Gepaarter t-Test 7.2184  28 0.0000 [3.3835, 6.0647]

# Effektstärke berechnen
eff1 = abs(t_stat) / np.sqrt(t_stat**2 + df)
print("Effektstärke:")
print(eff1)

Effektstärke:
0.806510503660241

# Gruppen definieren
gruppe1 = ttestVER["Selbsteinschaetzung"]
gruppe2 = ttestVER["Fremdeinschaetzung"]

# Mittelwerte
mean1 = np.mean(gruppe1)
mean2 = np.mean(gruppe2)

# Standardabweichungen
sd1 = np.std(gruppe1, ddof=1)
sd2 = np.std(gruppe2, ddof=1)

# Hedges' g
g = (mean2 - mean1) / (sd2-sd1)

# Ausgabe
print(f"Hedges' g: {hedges_g:.4f}")

Hedges' g: 0.9288

Pakete einlesen¶

Daten einlesen¶

Berechnung der Teststatistik¶

Signifikanz der Teststatistik¶

Hypothese¶

Voraussetzungen des t-Tests für abhängige Stichproben¶

Erzeuge neue Variable¶

Falls es Probleme gibt¶

Pruefung der Verteilung¶

Histogramm zur Prüfung des Normalverteilung¶

ALTERNATIVE¶

QQ-Diagramm zur Prüfung des Normalverteilung¶

Deskriptive Statistiken und Korrelation¶

Korrelation¶

Deskriptive Statistiken¶

Ergebnisse des t-Tests für abhängige Stichproben¶

Berechnung der Effektstärke¶

Cohen und Pearson¶

ALTERNATIV¶

Hedges g¶

Eine Aussage¶