Welcher statistische Test
ist der richtige?

Interaktive Entscheidungshilfe: Beantworten Sie vier kurze Fragen zu Ihrer Fragestellung und Datenstruktur — und Sie erfahren in Sekunden, welcher statistische Test zu Ihren Daten passt. Inklusive Begründung, Voraussetzungen und Alternative bei verletzten Annahmen.

Test-Wizard starten

Test-Wizard

Finden Sie den passenden Test

Beantworten Sie die folgenden Fragen Schritt für Schritt. Sie können jederzeit zurückgehen oder von vorne starten.

Schritt 1 von 4 25%

Was möchten Sie untersuchen?

Wählen Sie aus, was das Ziel Ihrer statistischen Auswertung ist.

Wie viele Gruppen vergleichen Sie?

Eine Gruppe ist z. B. „männliche Teilnehmer". Vergleichen Sie zwei (m/w) oder mehr (m/w/divers) Gruppen?

Welches Skalenniveau haben Ihre Variablen?

Das Skalenniveau bestimmt, welcher Zusammenhangs-Test geeignet ist.

Welchen Typ hat die vorherzusagende Variable?

Die abhängige Variable (AV) ist das, was Sie vorhersagen möchten.

Sind die Stichproben abhängig oder unabhängig?

Abhängig (gepaart) = dieselben Personen mehrfach gemessen. Unabhängig = unterschiedliche Personen.

Sind die Daten normalverteilt?

Geprüft mit Shapiro-Wilk-Test (kleine Stichproben) oder Kolmogorov-Smirnov-Test. Ab n > 30 darf bei der Wahl des Tests häufig auch der zentrale Grenzwertsatz angewandt werden.

Sind die Daten normalverteilt?

Bei metrischen Variablen entscheidet die Normalverteilung über Pearson- oder Spearman-Korrelation.

Empfohlener Test

—

—

Voraussetzungen

Falls Voraussetzungen verletzt

Unsicher mit der Umsetzung in R, SPSS oder Python? Wir übernehmen die statistische Auswertung — termingerecht und nachvollziehbar dokumentiert.

Unverbindlich anfragen

Wann welcher statistische Test?

Die Frage „Welcher statistische Test ist der richtige?" begleitet jede empirische Arbeit — von der Bachelorarbeit bis zur publizierten Studie. Die Antwort hängt nicht vom Bauchgefühl ab, sondern von vier klar definierten Kriterien: Ihrer Fragestellung, dem Skalenniveau Ihrer Daten, der Anzahl der Gruppen oder Variablen und der Verteilung Ihrer Daten. Wenn Sie diese vier Punkte kennen, ergibt sich der passende Test fast automatisch.

Dieser Leitfaden erklärt die wichtigsten statistischen Tests systematisch — mit Anwendungsfällen, Voraussetzungen und einer Übersicht, welche Software (SPSS, R, Python, Excel) den jeweiligen Test umsetzt. Wer eine schnelle Orientierung sucht, nutzt unser interaktives Tool oben.

Übersicht: Wann welcher statistische Test? Vom Ziel der Analyse zum passenden Verfahren.

Die wichtigsten statistischen Tests im Überblick

Im Folgenden finden Sie eine kompakte Übersicht der gängigsten Tests — gegliedert nach Anwendungszweck. Jeder Test hat eigene Voraussetzungen und Anwendungsbereiche. Im Zweifel hilft Ihnen unser Wizard oben.

1. t-Test

Der t-Test vergleicht Mittelwerte und kommt in drei Varianten vor:

Einstichproben-t-Test: Vergleicht den Mittelwert einer Gruppe mit einem Referenzwert (z. B. IQ einer Klasse vs. Populationsmittel 100).
Unabhängiger t-Test: Vergleicht die Mittelwerte zweier unabhängiger Gruppen (z. B. Frauen vs. Männer).
Gepaarter t-Test: Vergleicht zwei Messungen derselben Personen (z. B. Gewicht vor vs. nach einer Diät).

Voraussetzungen: Metrische Daten, annähernd Normalverteilung, bei unabhängigen Stichproben zusätzlich Varianzhomogenität (Levene-Test).

2. ANOVA (Varianzanalyse)

Die ANOVA vergleicht die Mittelwerte von drei oder mehr Gruppen gleichzeitig. Sie verhindert die Inflation des Alpha-Fehlers, die bei mehreren t-Tests entstünde. Varianten:

Einfaktorielle ANOVA: Ein Gruppierungsfaktor (z. B. Therapieform).
Mehrfaktorielle ANOVA: Mehrere Faktoren gleichzeitig (z. B. Therapieform × Geschlecht).
Messwiederholungs-ANOVA: Dieselben Personen zu mehreren Zeitpunkten gemessen.

Voraussetzungen: Metrische abhängige Variable, Normalverteilung in jeder Gruppe, Varianzhomogenität, Unabhängigkeit der Beobachtungen.

3. Chi-Quadrat-Test

Der Chi-Quadrat-Test prüft, ob zwei kategoriale Variablen voneinander unabhängig sind. Klassisches Beispiel: Hängt das Wahlverhalten (Partei A/B/C) vom Bundesland ab?

Voraussetzungen: Mindestens nominal skalierte Daten, in jeder Zelle der Kreuztabelle erwartete Häufigkeit > 5. Bei kleineren Häufigkeiten wird der exakte Test nach Fisher verwendet.

4. Korrelationsanalysen

Korrelationskoeffizienten messen die Stärke des Zusammenhangs zwischen zwei Variablen. Werte zwischen −1 und +1:

Pearson-Korrelation (r): Für metrische, normalverteilte Variablen mit linearer Beziehung.
Spearman-Korrelation (ρ): Für ordinale Daten oder bei monotonem, aber nicht linearem Zusammenhang.
Kendalls Tau (τ): Alternative zu Spearman bei vielen Rangbindungen.

Skalenniveaus und ihre passenden Tests — je höher das Niveau, desto mehr Methoden stehen zur Verfügung.

5. Regression

Die Regressionsanalyse modelliert den Einfluss einer oder mehrerer unabhängiger Variablen (Prädiktoren) auf eine abhängige Variable. Anders als bei der Korrelation interessiert die Richtung des Einflusses.

Lineare Regression: Metrische abhängige Variable (z. B. Einkommen vorhersagen).
Logistische Regression: Binäre abhängige Variable (z. B. Krankheit ja/nein vorhersagen).
Multinomiale Regression: Kategoriale AV mit mehr als zwei Stufen.

6. Nicht-parametrische Tests

Wenn Daten nicht normalverteilt sind, oder das Skalenniveau nur ordinal ist, weichen Sie auf nicht-parametrische Tests aus. Diese sind robuster, aber etwas weniger trennscharf.

Parametrischer Test	Nicht-parametrische Alternative	Anwendung
Unabhängiger t-Test	Mann-Whitney-U-Test	2 unabhängige Gruppen
Gepaarter t-Test	Wilcoxon-Vorzeichen-Rang-Test	2 verbundene Messungen
Einfaktorielle ANOVA	Kruskal-Wallis-Test	3+ unabhängige Gruppen
Messwiederholungs-ANOVA	Friedman-Test	3+ verbundene Messungen
Pearson-Korrelation	Spearman-Korrelation	Zusammenhang zweier Variablen

Skalenniveaus verstehen

Das Skalenniveau ist der wichtigste Faktor bei der Wahl des Tests. Je höher das Niveau, desto mehr Verfahren stehen Ihnen offen:

Nominalskala: Reine Kategorien ohne Reihenfolge (Geschlecht, Familienstand).
Ordinalskala: Kategorien mit Reihenfolge, aber ungleichen Abständen (Schulnoten, Likert-Skala).
Intervallskala: Gleiche Abstände, aber kein absoluter Nullpunkt (Temperatur in °C).
Verhältnisskala: Gleiche Abstände und absoluter Nullpunkt (Gewicht, Einkommen).

Mehr dazu in unserem Leitfaden zur statistischen Auswertung.

Testvoraussetzungen prüfen

Bevor Sie einen parametrischen Test anwenden, müssen Sie dessen Voraussetzungen prüfen — sonst verlieren die Ergebnisse ihre Gültigkeit.

Normalverteilung prüfen

Shapiro-Wilk-Test: Bei kleinen Stichproben (n < 50). Wenn p > 0,05 → Normalverteilung wird nicht verworfen.
Kolmogorov-Smirnov-Test: Bei größeren Stichproben — allerdings sehr streng, manchmal liefert er bei n > 200 schon falsche Verwerfungen.
Q-Q-Plot: Visuelle Methode — Punkte sollten auf einer geraden Linie liegen.
Histogramm: Symmetrische Glockenform spricht für Normalverteilung.
Schiefe und Kurtosis: Werte zwischen −1 und +1 sind unkritisch.

Varianzhomogenität prüfen

Levene-Test: Standardverfahren in SPSS, R und Python. Wenn p > 0,05 → Varianzen gelten als homogen.
Bartlett-Test: Alternative bei normalverteilten Daten.
Bei Verletzung: Welch-Korrektur beim t-Test oder Welch-ANOVA verwenden.

Häufige Fehler bei der Testwahl

Mehrere t-Tests statt ANOVA: Bei drei Gruppen führen drei Einzelvergleiche zu Alpha-Fehler-Inflation. Korrekt ist eine ANOVA mit Post-Hoc-Tests.
Ignorieren des Skalenniveaus: Mittelwerte für nominale Daten (z. B. „durchschnittliches Geschlecht") sind sinnlos.
Voraussetzungen nicht geprüft: Parametrische Tests bei nicht-normalverteilten Daten liefern verzerrte Ergebnisse.
Falsche Stichprobenstruktur: Unabhängigen t-Test verwenden, obwohl es sich um verbundene Messungen handelt.
Korrelation als Kausalität: Eine Korrelation belegt keinen Ursache-Wirkungs-Zusammenhang.
p-Hacking: So lange testen, bis irgendein p < 0,05 erscheint — unwissenschaftlich und nicht reproduzierbar.
Effektstärke ignorieren: Ein signifikantes Ergebnis bedeutet nicht automatisch ein praktisch relevantes Ergebnis. Effektgrößen (Cohen's d, η², r) berichten.

Software für statistische Tests

Jeder hier vorgestellte Test lässt sich in allen gängigen Statistikprogrammen umsetzen:

SPSS: Menügeführt, ideal für Einsteiger ohne Programmiererfahrung — Standard in Sozialwissenschaften und Medizin.
R: Kostenlos und sehr flexibel — alle Tests verfügbar, ideal für reproduzierbare Forschung.
Python: Mit den Paketen scipy und statsmodels — gut für Data Science und große Datenmengen.
Excel: Mit dem Add-In Analyse-Funktionen für t-Test, ANOVA, Regression und Korrelation.

Wenn Sie unsicher sind — wir helfen

Die Wahl des richtigen Tests kann schwerfallen — besonders, wenn Vorkenntnisse fehlen oder die Datenlage komplex ist. Bei Statistikerhub übernehmen erfahrene Statistiker die komplette Auswertung: von der Fragebogenauswertung über SPSS-Analysen bis hin zu komplexen Regressionsmodellen in R oder Python. Sie erhalten nicht nur die Ergebnisse, sondern auch eine verständliche Erklärung, mit der Sie Ihre Arbeit selbst vertreten können.

Sie wissen jetzt, welcher Test der richtige ist — aber die Umsetzung in R oder SPSS stockt? Wir übernehmen Auswertung, Visualisierung und Ergebnisbericht.

Unverbindliches Angebot anfragen

FAQ — Häufige Fragen zur Testwahl

Wann welcher statistische Test? +

Die Wahl des passenden Tests hängt von vier Kriterien ab:

Ihrer Fragestellung — Unterschied, Zusammenhang oder Vorhersage?
Skalenniveau der Daten — nominal, ordinal oder metrisch?
Anzahl der Gruppen oder Variablen — zwei, drei oder mehr?
Verteilung der Daten — normalverteilt oder schief?

Unser Wizard oben führt Sie Schritt für Schritt durch alle vier Fragen.

Welche statistischen Tests gibt es? +

Die wichtigsten Tests sind:

t-Test (unabhängig, gepaart, einstichproben)
ANOVA (einfaktoriell, mehrfaktoriell, mit Messwiederholung)
Mann-Whitney-U-Test und Wilcoxon-Test
Kruskal-Wallis-Test und Friedman-Test
Chi-Quadrat-Test und Fisher's Exact Test
Pearson- und Spearman-Korrelation
Lineare und logistische Regression

Welcher Test in Ihrem Fall passt, hängt von Daten und Fragestellung ab — der Wizard hilft bei der Auswahl.

Welcher statistische Test ist der richtige für meine Daten? +

Nutzen Sie unsere interaktive Entscheidungshilfe oben. Sie führt Sie in wenigen Schritten zum passenden Test — inklusive Erklärung, Voraussetzungen und Alternative bei verletzten Annahmen. Bei komplexen Designs (Mediator, Moderator, Multilevel) lohnt sich eine individuelle Methodenberatung.

Was ist der Unterschied zwischen parametrischen und nicht-parametrischen Tests? +

Parametrische Tests wie t-Test oder ANOVA setzen voraus, dass die Daten normalverteilt sind und metrisches Skalenniveau haben. Sie sind statistisch trennscharf und liefern bei erfüllten Voraussetzungen die genauesten Ergebnisse.

Nicht-parametrische Tests (Mann-Whitney, Wilcoxon, Kruskal-Wallis) sind robuster und auch für ordinale Daten oder nicht-normalverteilte metrische Daten geeignet. Sie sind allerdings weniger trennscharf und benötigen oft größere Stichproben für vergleichbare Aussagekraft.

Wann verwendet man einen t-Test und wann ANOVA? +

Ein t-Test vergleicht die Mittelwerte von zwei Gruppen. Eine ANOVA (Varianzanalyse) vergleicht die Mittelwerte von drei oder mehr Gruppen. Bei nur zwei Gruppen liefern beide Tests dasselbe Ergebnis. Wichtig: Mehrere t-Tests statt einer ANOVA durchzuführen, führt zu Alpha-Fehler-Inflation und ist methodisch falsch.

Wie prüft man, ob Daten normalverteilt sind? +

Die Normalverteilung lässt sich auf mehreren Wegen prüfen:

Shapiro-Wilk-Test: Für kleine Stichproben (n < 50). p > 0,05 → Normalverteilung wird nicht verworfen.
Kolmogorov-Smirnov-Test: Für größere Stichproben — bei sehr großen n allerdings zu streng.
Q-Q-Plot: Visuelle Methode, Punkte sollten auf einer Diagonale liegen.
Histogramm: Symmetrische Glockenform spricht für Normalverteilung.
Schiefe und Kurtosis: Werte zwischen −1 und +1 gelten als unkritisch.

Was bedeutet abhängige und unabhängige Stichprobe? +

Unabhängige Stichproben bestehen aus verschiedenen Personen oder Objekten. Beispiel: Sie vergleichen Männer und Frauen — zwei getrennte Gruppen.

Abhängige (gepaarte) Stichproben enthalten dieselben Personen zu unterschiedlichen Zeitpunkten oder unter verschiedenen Bedingungen. Beispiel: Sie messen das Gewicht derselben Teilnehmer vor und nach einer Diät.

Für unabhängige Daten verwenden Sie den unabhängigen t-Test, für gepaarte Daten den gepaarten t-Test.

Welcher Test bei Likert-Skalen? +

Likert-Skalen sind streng genommen ordinal. Es gibt zwei verbreitete Vorgehensweisen:

Bei strikter Auslegung: nicht-parametrische Tests verwenden (Mann-Whitney, Spearman).
Bei mindestens 5 Stufen und annähernd symmetrischer Verteilung: parametrische Tests sind in der Praxis oft akzeptiert.

Mehr dazu in unserem Beitrag zur Fragebogenauswertung mit R.

Was ist die Methodenberatung — und wer braucht sie? +

Eine Methodenberatung klärt vor Beginn der Studie, welcher statistische Test zu Fragestellung und Datenstruktur passt, welche Stichprobengröße nötig ist und welche Voraussetzungen geprüft werden müssen. Sie spart später erhebliche Zeit, weil Designfehler vermieden werden. Sinnvoll für: Bachelorarbeiten, Masterarbeiten, Doktorarbeiten, Publikationen und Unternehmensstudien. Statistikerhub bietet Methodenberatung als eigenständige Leistung — unverbindliche Anfrage.