Inhaltsverzeichnis
Was ist eine Regression?
Die Regression gehört zu den wichtigsten Verfahren der Statistik. Sie modelliert den Zusammenhang zwischen einer abhängigen Variable (der Zielgröße) und einer oder mehreren unabhängigen Variablen (den Prädiktoren). Anders als bei der reinen Korrelation interessiert bei der Regression nicht nur, ob ein Zusammenhang besteht, sondern auch wie stark und in welche Richtung ein Prädiktor wirkt.
Die zentrale Frage lautet: Wie verändert sich die Zielgröße, wenn sich ein Prädiktor um eine Einheit ändert? Mit einer Regression lassen sich Werte vorhersagen und der Einfluss einzelner Faktoren quantifizieren. Welcher Regressionstyp passt, hängt vom Skalenniveau der Zielgröße ab — eine Frage, die unser interaktiver Test-Wizard zur Methodenwahl Schritt für Schritt beantwortet.
Grundsätzlich unterscheidet man zwei Haupttypen: die lineare Regression für metrische Zielgrößen und die logistische Regression für binäre Zielgrößen. Beide schauen wir uns in diesem Beitrag im Detail an.
Steht eine Regressionsanalyse für Ihre Abschlussarbeit an? Wir übernehmen die komplette Auswertung in R, SPSS oder Python — verständlich erklärt und termingerecht.
Regression auswerten lassenLineare Regression einfach erklärt
Die lineare Regression ist der bekannteste Regressionstyp. Sie sagt eine metrische Zielgröße voraus — also Werte wie Umsatz, Gewicht, Einkommen oder Klausurpunkte. Das Modell legt eine möglichst gut passende Gerade durch die Datenpunkte. Diese Gerade folgt der Gleichung:
y = a + b · x
Dabei ist a der Achsenabschnitt (der Wert von y, wenn x null ist) und b die Steigung (um wie viel y steigt, wenn x um eine Einheit zunimmt). Schauen wir uns ein konkretes Beispiel an: den Zusammenhang zwischen Lernstunden und erreichten Klausurpunkten.
Lineare Regression: Je mehr Lernstunden, desto mehr Punkte. Die Gerade beschreibt den Zusammenhang (R² = 0,99).
Im Beispiel ergibt sich die Gleichung y = 38 + 4,6 · x. Das bedeutet: Ohne zu lernen wären rund 38 Punkte zu erwarten, und jede zusätzliche Lernstunde bringt im Schnitt 4,6 Punkte mehr. Bei 7 Lernstunden sagt das Modell also rund 70 Punkte voraus.
Voraussetzungen der linearen Regression
Damit die Ergebnisse einer linearen Regression gültig sind, müssen einige Voraussetzungen erfüllt sein. Werden sie verletzt, sind die geschätzten Koeffizienten und p-Werte nicht mehr verlässlich:
- Linearer Zusammenhang: Zwischen Prädiktoren und Zielgröße muss ein linearer Zusammenhang bestehen — im Streudiagramm prüfbar.
- Normalverteilung der Residuen: Die Abweichungen zwischen vorhergesagten und tatsächlichen Werten sollten normalverteilt sein.
- Homoskedastizität: Die Streuung der Residuen muss über den gesamten Wertebereich konstant sein.
- Unabhängigkeit: Die Beobachtungen dürfen sich nicht gegenseitig beeinflussen.
- Keine Multikollinearität: Bei mehreren Prädiktoren dürfen diese nicht zu stark untereinander korrelieren (VIF unter 10).
Die Prüfung dieser Annahmen ist ein zentraler Teil jeder statistischen Auswertung. Werden Voraussetzungen verletzt, helfen Transformationen der Daten oder der Wechsel auf robuste Verfahren.
Multiple lineare Regression
In der Praxis hängt eine Zielgröße selten nur von einem einzigen Faktor ab. Die multiple lineare Regression erweitert das Modell deshalb auf mehrere Prädiktoren gleichzeitig:
y = a + b₁·x₁ + b₂·x₂ + … + bₙ·xₙ
Ein Beispiel: Der Klausurerfolg hängt nicht nur von den Lernstunden ab, sondern auch von der Schlafdauer und der Vorerfahrung. Die multiple Regression schätzt den Einfluss jedes einzelnen Prädiktors — und zwar unter Kontrolle der jeweils anderen. So lässt sich sagen: Welchen Effekt haben Lernstunden, wenn Schlaf und Vorerfahrung konstant gehalten werden?
Wichtig ist hier die bereits erwähnte Multikollinearität: Wenn zwei Prädiktoren stark zusammenhängen (etwa Lernstunden und Anzahl bearbeiteter Übungsaufgaben), lassen sich ihre Einzeleffekte kaum noch trennen. Welcher Zusammenhang überhaupt besteht, klärt vorab oft eine Analyse mit dem passenden statistischen Test.
Logistische Regression einfach erklärt
Die logistische Regression kommt zum Einsatz, wenn die Zielgröße nicht metrisch, sondern binär ist — also nur zwei Ausprägungen hat: ja/nein, krank/gesund, bestanden/durchgefallen, gekauft/nicht gekauft. Statt eines konkreten Werts sagt sie die Wahrscheinlichkeit für das Eintreten eines Ereignisses voraus.
Da Wahrscheinlichkeiten immer zwischen 0 und 1 liegen, kann hier keine Gerade verwendet werden — eine Gerade würde auch Werte über 1 oder unter 0 liefern. Stattdessen nutzt die logistische Regression die sogenannte logistische Funktion (Sigmoid-Funktion), die einen charakteristischen S-förmigen Verlauf hat:
Die logistische Funktion (Sigmoid) bildet jeden Wert auf eine Wahrscheinlichkeit zwischen 0 und 1 ab. Am Wendepunkt liegt die Wahrscheinlichkeit bei 0,5.
Die Koeffizienten der logistischen Regression werden als Odds Ratios (Chancenverhältnisse) interpretiert. Ein Odds Ratio über 1 bedeutet, dass der Prädiktor die Wahrscheinlichkeit des Ereignisses erhöht; ein Wert unter 1 senkt sie. Beispiel: Ein Odds Ratio von 1,5 für „Lernstunden" heißt, dass jede zusätzliche Lernstunde die Chance auf ein Bestehen um den Faktor 1,5 erhöht.
Neben der binären Variante gibt es Erweiterungen: Die multinomiale logistische Regression behandelt Zielgrößen mit mehr als zwei Kategorien (z. B. die Wahl zwischen drei Studiengängen), die ordinale logistische Regression geordnete Kategorien (z. B. Schulnoten).
Regression in R und SPSS durchführen
Beide Regressionstypen lassen sich in allen gängigen Statistikprogrammen umsetzen. Besonders verbreitet sind R und SPSS.
Lineare Regression in R
In R nutzt man für die lineare Regression die Funktion lm() (linear model). Die Funktion summary() gibt anschließend Koeffizienten, p-Werte und das Bestimmtheitsmaß aus:
# Lineare Regression in R modell <- lm(punkte ~ lernstunden, data = daten) summary(modell) # Mehrere Prädiktoren (multiple Regression) modell2 <- lm(punkte ~ lernstunden + schlaf + vorerfahrung, data = daten) summary(modell2)
Logistische Regression in R
Für die logistische Regression in R verwendet man glm() (generalized linear model) mit der Option family = binomial:
# Logistische Regression in R
modell <- glm(bestanden ~ lernstunden,
data = daten,
family = binomial)
summary(modell)
# Odds Ratios berechnen
exp(coef(modell))
Regression in SPSS
In SPSS erfolgt die Regression menügeführt — ganz ohne Programmierkenntnisse:
- Lineare Regression: Analysieren → Regression → Linear
- Logistische Regression: Analysieren → Regression → Binär logistisch
- Multinomiale Regression: Analysieren → Regression → Multinomial logistisch
SPSS liefert die Koeffizienten, Signifikanzwerte und das Bestimmtheitsmaß direkt in übersichtlichen Tabellen — exportierbar im APA-Format. Eine ausführliche Anleitung finden Sie in unserem Beitrag zur SPSS-Auswertung für Anfänger.
Das Bestimmtheitsmaß R² verstehen
Das Bestimmtheitsmaß R² gibt an, welcher Anteil der Streuung der Zielgröße durch das Modell erklärt wird. Es liegt zwischen 0 und 1: Ein R² von 0,8 bedeutet, dass das Modell 80 Prozent der Varianz erklärt. Je näher an 1, desto besser passt das Modell — wobei ein sehr hohes R² bei wenigen Datenpunkten auch ein Warnsignal für Überanpassung sein kann.
Häufige Fehler bei der Regressionsanalyse
Bei der praktischen Anwendung schleichen sich oft dieselben Fehler ein. Die wichtigsten im Überblick:
- Falscher Regressionstyp: Lineare Regression für eine binäre Zielgröße verwenden, statt logistischer Regression.
- Voraussetzungen nicht geprüft: Normalverteilung der Residuen und Homoskedastizität werden ignoriert.
- Korrelation mit Kausalität verwechseln: Ein signifikanter Koeffizient belegt keinen Ursache-Wirkungs-Zusammenhang.
- Multikollinearität übersehen: Stark korrelierte Prädiktoren verzerren die Einzeleffekte.
- Ausreißer ignorieren: Einzelne extreme Werte können die Regressionsgerade stark verzerren.
- Überanpassung (Overfitting): Zu viele Prädiktoren bei zu wenigen Beobachtungen führen zu einem scheinbar perfekten, aber nicht generalisierbaren Modell.
Wer unsicher ist, welches Verfahren zur eigenen Datenlage passt, findet in unserer interaktiven Entscheidungshilfe eine schnelle Orientierung — oder lässt die Auswertung des Fragebogens gleich von Profis übernehmen.
Regression korrekt durchführen ist anspruchsvoll — von der Voraussetzungsprüfung bis zur Interpretation der Odds Ratios. Wir übernehmen Ihre komplette Regressionsanalyse in R, SPSS oder Python.
Unverbindliches Angebot anfragenFAQ — Häufige Fragen zur Regression
Eine Regression ist ein statistisches Verfahren, das den Zusammenhang zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen (Prädiktoren) modelliert. Ziel ist es, Werte vorherzusagen oder den Einfluss einzelner Faktoren zu quantifizieren.
Die lineare Regression sagt eine metrische Zielgröße voraus, etwa Umsatz oder Gewicht. Die logistische Regression sagt die Wahrscheinlichkeit eines binären Ereignisses voraus (ja/nein) und liefert Werte zwischen 0 und 1. Der wichtigste Unterschied liegt also im Skalenniveau der Zielgröße.
- Linearer Zusammenhang zwischen Prädiktoren und Zielgröße
- Normalverteilung der Residuen
- Homoskedastizität (gleiche Streuung der Residuen)
- Unabhängigkeit der Beobachtungen
- Keine starke Multikollinearität (VIF unter 10)
Die Koeffizienten werden als Odds Ratios (Chancenverhältnisse) interpretiert. Ein Odds Ratio über 1 erhöht die Wahrscheinlichkeit des Ereignisses, ein Wert unter 1 senkt sie. Der p-Wert zeigt, ob ein Prädiktor statistisch signifikant zum Modell beiträgt.
Das Bestimmtheitsmaß R² gibt an, welcher Anteil der Streuung der Zielgröße durch das Modell erklärt wird. Es liegt zwischen 0 und 1. Ein R² von 0,8 bedeutet, dass 80 Prozent der Varianz durch das Modell erklärt werden.
Die lineare Regression nutzt die Funktion lm(), die logistische Regression die Funktion glm() mit der Option family = binomial. Mit summary() werden Koeffizienten, p-Werte und das Bestimmtheitsmaß ausgegeben. Die Odds Ratios der logistischen Regression erhält man mit exp(coef(modell)).
Die multiple Regression wird verwendet, wenn die Zielgröße von mehreren unabhängigen Variablen gleichzeitig beeinflusst wird. Sie schätzt den Einfluss jedes Prädiktors unter Kontrolle der übrigen Variablen und ist damit näher an der Realität als eine einfache Regression mit nur einem Prädiktor.
Die Korrelation misst nur die Stärke und Richtung eines Zusammenhangs zwischen zwei Variablen (Werte von −1 bis +1). Die Regression geht weiter: Sie modelliert den Zusammenhang als Gleichung, erlaubt Vorhersagen und unterscheidet zwischen abhängiger und unabhängiger Variable. Welcher Ansatz passt, klärt unsere Entscheidungshilfe.