Bei der Regressionsanalyse handelt es sich um ein statistisches Verfahren, mit dem das Vorhandensein von Einflüssen überprüft und gegebenenfalls die Stärke dieser Einflüsse geschätzt werden kann. Die Datenbasis für eine Regressionsanalyse sind dabei Beobachtungen bzw. Messwerte bei verschiedenen Ausprägungen der vermuteten Einflussgrößen. Es ist z.B. möglich zu überprüfen, ob der Preis einen signifikanten Einfluss auf die Absatzmenge hat. Sofern dies der Fall ist, kann dann aus den beobachteten Werten die Stärke dieses Einflusses geschätzt werden. Basierend auf diesem Schätzmodell können dann z.B. Absatzprognosen für verschiedene Preise berechnet werden.
Die lineare Regressionsanalyse ist ein Verfahren der Identifikation mit dem Ziel einen beobachteten funktionalen Zusammenhang zwischen einer abhängigen Variablen und einer (oder mehrerer -> Multiple Regression) unabhängigen Variablen zu beschreiben. Die beteiligten Variablen weisen hierbei metrisches Datenniveau auf, wobei die Einbeziehung von nominalen Merkmalen ebenfalls möglich ist (-> Dummyvariablen-Kodierung). Die beobachten Ausprägungen der Zielgröße sollen im Rahmen der Regressionsanalyse durch die beobachteten Werte der unabhängigen Variablen erklärt werden.
In diesem kurzen Video wird erklärt, was das Grundprinzip der linearen Regression ist:
Anwendungsbereiche der Regressionsanalyse:
- Ursachenanalyse: Stärke des Einflusses einer unabhängigen Variablen ermitteln.
- Wirkungsprognose: Prognose der Wirkung der Veränderung einer unabhängigen Variablen auf die abhängige Variable.
- Zeitreihenanalyse: Analyse von Zeitreihendaten und Zukunftsprognosen auf Basis des geschätzten Modells.
Meistens wird bei der Regressionsanalyse ein linearer Zusammenhang unterstellt und die Funktion nach der Methode der kleinsten Quadrate ermittelt. Hierbei werden die quadrierten Abweichungen zwischen im Modell geschätzten und beobachteten Werten minimiert. Ebenfalls möglich ist eine Ermittlung der Regressionskoeffizienten z.B. mittels Maximum-Likelihood-Schätzung. Im Falle eines nichtlinearen Zusammenhangs kann auf spezielle Verfahren zurückgegriffen werden, teilweise ist eine Linearisierung möglich (z.B. durch Logarithmierung bei multiplikativen Funktionen).
Voraussetzungen des linearen Modells der Regressionsanalyse:
- Die Störgrößen sind normalverteilt mit dem Erwartungswert 0 und konstanter Varianz sowie paarweise unkorreliert (d.h. die Störgrößen streuen zufällig mit dem Erwartungswert 0 und enthalten daher keine Informationen -> Schätzung aus den anderen Variablen).
- Berücksichtigung möglichst aller relevanten Variablen.
- Keine lineare Abhängigkeit zwischen den unabhängigen Variablen (keine Multikollinearität).
- Linearität des Zusammenhangs zwischen abhängiger und unabhängigen Variablen.
Vorgehensweise bei einer Regressionsanalyse:
- Ermittlung möglichst aller relevanten Variablen und Formulierung des Modells
- Evtl. Linearisierung zur Erstellung eines linearen Modell
- Wahl der Schätzungsmethode (z.B. kleinste Quadrate-Methode, ML-Schätzung)
- Ermittlung der Regressionskoeffzienten
- Überprüfung der Anpassungsgüte des Gesamtmodells (multiples Bestimmtheitsmaß und F-Statistik) und der einzelnen Modellparameter (z.B. t-Test auf signifikanten Einfluss eines Koeffizienten, Beta-Werte)
- Evtl. Prüfung auf Verletzungen der Annahmen des linearen Modells
- Evtl. Standardisierung der Koeffizienten, um diese hinsichtlich ihrer Einflussstärke vergleichbar zu machen
- Inhaltliche Interpretation des ermittelten Schätzmodells
Wesentliche Begriffe:
- Regressand: Die abhängige Variable des Modells.
- Regressor: Die unabhängige Variable.
- Residuen: Die Störgrößen -> Residualgröße (Abweichung zwischen Beobachtung und Schätzwert der abhängigen Variablen).
- Regressionskoeffizient: Ermittelter Schätzwert für die Stärke des Einflusses einer unabhängigen Variablen
- R-Quadrat: Das Bestimmtheitsmaß beschreibt das Verhältnis zwischen erklärter Abweichung und dem Residuum und liefert daher ein Maß für die Güte des geschätzten Modells. Ein Bestimmtheitsmaß von 0.79 bedeutet, dass 79% der beobachteten Varianz durch das Regressions-Modell erklärt wird und 21% auf die Residuen zurückzuführen sind. Das korrigierte Bestimmtheitsmaß korrigiert das Bestimmtheitsmaß um den Einfluss der Anzahl der Regressoren.
- F-Test: Induktiver Test auf Signifikanz der Gesamtmodells, bei dem das Bestimmtheitsmaß getestet wird.
Anwendungsbeispiel:
Die Pizzeria Cagliari aus Hamburg möchte die Stärke des Einflusses der Werbeausgaben und der Pizzapreise auf den Pizza-Absatz untersuchen. Manni Marktforscher unterstellt einen linearen Zusammenhang und stellt sein Regressionsmodell. a x Werbeausgaben + b x Pizzapreis + Konstanter Term + Residuen = Pizzaabsatz auf. Es handelt sich daher um eine multiple lineare Regression mit der abhängigen Variablen Pizzaabsatz und den beiden unabhängigen Variablen Werbeausgaben und Pizzapreis. Anschließend sucht er in seinen Geschäftsdaten die Absatzzahlen in Stück, Werbeausgaben in 1.000 € und Preise in € der letzten Jahre heraus, um diese Daten zu nutzen, um das Modell zu berechnen. Er geht davon aus, dass Störgrößen wie das Wetter den Absatz zufällig ebenfalls beeinflussen, allerdings gleicht sich über die Jahre der Einfluss so weit aus, dass er diese Störgrößen einfach ignorieren kann (Erwartungswert=0). Also schätzt er die Parameter seines Models, indem er die Summe der quadrierten Abweichungen minimiert. Er erhält die Regressionskoeffizieten 500 für die Werbeausgaben und - 1.000 für den Pizzapreis sowie einen konstanten Term von 2.500. Es ergibt sich also das geschätzte Modell 500 x Werbeausgaben + (-1.000) x Pizzapreis + 50.000 = Pizzaabsatz pro Jahr. Das Bestimmtheitsmaß liegt bei 55% und es ergibt sich ein signifikanter F-Wert, ebenfalls signifikante Werte ergeben sich für die beiden Regressoren bei den t-Tests. Auf Basis seiner Ergebnisse schätzt Manni Marktforscher, dass ihm 1.000€ mehr Werbeausgaben einen um 500 Stk. höheren Pizzaabsatz einbringen, während der Absatz bei einer Preiserhöhung von 1 € um 1.000 Pizzen zurück geht. Das bringt Manni Marktforscher auf eine Idee...
Weiterführende Literatur zur Regressionsanalysen:








