Lineare Einfachregression

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 5. Dezember 2018 um 17:22 Uhr durch Trabeschaur (Diskussion | Beiträge) (Annahmen über die exogene Variable: Link eingefügt). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Zur Navigation springen Zur Suche springen
Beispiel einer konkreten empirischen Regressionsgerade einer linearen Einfachregression

Die einfache lineare Regression (kurz: ELR), oder auch lineare Einfachregression (selten univariate lineare Regression) ist in der Regressionsanalyse ein statistisches Analyseverfahren und ein Spezialfall der linearen Regression. Bei der einfachen linearen Regression wird eine abhängige Variable lediglich durch eine unabhängige Variable erklärt. Ziel der einfachen linearen Regression ist die Schätzung der zwei Regressionsparameter (Niveauparameter und Steigungsparameter), sowie die Schätzung der Fehlervarianz. Die einfache lineare Regression findet in der Praxis kaum Anwendung, da eine einzige unabhängige Variable nicht viel zu erklären vermag. Dennoch hat sie eine große theoretische Bedeutung.

Einführung in die Problemstellung

Das Ziel einer Regression ist es, eine abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären. Bei der einfachen linearen Regression wird eine abhängige Variable lediglich durch eine unabhängige Variable erklärt. Das einfache lineare Regressionsmodell geht daher von zwei metrischen Größen aus: einer Einflussgröße (auch: exogene Variable, erklärende Variable, Regressor oder unabhängige Variable) und einer Zielgröße (auch: endogene Variable, abhängige Variable, erklärte Variable oder Regressand). Des Weiteren liegen Paare von Messwerten vor (die Darstellung der Messwerte im --Diagramm wird im Folgenden Streudiagramm bezeichnet), die in einem funktionalen Zusammenhang stehen, der sich aus einem systematischen und einem stochastischen Teil zusammensetzt:

Die stochastische Komponente beschreibt nur noch zufällige Einflüsse (z. B. zufällige Abweichungen wie Messfehler), alle systematischen Einflüsse sind in der systematischen Komponente enthalten. Die einfache lineare Regression stellt den Zusammenhang zwischen der Einfluss- und der Zielgröße mithilfe von zwei Parametern und auf lineare Weise her, d. h. die Regressionsfunktion wird wie folgt spezifiziert:

(Linearität)

Bei der einfachen linearen Regression

Repräsentationen:
  • : endogene Zufallsvariable
  • : beobachtbare, nicht zufällige, bekannte erklärende Variable
  • : sind unbekannte skalare Parameter
  • : unbeobachtbare Zufallsvariable

wird also eine Gerade so durch das Streudiagramm gelegt, dass der lineare Zusammenhang zwischen und möglichst gut beschrieben wird.

Einführendes Beispiel

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wird in Geschäften ein Testverkauf durchgeführt und man erhält sechs Wertepaare mit dem jeweiligen Ladenpreis einer Flasche (in Euro) sowie der Zahl der jeweils verkauften Flaschen :

Streudiagramm von Preis und abgesetzter Menge an Sektflaschen
Streudiagramm von Preis und abgesetzter Menge an Sektflaschen
Geschäft 1 2 3 4 5 6
Flaschenpreis 20 16 15 16 13 10
verkaufte Menge 0 3 7 4 6 10

Benutzer:Sigbert/Infobox Formel Auf die Vermutung, dass es sich um einen linearen Zusammenhang handelt, kommt man, wenn man das obige Streudiagramm betrachtet. Dort erkennt man, dass die eingetragenen Datenpunkte nahezu auf einer Linie liegen. Im Weiteren sind der Preis als unabhängige und die Zahl der verkauften Flaschen als abhängige Variable definiert und es gibt sechs Beobachtungen. Die Anzahl der verkauften Flaschen mag aber nicht nur vom Preis abhängen, z. B. könnte in der Verkaufsstelle 3 eine große Werbetafel gehangen haben, so dass dort mehr Flaschen als erwartet verkauft wurden (zufälliger Einfluss). Damit scheint das einfache lineare Regressionsmodell zu passen.

Nach der graphischen Inspektion, ob ein linearer Zusammenhang vorliegt, wird zunächst die Regressiongerade mit der Methode der kleinsten Quadrate geschätzt und es ergeben sich die Formeln in der Infobox für die geschätzten Regressionsparameter.

Für das folgende Zahlenbeispiel ergeben sich für die abhängige und unabhängige Variable jeweils ein Mittelwert zu und . Somit erhält man die Schätzwerte für und für durch einfaches Einsetzen in die weiter unten erklärten Formeln. Zwischenwerte (z. B. ) in diesen Formeln sind in folgender Tabelle dargestellt

Flaschenpreis verkaufte Menge
1 20 0 5 −5 −25 25 25 0,09 −0,09 0,0081
2 16 3 1 −2 −2 1 4 4,02 −1,02 1,0404
3 15 7 0 2 0 0 4 5,00 2,00 4,0000
4 16 4 1 −1 −1 1 1 4,02 −0,02 0,0004
5 13 6 −2 1 −2 4 1 6,96 −0,96 0,9216
6 10 10 −5 5 −25 25 25 9,91 0,09 0,0081
Summe 90 30 0 0 −55 56 60 30,00 0,00 5,9786

Es ergibt sich in dem Beispiel

und .

Die geschätzte Regressionsgerade lautet somit

,

sodass man vermuten kann, dass bei jedem Euro mehr der Absatz im Mittel um ungefähr eine Flasche sinkt.

Für einen konkreten Preis kann die Absatzmenge ausgerechnet werden, z. B. ergibt sich eine geschätzte Absatzmenge von . Für jeden Beobachtungswert kann eine geschätzte Absatzmenge angegeben werden, z. B. für ergibt sich . Der geschätzte Fehlerterm, genannt Residuum, ist dann .

Bestimmtheitsmaß

Streudiagramm der Residuen ohne Struktur, das liefert
Streudiagramm der Residuen, das ein nahe bei liefert

Das Bestimmtheitsmaß misst die Anpassungsgüte eines Regressionsmodells. Es ist der Anteil der Variation von der durch eine lineare Regression „erklärt “ wird (Varianzaufklärung), und liegt daher zwischen:

  • (oder ): kein linearer Zusammenhang und
  • (oder ): perfekter linearer Zusammenhang.

Je näher das Bestimmtheitsmaß am Wert Eins liegt, desto höher ist die „Bestimmtheit“ bzw. „Güte“ der Anpassung. Ist , dann besteht das „beste“ lineare Regressionsmodell nur aus dem Niveauparameter , während ist. Je näher der Wert des Bestimmtheitsmaß an liegt, desto besser erklärt die Regressionsgerade den wahren Zusammenhang. Ist , dann lässt sich die abhängige Variable vollständig durch das lineare Regressionsmodell erklären. Anschaulich liegen dann die Messpunkte alle auf der nichthorizontalen Regressionsgeraden. Somit liegt bei diesem Fall kein stochastischer Zusammenhang vor, sondern ein deterministischer.

Eine häufige Fehlinterpretation eines niedrigen Bestimmtheitsmaßes ist es, dass es keinen Zusammenhang zwischen den Variablen gibt. Tatsächlich wird nur der lineare Zusammenhang gemessen, d. h. obwohl klein ist, kann es trotzdem einen starken nichtlinearen Zusammenhang geben. Umgekehrt muss ein hoher Wert des Bestimmtheitsmaßes nicht bedeuten, dass ein nichtlineares Regressionsmodell nicht noch besser als ein lineares Modell ist.

Bei einer einfachen linearen Regression entspricht dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten (siehe Bestimmtheitsmaß als quadrierter Korrelationskoeffizient).

Im oben genannten Beispiel kann die Güte des Regressionsmodells mit Hilfe des Bestimmtheitsmaßes überprüft werden. Für das Beispiel ergibt sich

und

und das Bestimmtheitsmaß zu

.

Das heißt ca. 90 % der Streuung in können mit Hilfe des Regressionsmodells „erklärt“ werden, nur 10 % der Streuung bleiben „unerklärt“.

Das Modell

Datensatz mit wahrer Regressionsgerade (blau) und geschätzter Regressionsgerade (rot) sowie wahrem Fehlerterm und geschätzten Fehlerterm (Residuum).

Im Regressionsmodell werden die Zufallskomponenten mit Hilfe von Zufallsvariablen modelliert. Wenn eine Zufallsvariable ist, dann ist es auch . Die beobachteten Werte werden als Realisierungen der Zufallsvariablen aufgefasst.

Daraus ergibt sich das einfache lineare Regressionsmodell:[1]

(mit Zufallsvariablen) bzw.
(mit deren Realisierungen).

Bildlich gesprochen wird eine Gerade durch das Streudiagramm der Messung gelegt. In der gängigen Literatur wird die Gerade oft durch den Niveauparameter und den Steigungsparameter beschrieben. Die abhängige Variable wird in diesem Kontext oft auch endogene Variable genannt. Dabei ist ein additiver stochastischer Fehlerterm, der Abweichungen vom idealen Zusammenhang – also der Geraden – achsenparallel misst.

Anhand der Messwerte werden die Regressionsparameter und die geschätzt. So erhält man die geschätzte Regressionsgerade . Im Gegensatz zur exogenen und endogenen Variablen sind die Zufallskomponenten und deren Realisierungen nicht direkt beobachtbar. Ihre geschätzten Realisierungen sind nur indirekt beobachtbar und heißen Residuen.

Modellannahmen

Um die Zerlegung von in eine systematische und zufällige Komponente zu sichern sowie gute Schätzeigenschaften für die Schätzung und der Regressionsparameter und zu haben, sind einige Annahmen bezüglich der Fehlerterme sowie der exogenen Variable nötig.

Annahmen über die exogene Variable

In Bezug auf die exogene Variable werden folgende Annahmen getroffen:[2]

Die Werte der exogenen Variablen sind fix
Sie können also wie in einem Experiment kontrolliert werden und sind damit keine Zufallsvariablen (Exogenität der Regressoren). Wären die Zufallsvariablen, z. B. wenn die auch nur fehlerbehaftet gemessen werden können, dann wäre und die Verteilung von sowie die Verteilungsparameter (Erwartungswert und Varianz) würden nicht nur von abhängen
.
Mit speziellen Regressionsverfahren kann dieser Fall aber auch behandelt werden, siehe z. B. Regression mit stochastischen Regressoren.
Stichprobenvariation in der exogenen Variablen
Die Festlegungen der exogenen Variable weisen bzgl. aller Beobachtungen nicht den gleichen Wert auf.[3] Man schließt also den unwahrscheinlichen Fall aus, dass keinerlei Variabilität aufweist, d. h. . Dies impliziert, dass die Summe der Abweichungsquadrate der exogenen Variable positiv sein muss. Diese Annahme wird im Schätzprozess benötigt.
Keine perfekte Multikollinearität
Dies bedeutet, dass sich keine exogene Variable als eine perfekte Linearkombination aus den anderen exogenen Variablen ergeben darf.

Annahmen über die exogene und endogene Variable

Der wahre Zusammenhang zwischen den Variablen und ist linear
Die Regressionsgleichung der linearen Einfachregression muss linear in den Parametern und sein, kann aber nichtlineare Transformationen der exogenen und der endogenen Variablen beinhalten. Beispielsweise sind die Transformationen
und

zulässig, da sie ebenfalls lineare Modelle darstellen. Bei transformierten Daten ist zu beachten, dass sie die Interpretation der Regressionsparameter ändert.

Vorliegen einer Zufallsstichprobe

Es liegt ein Zufallsstichprobe des Umfangs vor , die dem spezifizierten linearen Modell folgt.[3]

Annahmen über die Fehlerterme

In Bezug auf die Fehlerterme werden folgende Annahmen getroffen:[2]

Der Erwartungswert der Fehlerterme ist Null:
Dies bedeutet, dass das betrachte Modell im Mittel dem wahren Modell entspricht. Wäre der Erwartungswert nicht Null, dann würde man im Mittel ein falsches Modell bekommen.
Die Fehlerterme sind voneinander unabhängige Zufallsvariablen
Wären die Fehlerterme nicht unabhängig, dann könnte man einen systematischen Zusammenhang zwischen ihnen formulieren. Das würde der Zerlegung von in eine eindeutige systematische und zufällige Komponente widersprechen. Es wird in Zeitreihen z. B. oft ein Zusammenhang der Form betrachtet.
Oft wird auch nur die Unkorreliertheit der Fehlerterme gefordert: .

Unabhängige Zufallsvariablen sind immer auch unkorreliert. Man spricht in diesem Zusammenhang auch von Abwesenheit von Autokorrelation.

Eine konstante Varianz (Homoskedastizität) der Fehlerterme:
Wäre die Varianz nicht konstant, liesse sich evtl. die Varianz systematisch modellieren, d. h. dies widerspräche Zerlegung von in eine eindeutige systematische und zufällige Komponente. Zudem lässt sich zeigen, dass sich die Schätzeigenschaften der Regressionsparameter verbessern lassen, wenn die Varianz nicht konstant ist.

Alle oben genannten Annahmen über die Fehlerterme lassen sich so zusammenfassen:

,

d. h. alle Fehlerterme sind unabhängig und identisch verteilt (i.i.d. = independent and identically distributed) mit Erwartungswert und .

Optionale Annahme: Die Fehlerterme sind normalverteilt, also
Diese Annahme wird nur benötigt um z. B. Konfidenzintervalle zu berechnen bzw. um Tests für die Regressionsparameter durchzuführen.

Wird die Normalverteilung der Fehlerterme angenommen, so folgt, dass auch normalverteilt ist:

Die Verteilung der hängt also von der Verteilung der Fehlerterme ab. Der Erwartungswert der abhängigen Variablen, bei gegebenen Daten lautet:

Für die Varianz der abhängigen Variablen gilt, dass sie gleich der Varianz der Fehlerterme entspricht:

Damit ergibt sich für die Verteilung der abhängigen bzw. endogenen Variablen:

Da aufgrund der Annahme, dass die Fehlerterme im Mittel null sein müssen, muss der Erwartungswert von dem wahren Modell

entsprechen. D. h. mit der Annahme über die Fehlerterme schlussfolgert man, dass das Modell im Mittel korrekt sein muss. Wenn zusätzlich zu den anderen Annahmen auch die Annahme der Normalverteiltheit gefordert wird spricht man auch vom klassischen linearen Modell.

Regressionsdiagnostik

Überprüfung der Regressionsmodellannahmen

Im Rahmen der Regressionsdiagnostik sollen die Voraussetzungen des Regressionsmodells, soweit möglich, geprüft werden. Dazu zählen die Überprüfung, ob die Fehlerterme keine Struktur (die dann nicht zufällig wäre) haben. Dazu gehört, ob

Erwünschte (links oben) und unerwünschte (alle anderen) Streudiagramme der Residuen.
Erwünschte (links oben) und unerwünschte (alle anderen) Streudiagramme der Residuen.
  1. die Fehlerterme unabhängig sind,
  2. Analyse der Varianz der Fehlerterme (Homoskedastizität und Heteroskedastizität),
  3. die Fehlerterme normal-verteilt und
  4. keine weitere regressierbare Struktur in den Fehlertermen existiert.

Zur Analyse werden Streudiagramme, Kennzahlen und Tests eingesetzt:

Unabhängigkeit der Fehlerterme
  • Streudiagramme der Residuen ( -Achse) gegen die exogene Variable, die endogene Variable und/oder die geschätzten Regresswerten
  • Durbin-Watson-Test auf autokorrelierte Fehlerterme
Heteroskedastizität der Fehlerterme
Normalverteilung der Fehlerterme
Regressierbare Struktur der Fehlerterme
  • Streudiagramm der (quadrierten) Residuen ( -Achse) inklusive einer nichtparametrischen Regression gegen die exogene Variable, die endogene Variable, den geschätzten Regresswerten und/oder die nicht in der Regression benutzten Variablen

Therapie

Vorliegen von Autokorrelation

Ausreißer

Ein Ausreißer-Messwert. Die blaue Regressionsgerade wurde ohne Einbeziehung des Ausreißers erstellt, die violette mit.

Als Ausreißer sind Datenwerte definiert, die „nicht in eine Messreihe passen“. Diese Werte haben einen starken Einfluß auf die Regressiongleichung und verfälschen das Ergebnis. Um dies zu vermeiden, müssen die Daten auf fehlerhafte Beobachtungen untersucht werden. Die entdeckten Ausreißer können beispielsweise aus der Messreihe ausgeschieden werden oder es sind alternative ausreißerresistente Berechnungsverfahren wie die gewichtete Regression oder das Drei-Gruppen-Verfahren anzuwenden.

Im ersten Fall wird nach der ersten Berechnung der Schätzwerte durch statistische Tests geprüft, ob Ausreißer in einzelnen Messwerten vorliegen. Diese Messwerte werden dann ausgeschieden und die Schätzwerte erneut berechnet. Dieses Verfahren eignet sich dann, wenn nur wenige Ausreißer vorliegen.

Bei der gewichteten Regression werden die abhängigen Variablen in Abhängigkeit von ihren Residuen gewichtet. Ausreißer, d. h. Beobachtungen mit großen Residuen, erhalten ein geringes Gewicht, das je nach Größe des Residuums abgestuft sein kann. Beim Algorithmus nach Mosteller und Tukey (1977), der als „biweighting“ bezeichnet wird, werden unproblematische Werte mit 1 und Ausreißer mit 0 gewichtet, was die Unterdrückung des Ausreißers bedingt. Bei der gewichteten Regression sind in der Regel mehrere Iterationsschritte erforderlich, bis sich die Menge der erkannten Ausreißer nicht mehr ändert. Führt das Weglassen einer oder weniger Beobachtungen zu starken Änderungen bie der Regressionsgeraden, so stellt sich die Frage, ob das Regessionmodell angemessen ist.

  • Diagnose: Cooks Distanz: Cooks Distanz misst den Einfluss der -ten Beobachtung auf die Schätzung des Regressionsmodells.

Schätzung der Regressionsparameter und der Fehlerterme

Datensatz und Regressionsgerade inkl. Residuum.
Datensatz und Regressionsgerade inkl. Residuum.

Die Schätzung der Regressionsparameter und und der Fehlerterme geschieht in zwei Schritten:

  1. Zunächst werden mit Hilfe der Kleinste-Quadrate-Schätzung die unbekannten Regressionsparameter und geschätzt. Dabei wird die Summe der quadrierten Abweichungen zwischen dem geschätzten Regressionswert und dem beobachteten Wert minimiert.[4] Dabei ergeben sich folgende Formeln:
  2. Sind und berechnet, so kann das Residuum geschätzt werden als .

Herleitung der Formeln für die Regressionsparameter

Die einfache lineare Regression (rechts) passt besser zu den Daten im Vergleich zum einfachen Durchschnitt (links). Die Flächen der blauen Quadrate repräsentieren die quadrierten Residuen in Bezug auf die lineare Regression. Die Flächen der roten Quadrate repräsentieren die quadrierten Residuen in Bezug auf den Durchschnitt.

Um nun die Parameter der Gerade zu bestimmen, wird die Summe der quadrierten Fehlerterme oder die Summe der quadrierten Residuen minimiert[5]

[6]

Die Bedingungen erster Ordnung (notwendige Bedingungen) lauten:

und

.

Durch Nullsetzen der partiellen Ableitungen nach und ergeben sich die gesuchten Parameterschätzer, bei denen die Residuenquadratsumme minimal wird:

und ,

wobei die Summe der Abweichungsprodukte zwischen und und die Summe der Abweichungsquadrate von darstellt. Mithilfe des Verschiebungssatzes von Steiner lässt sich auch wie folgt einfacher, in nichtzentrierter Form, darstellen

.

Algebraische Eigenschaften der Kleinste-Quadrate-Schätzer

Aus den Formeln sind drei Eigenschaften ableitbar:

1.) Die geschätzte Regressiongerade läuft immer durch den Schwerpunkt („Gravitationszentrum“) der Daten , denn es gilt

.
Der letzte Ausdruck folgt aus der Eigenschaft:

2.) Die Summe der Residuen ist Null, wenn das Modell den Niveauparameter enthält:

, denn es gilt
Dies ist äquivalent zu der Eigenschaft, dass die gemittelten Residuen 0 ergeben:

3.) Die Residuen und die unabhängigen Variablen sind (unabhängig davon ob ein Niveauparameter mit einbezogen wurde oder nicht) unkorreliert

.
Die Residuen und die geschätzten Werten sind unkorreliert, d. h. .
Diese Unkorreliertheit der prognostizierten Werte mit den Residuen kann so interpretiert werden, dass in der Prognose bereits alle relevante Information der erklärenden Variablen bezüglich der der abhängigen Variablen steckt.[7]

Schätzfunktionen der Kleinste-Quadrate-Schätzer

Aus der Regressionsgleichung lassen sich die Schätzfunktionen für und für ableiten.

mit der Gewichtsfunktion
.

Die Schätzwerte und werden dabei als Realisierungen der Zufallsvariablen bzw. betrachtet.

Die Formeln zeigen auch, dass die Schätzfunktionen der Regressionsparameter linear von abhängen. Unter der Annahme der Normalverteilung der Residuen (oder wenn für der zentrale Grenzwertsatz erfüllt ist) folgt, dass auch die Schätzfunktionen der Regressionsparameter und zumindest approximativ normal verteilt sind:

und .

Statistische Eigenschaften der Kleinste-Quadrate-Schätzer

Varianzen der Kleinste-Quadrate-Schätzer

Die Varianzen des Steigungsparameters und des Niveauparameteres sind gegeben durch:

und .

Dabei stellt die empirische Varianz dar.

Die Kovarianz ist gegeben durch

.

Falls für

,

dann sind die Kleinste-Quadrate-Schätzer und konsistent für und . Dies bedeutet, dass mit zunehmender Stichprobengröße der wahre Wert immer genauer geschätzt wird und die Varianz letztendlich verschwindet. Das Problem an den beiden Varianzformeln ist jedoch, dass die wahre Varianz der Fehlerterme unbekannt ist und somit geschätzt werden muss. Die Wurzel der Varianzen der jeweiligen Punktschätzer wird auch als Standardfehler bezeichnet und ist wichtig für die Beurteilung der Anpassungsgüte (siehe auch Standardfehler der Regressionsparameter im einfachen Regressionsmodell).

Schätzer für die Fehlervarianz

Eine erwartungstreue Schätzung der Fehlervarianz ist gegeben durch

,

d. h., es gilt .

Dies lässt sich wie folgt zeigen:[8]

Zunächst benutzt man die Eigenschaft, dass sich die Residuen darstellen lassen als . Von dieser Gleichung subtrahiert man nun die gemittelten Residuen, die 0 ergeben:

.

Quadriert man nun die Residuen, bildet die Summe über alle und nimmt von diesem Resultat wiederum den Erwartungswert liefert dies

.

Die Erwartungswerte der einzelnen Terme lassen sich vereinfachen zu . Daraus folgt letztendlich, dass die erwartungstreue Varianz gegeben sein muss durch:

.

Das Ersetzen von durch in den obigen Formeln für die Varianzen der Regressionsparameter liefert die Schätzungen und für die Varianzen.

Erwartungstreue der Kleinste-Quadrate-Schätzer

Die Schätzfunktionen der Regressionsparameter und sind erwartungstreu (oft auch unverzerrt genannt), d. h. es gilt und . Der Kleinste-Quadrate-Schätzer liefert also im „im Mittel“ die wahren Werte der Koeffizienten.

Mit der Linearität des Erwartungswerts und der Voraussetzung folgt nämlich und :. Als Erwartungswert von ergibt sich daher:

Für den Erwartungswert von erhält man schließlich:[4]

Beste lineare erwartungstreue Schätzfunktion

Es lässt sich zeigen, dass der Kleinste-Quadrate-Schätzer die beste lineare erwartungstreue Schätzfunktion darstellt. Eine Schätzfunktion ist „besser“ als eine andere, wenn sie eine kleinere Varianz aufweist, da die Varianz ein Maß für die Unsicherheit ist. Somit ist die beste Schätzfunktion dadurch gekennzeichnet, dass er eine minimale Varianz und somit die geringste Unsicherheit aufweist. Diejenige Schätzfunktion, die unter den linearen erwartungstreuen Schätzfunktionen die kleinste Varianz aufweist, wird auch als Beste Lineare Erwartungstreue Schätzfunktion, kurz BLES (englisch Best Linear Unbiased Estimator, kurz BLUE) bezeichnet. Für alle anderen linearen erwartungstreuen Schätzer und gilt somit

und .

Auch ohne Normalverteilungsannahme ist der Kleinste-Quadrate-Schätzer ein bester linearer erwartungstreuer Schätzer.

Prognose

Oft ist man daran interessiert für einen neuen Wert die (Realisierung) der endogenen Variablen zu schätzen. Beispielsweise könnte der geplante Preis eines Produktes sein und der Absatz sein. In diesem fall nimmt man das gleiche einfache Regressionsmodell wie oben dargestellt an. Für eine neue Beobachtung mit dem Wert der exogenen Variablen ist die Prognose basierend auf der linearen Einfachregression gegeben durch

Da man den Wert der endogenen Variablen nie genau vorhersehen kann, ergibt sich immer ein Schätzfehler. Dieser Fehler wird als Prognosefehler bezeichnet und ergibt sich aus

Im Fall der linearen Einfachregression ergibt sich für den Erwartungswert und die Varianz des Prognosefehlers:

und .

Man erhält dann als -Prognoseintervall für den prognostizierten Wert von [9]

.

Aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenzintervall breiter wird, wenn sich die exogene Prognosevariable vom „Gravitationszentrum“ der Daten entfernt. Schätzungen der endogenen Variablen sollten also im Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig.

Kausalität und Regressionsrichtung

Regressionsgeraden für [rot] und [blau]; hier werden die Parameter und durch und dargestellt

Wie in der statistischen Literatur immer wieder betont wird, ist ein hoher Wert des Korrelationskoeffizienten zweier Variablen und allein noch kein hinreichender Beleg für den kausalen (d. h. ursächlichen) Zusammenhang von und , ebenso wenig für dessen mögliche Richtung. Es ist hier nämlich ein Fehlschluss der Art cum hoc ergo propter hoc möglich.

Anders als gemeinhin beschrieben, sollte man es daher bei der linearen Regression zweier Variablen und stets mit nicht nur einer, sondern zwei voneinander unabhängigen Regressionsgeraden zu tun haben: der ersten für die vermutete lineare Abhängigkeit (Regression von auf ), der zweiten für die nicht minder mögliche Abhängigkeit (Regression von auf ).[10]

Bezeichnet man die Richtung der -Achse als Horizontale und die der -Achse als Vertikale, läuft die Berechnung des Regressionsparameter also im ersten Fall auf das üblicherweise bestimmte Minimum der vertikalen quadratischen Abweichungen hinaus, im zweiten Fall dagegen auf das Minimum der horizontalen quadratischen Abweichungen.

Rein äußerlich betrachtet bilden die beiden Regressionsgeraden und eine Schere, deren Schnitt- und Angelpunkt der Schwerpunkt der untersuchten Daten ist. Je weiter sich diese Schere öffnet, desto geringer ist die Korrelation beider Variablen, bis hin zur Orthogonalität beider Regressionsgeraden, zahlenmäßig ausgedrückt durch den Korrelationskoeffizienten bzw. Schnittwinkel .

Umgekehrt nimmt die Korrelation beider Variablen umso mehr zu, je mehr sich die Schere schließt – bei Kollinearität der Richtungsvektoren beider Regressionsgeraden schließlich, also dann, wenn beide bildlich übereinander liegen, nimmt je nach Vorzeichen der Kovarianz den Maximalwert oder an, was bedeutet, dass zwischen und ein streng linearer Zusammenhang besteht und sich (wohlgemerkt nur in diesem einen einzigen Fall) die Berechnung einer zweiten Regressionsgeraden erübrigt.

Wie der nachfolgenden Tabelle zu entnehmen, haben die Gleichungen der beiden Regressionsgeraden große formale Ähnlichkeit, etwa, was ihre Anstiege bzw. angeht, die gleich den jeweiligen Regressionsparameter sind und sich nur durch ihre Nenner unterscheiden: im ersten Fall die Varianz von , im zweiten die von :

Regression von auf Zusammenhangsmaße Regression von auf
Regressionskoeffizient Produkt-Moment-Korrelation Regressionskoeffizient
Empirischer Regressionskoeffizient Empirischer Korrelationskoeffizient Empirischer Regressionskoeffizient
Regressionsgerade Bestimmtheitsmaß Regressionsgerade

Zu erkennen ist außerdem die mathematische Mittelstellung des Korrelationskoeffizienten und seines Quadrats, des sogenannten Bestimmtheitsmaßes, gegenüber den beiden Regressionsparameter, dadurch entstehend, dass man anstelle der Varianzen von bzw. deren geometrisches Mittel

in den Nenner setzt. Betrachtet man die Differenzen als Komponenten eines -dimensionalen Vektors und die Differenzen als Komponenten eines -dimensionalen Vektors , lässt sich der empirische Korrelationskoeffizient schließlich auch als Kosinus des von beiden Vektoren eingeschlossenen Winkels interpretieren:

Beispiel

Für das vorangegangene Beispiel aus der Sektkellerei ergibt sich folgende Tabelle für die Regression von auf bzw. für die Regression von auf :

Flaschenpreis verkaufte Menge
1 20 0 5 −5 −25 25 25 0,09 19,58
2 16 3 1 −2 −2 1 4 4,02 16,83
3 15 7 0 2 0 0 4 5,00 13,17
4 16 4 1 −1 −1 1 1 4,02 15,92
5 13 6 −2 1 −2 4 1 6,96 14,08
6 10 10 −5 5 −25 25 25 9,91 10,42
Summe 90 30 0 0 −55 56 60 30,00 90,00

Daraus ergeben sich folgende Werte für die Regression von auf :

Regression von auf
Koeffizient Allgemeine Formel Wert im Beispiel
Steigungsparameter der Regressionsgerade
Niveauparameter der Regressionsgerade
Geschätzte Regressionsgerade

Und die Werte für die Regression von auf lauten:

Regression von auf
Koeffizient Allgemeine Formel Wert im Beispiel
Steigungsparameter der Regressionsgerade
Niveauparameter der Regressionsgerade
Geschätzte Regressionsgerade

Das heißt, je nachdem ob man die Regression von auf oder die Regression von auf ausführt, erhält man unterschiedliche Regressionsparameter. Für die Berechnung des Korrelationskoeffizienten und des Bestimmheitsmaßes spielt jedoch die Regressionsrichtung keine Rolle.

Empirische Korrelation
Bestimmtheitsmaß

Verhältnis zur multiplen linearen Regression

Die einfache lineare Regression ist ein Spezialfall der multiplen linearen Regression. Die multiple lineare Regressionsgleichung ist gegeben durch

,

wobei , die Anzahl der exogenen Variablen darstellt. Für , ergibt sich die lineare Einfachregression.

Einfache lineare Regression in R

Als einfaches Beispiel wird der Korrelationskoeffizient zweier Datenreihen berechnet:

# Groesse wird als numerischer Vektor
# durch den Zuweisungsoperator "<-" definiert:
Groesse <- c(176, 166, 172, 184, 179, 170, 176)

# Gewicht wird als numerischer Vektor definiert:
Gewicht <- c(65, 55, 67, 82, 75, 65, 75)

# Berechnung des Korrelationskoeffizienten nach Pearson mit der Funktion "cor":
cor(Gewicht, Groesse, method = "pearson")

Das Ergebnis lautet 0.9295038.

Grafikausgabe des Beispiels

Mithilfe der Statistiksoftware R kann eine einfache lineare Regression durchgeführt werden. Dies kann in R durch die Funktion lm ausgeführt werden, wobei die abhängige Variable von den unabhängigen Variablen durch die Tilde getrennt wird. Die Funktion summary gibt die Koeffizienten der Regression und weitere Statistiken hierzu aus:

# Lineare Regression mit Gewicht als Zielvariable
# Ergebnis wird als reg gespeichert:
reg <- lm(Gewicht~Groesse)

# Ausgabe der Ergebnisse der obigen linearen Regression:
summary(reg)

Diagramme lassen sich einfach erzeugen:

# Streudiagramm der Daten:
plot(Gewicht~Groesse)

# Regressionsgerade hinzufügen:
abline(reg)
Commons: Lineare Regression – Sammlung von Bildern, Videos und Audiodateien

Literatur

  • George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee. Introduction to the Theory and Practice of Econometrics. John Wiley & Sons, New York, Chichester, Brisbane, Toronto, Singapore, ISBN 978-0471624141, second edition 1988.
  • Norman R. Draper, Harry Smith: Applied Regression Analysis. Wiley, New York 1998.
  • Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6. durchges. u. aktualisierte Aufl. 2013
  • Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2
  • Gerhard Opfer: Numerische Mathematik für Anfänger. 2. Auflage. Vieweg Verlag, 1994.
  • Peter Schönfeld: Methoden der Ökonometrie. Berlin/ Frankfurt 1969.
  • Dieter Urban, Jochen Mayerl: Regressionsanalyse: Theorie, Technik und Anwendung. 2., überarb. Auflage. VS Verlag, Wiesbaden 2006, ISBN 3-531-33739-4.
  • E. Zeidler (Hrsg.): Taschenbuch der Mathematik. (Bekannt als Bronstein und Semendjajew.) Stuttgart/ Leipzig/ Wiesbaden 2003.
  • K. Backhaus, B. Erichson, W. Plinke, R. Weiber: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 12. Auflage. Berlin u. a. 2008.
  • M.-W. Stoetzer: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung. Band 1: Eine nichtmathematische Einführung mit SPSS und Stata. Berlin 2017, ISBN 978-3-662-53824-1.

Einzelnachweise

  1. W. Zucchini, A. Schlegel, O. Nenadíc, S. Sperlich: Statistik für Bachelor- und Masterstudenten.
  2. a b Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6., durchges. u. aktualisierte Auflage. 2013, S. 49.
  3. a b Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 5. Auflage. Nelson Education 2015, S. 59.
  4. a b Jeffrey Wooldridge: Introductory Econometrics: A Modern Approach. 5. internationale Auflage. South-Western, Mason, OH 2013, ISBN 978-1-111-53439-4, S. 113–114 (englisch).
  5. J. F. Kenney, E. S. Keeping: Linear Regression and Correlation. In: Mathematics of Statistics. Pt. 1, 3. Auflage. Van Nostrand, Princeton, NJ 1962, S. 252–285.
  6. bezeichnet analog zu (Argument des Maximums) das Argument des Minimums
  7. Rainer Schlittgen: Regressionsanalysen mit R. 2013, ISBN 978-3-486-73967-1, S. 27 (abgerufen über De Gruyter Online).
  8. Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 5. Auflage. Nelson Education 2015
  9. Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6., durchges. u. aktualisierte Auflage. 2013, S. 135.
  10. Walter Gellert, Herbert Küstner, Manfred Hellwich, Herbert Kästner (Hrsg.): Kleine Enzyklopädie Mathematik. Leipzig 1970, S. 669–670.