„Instrumentvariablenschätzung“ – Versionsunterschied
[gesichtete Version] | [gesichtete Version] |
Linkvorschlag-Funktion: 3 Links hinzugefügt. |
|||
(17 dazwischenliegende Versionen von 7 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
Die '''Instrumentvariablenschätzung''' (IV-Schätzung) ist ein Oberbegriff für bestimmte [[Schätzmethode (Statistik)|Schätzverfahren]] in der [[Schließende Statistik|schließenden Statistik]] |
Die '''Instrumentvariablenschätzung''' (kurz: '''IV-Schätzung'''), auch '''Methode der Instrumentvariablen''', oder '''Instrumentvariablenmethode''' ist ein Oberbegriff für bestimmte [[Schätzmethode (Statistik)|Schätzverfahren]] in der [[Schließende Statistik|schließenden Statistik]]. |
||
Ziel der IV-Methode ist es, bei einer [[Regressionsanalyse]] eine Korrelation zwischen den [[Abhängige und unabhängige Variable|erklärenden Variablen]] und dem [[Fehlerterm]] auszuschließen. Dies geschieht indem man die erklärenden Variablen durch andere Größen ersetzt, die zwar in engem Zusammenhang mit ihnen stehen, aber nicht mit dem Fehlerterm korrelieren oder eine [[Linearkombination]] anderer erklärender Variablen darstellen. |
Ziel der IV-Methode ist es, bei einer [[Regressionsanalyse]] eine Korrelation zwischen den [[Abhängige und unabhängige Variable|erklärenden Variablen]] und dem [[Fehlerterm]] auszuschließen. Dies geschieht, indem man die erklärenden Variablen durch andere Größen ersetzt, die zwar in engem Zusammenhang mit ihnen stehen, aber nicht mit dem Fehlerterm korrelieren oder eine [[Linearkombination]] anderer erklärender Variablen darstellen. |
||
== Geschichte == |
== Geschichte == |
||
Während Instrumentvariablen heutzutage vor allem in Situationen mit ausgelassenen Variablen angewandt werden, wurden sie historisch zunächst als Lösung für Probleme aufgrund von Gleichzeitigkeit benutzt. Bei der Schätzung von Angebots- und Nachfragekurven zum Beispiel ergibt sich das Problem, dass als Datenpunkte nur Gleichgewichtspreise- und mengen bereitstehen, also Mengen, bei denen Angebot und Nachfrage aufeinander abgestimmt sind.<ref>J. D. Angrist, A. B. Krueger: ''Instrumental Variables and the Seach for Identification.'' 2001, S. 69.</ref> Der amerikanische Ökonom Philip G. Wright veröffentlichte 1928 ein Buch unter dem Titel ''The Tariff on Animal and Vegetable Oils''. In einem der Anhänge zu diesem Buch stellte Wright eine Methode dar, mit der die Nachfrage- und |
Während Instrumentvariablen heutzutage vor allem in Situationen mit [[Verzerrung durch ausgelassene Variablen|ausgelassenen Variablen]] angewandt werden, wurden sie historisch zunächst als Lösung für Probleme aufgrund von Gleichzeitigkeit benutzt. Bei der Schätzung von Angebots- und Nachfragekurven zum Beispiel ergibt sich das Problem, dass als Datenpunkte nur Gleichgewichtspreise- und mengen bereitstehen, also Mengen, bei denen Angebot und Nachfrage aufeinander abgestimmt sind.<ref>J. D. Angrist, A. B. Krueger: ''Instrumental Variables and the Seach for Identification.'' 2001, S. 69.</ref> Der amerikanische Ökonom Philip G. Wright veröffentlichte 1928 ein Buch unter dem Titel ''The Tariff on Animal and Vegetable Oils''. In einem der Anhänge zu diesem Buch stellte Wright eine Methode dar, mit der die Nachfrage- und Angebotselastizitäten von Butter und Leinsamenöl geschätzt werden können. Dies gilt als die erste Studie, die den Instrumentalvariablenansatz benutzte.<ref>J. H. Stock, M. W. Watson: ''Introduction to Econometrics.'' 2007, S. 425.</ref> |
||
Später wurde herausgefunden, dass Instrumentvariablen auch Verzerrungen aufgrund von Messfehlern bereinigen können. Dies gilt auch für [[Verzerrung aufgrund ausgelassener Variablen|Verzerrungen aufgrund ausgelassener Variablen]] ( |
Später wurde herausgefunden, dass Instrumentvariablen auch Verzerrungen aufgrund von Messfehlern bereinigen können. Dies gilt auch für [[Verzerrung aufgrund ausgelassener Variablen|Verzerrungen aufgrund ausgelassener Variablen]] ({{enS}} ''omitted variable bias'').<ref>J. D. Angrist, A. B. Krueger: ''Instrumental Variables and the Seach for Identification.'' 2001, S. 71 f.</ref> |
||
== Idee == |
== Idee == |
||
In vielen Situationen, in denen kausale Effekte untersucht und quantifiziert werden sollen, besteht eine Korrelation zwischen dem [[Störgröße und Residuum|Fehlerterm]] und der erklärenden Variable. |
In vielen Situationen, in denen kausale Effekte untersucht und quantifiziert werden sollen, besteht eine Korrelation zwischen dem [[Störgröße und Residuum|Fehlerterm]] und der erklärenden Variable. |
||
Möchte man zum Beispiel den Effekt von Bildung (<math>x</math>) auf das Arbeitseinkommen einer Person (<math>y</math>) untersuchen, so könnte man zum Beispiel ein Modell folgender Art schätzen ([[ |
Möchte man zum Beispiel den Effekt von Bildung (<math>x</math>) auf das Arbeitseinkommen einer Person (<math>y</math>) untersuchen, so könnte man zum Beispiel ein Modell folgender Art schätzen ([[Lineare Einfachregression]]): |
||
: <math> y_i = \alpha + \beta x_i + |
: <math> y_i = \alpha + \beta x_i + \epsilon_i</math>, wobei <math>\epsilon_i</math> den einzelnen Fehlerterm darstellt. |
||
Eine Möglichkeit zur Schätzung von <math>\beta</math> wäre die [[Methode der kleinsten Quadrate]]. Diese beruht jedoch auf mehreren Annahmen, unter anderem darauf, dass der Fehlerterm und die erklärende Variable unkorreliert sind |
Eine Möglichkeit zur Schätzung von <math>\beta</math>, also zur Ermittlung von <math>\widehat{\beta}</math> wäre die [[Methode der kleinsten Quadrate|Methode der kleinsten Fehlerquadrate]] (KQ-Schätzer). Diese beruht jedoch auf mehreren Annahmen, unter anderem darauf, dass der Fehlerterm und die erklärende Variable unkorreliert sind, also: |
||
<math>\operatorname{Corr}(x_i, \epsilon_i)= \frac{\operatorname{Cov}(x_i,\epsilon_i)}{\sigma_x\sigma_\epsilon}\approx0 |
|||
</math> <math> \forall i\in I |
|||
</math> |
|||
Dies ist jedoch im genannten Beispiel sehr unwahrscheinlich. Es lassen sich leicht viele Variablen ermitteln, die nicht im Modell auftauchen, allerdings sowohl einen Effekt auf Bildung, als auch auf das Einkommen haben. Manche dieser Variablen sind obendrein kaum oder gar nicht messbar und können deswegen auch nicht als Kontrollvariablen mit in das Modell aufgenommen werden. So ist zum Beispiel der Fleiß einer Person mit großer Wahrscheinlichkeit sowohl mit dem Bildungsgrad dieser Person, als auch mit ihrem Einkommen korreliert; da der Fleiß auch nicht messbar ist und deswegen im Fehlerterm verbleibt, wird somit eben jene Korrelation zwischen der erklärenden Variable und dem Fehlerterm bestehen, die für die Validität der Methode der Kleinsten Quadrate nicht bestehen darf. In einem solchen Fall besteht ein Problem aufgrund ausgelassener Variablen (engl. ''omitted variables''), und der KQ-Schätzer wird inkonsistent sein. Die Korrelation zwischen dem Fehlerterm und den erklärenden Variablen wird als [[Endogenität]] bezeichnet. Neben ausgelassenen Variablen kann dieses Problem auch entstehen, wenn die Variablen nicht genau, sondern nur mit Messfehler gemessen werden können und wenn eine beidseitige, simultane Kausalität besteht (<math>x</math> hat einen kausalen Effekt auf <math>y</math>, <math>y</math> hat einen kausalen Effekt auf <math>x</math>). |
Dies ist jedoch im genannten Beispiel sehr unwahrscheinlich. Es lassen sich leicht viele Variablen ermitteln, die nicht im Modell auftauchen, allerdings sowohl einen Effekt auf Bildung, als auch auf das Einkommen haben. Manche dieser Variablen sind obendrein kaum oder gar nicht messbar und können deswegen auch nicht als Kontrollvariablen mit in das Modell aufgenommen werden. So ist zum Beispiel der Fleiß einer Person mit großer Wahrscheinlichkeit sowohl mit dem Bildungsgrad dieser Person, als auch mit ihrem Einkommen korreliert; da der Fleiß auch nicht messbar ist und deswegen im Fehlerterm verbleibt, wird somit eben jene Korrelation zwischen der erklärenden Variable und dem Fehlerterm bestehen, die für die Validität der Methode der Kleinsten Quadrate nicht bestehen darf. In einem solchen Fall besteht ein Problem aufgrund ausgelassener Variablen (engl. ''omitted variables''), und der KQ-Schätzer wird inkonsistent sein. Die Korrelation zwischen dem Fehlerterm und den erklärenden Variablen wird als [[Endogenität]] bezeichnet. Neben ausgelassenen Variablen kann dieses Problem auch entstehen, wenn die Variablen nicht genau, sondern nur mit Messfehler gemessen werden können und wenn eine beidseitige, simultane Kausalität besteht (<math>x</math> hat einen kausalen Effekt auf <math>y</math>, <math>y</math> hat einen kausalen Effekt auf <math>x</math>). |
||
Zeile 19: | Zeile 24: | ||
== Mathematischer Hintergrund == |
== Mathematischer Hintergrund == |
||
Für den Kleinste-Quadrate-Schätzer gilt (im einfachen linearen Regressionsmodell mit einer erklärenden Variable): |
Für den Kleinste-Quadrate-Schätzer (KQ-Schätzer) gilt (im einfachen linearen Regressionsmodell mit einer erklärenden Variable): |
||
: <math> \widehat{\beta}_\mathrm{ |
: <math> \widehat{\beta}_\mathrm{KQ} = \frac{\sum_i x_i y_i}{\sum_i x_i^2} = \frac{\sum_i x_i (x_i \beta + \epsilon_i)}{\sum_i x_i^2} = |
||
\beta + \frac{\sum_i x_i \epsilon_i}{\sum_i x_i^2}.</math> |
\beta + \frac{\sum_i x_i \epsilon_i}{\sum_i x_i^2}.</math> |
||
Wenn <math>x</math> und <math> \epsilon</math> nicht [[Korrelation|korreliert]] sind, geht der zweite Term bei unendlich vielen Beobachtungen gegen Null und der Schätzer ist [[Konsistente Schätzfolge|konsistent]]. Wenn <math>x</math> und <math> |
Wenn <math>x</math> und <math> \epsilon</math> nicht [[Korrelation|korreliert]] sind, geht der zweite Term bei unendlich vielen Beobachtungen gegen Null und der Schätzer ist [[Konsistente Schätzfolge|konsistent]] für <math>\beta</math>. Wenn <math>x</math> und <math>\epsilon</math> korreliert sind, ist der Schätzer inkonsistent. |
||
Eine Instrumentvariable ist mit der erklärenden Variable, aber nicht mit dem Fehlerterm korreliert. Der Schätzer lautet: |
Eine Instrumentvariable <math>Z</math> ist mit der erklärenden Variable <math>X</math>, aber nicht mit dem Fehlerterm <math>\epsilon</math>korreliert. Der Schätzer lautet: |
||
:<math> \widehat{\beta}_\mathrm{IV} = \frac{\sum_i z_i y_i}{\sum_i z_i x_i} = \frac{\sum_i z_i (x_i \beta + \epsilon_i)}{\sum_i z_i x_i} = \beta + \frac{\sum_i z_i \epsilon_i}{\sum_i z_i x_i}.</math> |
:<math> \widehat{\beta}_\mathrm{IV} = \frac{\sum_i z_i y_i}{\sum_i z_i x_i} = \frac{\sum_i z_i (x_i \beta + \epsilon_i)}{\sum_i z_i x_i} = \beta + \frac{\sum_i z_i \epsilon_i}{\sum_i z_i x_i}.</math> |
||
Zeile 31: | Zeile 36: | ||
Wenn <math>z</math> und <math> \epsilon</math> nicht korreliert sind, verschwindet der letzte Term und führt zu einem konsistenten Schätzer. Beachte: Ist <math>x</math> nicht mit dem Fehlerterm korreliert, ist <math>x</math> selbst eine Instrumentenvariable. In diesem Fall ist der KQ-Schätzer mit dem IV-Schätzer identisch. |
Wenn <math>z</math> und <math> \epsilon</math> nicht korreliert sind, verschwindet der letzte Term und führt zu einem konsistenten Schätzer. Beachte: Ist <math>x</math> nicht mit dem Fehlerterm korreliert, ist <math>x</math> selbst eine Instrumentenvariable. In diesem Fall ist der KQ-Schätzer mit dem IV-Schätzer identisch. |
||
Der Ansatz oben kann leicht zu einer Regression mit mehreren erklärenden Variablen verallgemeinert werden. <math>X</math> sei eine <math>T \times K</math> Matrix von erklärenden Variablen, die aus <math>T</math> Beobachtungen von <math>K</math> Variablen resultiert. <math>Z</math> sei eine <math>T \times K</math> Matrix von Instrumentvariablen. Dann folgt |
Der Ansatz oben kann leicht zu einer Regression mit mehreren erklärenden Variablen verallgemeinert werden. <math>X</math> sei eine <math>T \times K</math> Matrix von erklärenden Variablen ([[Datenmatrix]]), die aus <math>T</math> Beobachtungen von <math>K</math> Variablen resultiert. <math>Z</math> sei eine <math>T \times K</math> Matrix von Instrumentvariablen. Dann folgt |
||
:<math> \ |
:<math> \hat{\beta}_\mathrm{IV} = (Z'X)^{-1}Z'Y = (Z'X)^{-1}Z'(X\beta+\epsilon) = \beta + (Z'X)^{-1}Z'\epsilon.</math> |
||
== Implementierung == |
== Implementierung == |
||
Diese Technik wird häufig mittels einer ''zweistufigen Kleinste-Quadrate-Schätzung'' (engl. ''two stage least squares'', kurz 2SLS) implementiert. Im ersten Schritt des |
Diese Technik wird häufig mittels einer ''[[Zweistufige Kleinste-Quadrate-Schätzung|zweistufigen Kleinste-Quadrate-Schätzung]]'' (engl. ''two stage least squares'', kurz 2SLS) implementiert. Im ersten Schritt des zweistufigen Verfahrens wird jede endogene erklärende Variable auf alle gültigen Instrumente sowie alle [[Exogene und endogene Variable#Exogene und endogene erklärende Variable|exogenen Variablen]] regressiert. Da die Instrumente exogen sind, wird diese Approximation der endogenen Variablen nicht mit dem Fehlerterm korrelieren. Intuitiv bedeutet dies, dass die Beziehung zwischen <math>y</math> und den endogenen erklärenden Variablen untersucht wird. Im zweiten Schritt wird die interessierende Regression wie gewohnt geschätzt, ''aber'' alle endogenen erklärenden Variablen werden durch die Näherungswerte aus Schritt 1 ersetzt. |
||
Der so gewonnene Schätzer ist konsistent. Damit die Standardfehler richtig berechnet werden, muss nun nur noch die Summe der quadrierten Fehlerterme korrigiert werden: |
Der so gewonnene Schätzer ist konsistent. Damit die [[Standardfehler]] richtig berechnet werden, muss nun nur noch die Summe der quadrierten Fehlerterme korrigiert werden: |
||
: '''Schritt 1:''' <math>\ |
: '''Schritt 1:''' <math>\hat{X}= Z(Z' Z)^{-1}Z' X</math> |
||
: '''Schritt 2:''' <math>\ |
: '''Schritt 2:''' <math>\hat B_\mathrm{IV}= (\hat{X}'\hat{X})^{-1}\hat{X}'Y</math> |
||
== Bedingungen == |
== Bedingungen == |
||
Ein gültiges Instrument muss folgende zwei Bedingungen erfüllen. |
Ein gültiges Instrument muss folgende zwei Bedingungen erfüllen. |
||
=== Relevanzbedingung === |
=== Relevanzbedingung === |
||
Ein Problem tritt auf, wenn die Instrumente nur schwach mit der/den endogenen Variable(n) korreliert sind („schwaches“ Instrument). Überprüft wird diese Annahme üblicherweise durch einen [[F-Test]] in der ersten Stufe der 2SLS-Regression. Die abzulehnde Nullhypothese für diesen Test ist, dass die Instrumente gemeinsam keinen von null unterscheidbaren Einfluss auf die endogene Variable besitzen. Als Faustregel gilt, dass die resultierende F-Statistik größer als 10 sein sollte.<ref>Douglas Staiger, James H. Stock: ''Instrumental Variables Regression with Weak Instruments.'' In: ''Econometrica, Econometric Society.'' vol. 65(3), Mai 1997, S. 557–586.</ref> |
Ein Problem tritt auf, wenn die Instrumente nur schwach mit der/den endogenen Variable(n) korreliert sind („schwaches“ Instrument). Überprüft wird diese Annahme üblicherweise durch einen [[F-Test]] in der ersten Stufe der 2SLS-Regression. Die abzulehnde Nullhypothese für diesen Test ist, dass die Instrumente gemeinsam keinen von null unterscheidbaren Einfluss auf die endogene Variable besitzen. Als [[Faustregel]] gilt, dass die resultierende F-Statistik größer als 10 sein sollte.<ref>Douglas Staiger, James H. Stock: ''Instrumental Variables Regression with Weak Instruments.'' In: ''Econometrica, Econometric Society.'' vol. 65(3), Mai 1997, S. 557–586.</ref> |
||
=== Exogenität === |
=== Exogenität === |
||
Ein gültiges Instrument korreliert mit der endogenen Variable und mit der zu erklärenden Variable, aber nicht dem |
Ein gültiges Instrument korreliert mit der endogenen Variable und mit der zu erklärenden Variable, aber nicht dem Fehlerterm. Schwierig ist hierbei, dass diese Annahme nicht auf Basis der vorhandenen Daten statistisch getestet werden kann, sondern argumentativ begründet werden muss. Lediglich wenn ein gültiges Instrument bereits existiert lässt sich die Exogenität eines weiteren Instruments mit Hilfe des [[Sargan-Hansen-Test]]s überprüfen. |
||
Darüber hinaus sind Schätzer auf Basis von gültigen Instrumentvariablen zwar konsistent, aber in der Regel nicht unverzerrt, sodass größere [[Stichprobe]]n benötigt werden.<ref>J. D. Angrist, A. B. Krueger: ''Instrumental Variables and the Seach for Identification.'' 2001, S. 71.</ref> |
Darüber hinaus sind Schätzer auf Basis von gültigen Instrumentvariablen zwar konsistent, aber in der Regel nicht unverzerrt, sodass größere [[Stichprobe]]n benötigt werden.<ref>J. D. Angrist, A. B. Krueger: ''Instrumental Variables and the Seach for Identification.'' 2001, S. 71.</ref> |
||
Zeile 57: | Zeile 63: | ||
== Literatur == |
== Literatur == |
||
=== Lehrbücher und Übersichtsartikel === |
=== Lehrbücher und Übersichtsartikel === |
||
* [[Joshua Angrist|Joshua D. Angrist]], Jörn-Steffen Pischke: ''Mostly Harmless Econometrics: An Empiricist's Companion.'' Princeton University Press, 2008. |
* [[Joshua Angrist|Joshua D. Angrist]], Jörn-Steffen Pischke: ''Mostly Harmless Econometrics: An Empiricist's Companion.'' [[Princeton University Press]], 2008. |
||
* Joshua D. Angrist, Alan B. Krueger: ''Instrumental Variables and the Seach for Identification: From Supply and Demand to Natural Experiments.'' In: ''Journal of Economic Perspectives.'' Volume 15, Number 4, Herbst 2001, S. 69–85. |
* Joshua D. Angrist, Alan B. Krueger: ''Instrumental Variables and the Seach for Identification: From Supply and Demand to Natural Experiments.'' In: ''Journal of Economic Perspectives.'' Volume 15, Number 4, Herbst 2001, S. 69–85. |
||
* Hans-Friedrich Eckey, Reinhold Kosfeld, Christian Dreger: ''Ökonometrie.'' 3., überarb. und erw. Auflage. Gabler, Wiesbaden 2004. |
* Hans-Friedrich Eckey, Reinhold Kosfeld, Christian Dreger: ''Ökonometrie.'' 3., überarb. und erw. Auflage. Gabler, Wiesbaden 2004. |
||
* William H. Greene: ''Econometric Analysis.'' 5. Auflage. Prentice Hall, Upper Saddle River, NJ 2003. |
* William H. Greene: ''Econometric Analysis.'' 5. Auflage. Prentice Hall, Upper Saddle River, NJ 2003. |
||
* James H. Stock, Mark W. Watson: ''Introduction to Econometrics.'' 2. Auflage. Pearson Education, 2007. |
* James H. Stock, Mark W. Watson: ''Introduction to Econometrics.'' 2. Auflage. Pearson Education, 2007. |
||
* Marno Verbeek: ''A Guide to Modern Econometrics.'' 4. Auflage. John Wiley & Sons, Chichester 2012. |
* Marno Verbeek: ''A Guide to Modern Econometrics.'' 4. Auflage. [[John Wiley & Sons]], Chichester 2012. |
||
* Jeffrey M. Wooldridge: ''Econometric Analysis of Cross Section and Panel Data.'' MIT Press, Cambridge, Mass. u. a. 2002. |
* Jeffrey M. Wooldridge: ''Econometric Analysis of Cross Section and Panel Data.'' MIT Press, Cambridge, Mass. u. a. 2002. |
||
=== Beispiele für Studien auf Basis von Instrumentvariablen === |
=== Beispiele für Studien auf Basis von Instrumentvariablen === |
||
* [[Daron Acemoglu]], Simon Johnson, James A. Robinson: ''[[The colonial origins of comparative development|The Colonial Origins of Comparative Development: An Empirical Investigation]].'' In: ''American Economic Review.'' Dezember 2001, S. 1369–1401. |
* [[Daron Acemoglu]], [[Simon Johnson]], [[James A. Robinson]]: ''[[The colonial origins of comparative development|The Colonial Origins of Comparative Development: An Empirical Investigation]].'' In: ''American Economic Review.'' Dezember 2001, S. 1369–1401. |
||
* Joshua D. Angrist, [[Alan B. Krueger]]: ''Does Compulsory School Attendance Affect Schooling and Earnings?'' In: ''Quarterly Journal of Economics.'' Vol. 106, 1991, S. 979–1014. |
* Joshua D. Angrist, [[Alan B. Krueger]]: ''Does Compulsory School Attendance Affect Schooling and Earnings?'' In: ''Quarterly Journal of Economics.'' Vol. 106, 1991, S. 979–1014. |
||
* [[Steven Levitt|Steven D. Levitt]]: ''The Effect of Prison Population Size on Crime Rates: Evidence from Prison Overcrowding Litigation.'' In: ''Quarterly Journal of Economics.'' Vol. 111, 1996, No. 2, S. 319–351. |
* [[Steven Levitt|Steven D. Levitt]]: ''The Effect of Prison Population Size on Crime Rates: Evidence from Prison Overcrowding Litigation.'' In: ''Quarterly Journal of Economics.'' Vol. 111, 1996, No. 2, S. 319–351. |
Aktuelle Version vom 11. Oktober 2024, 06:30 Uhr
Die Instrumentvariablenschätzung (kurz: IV-Schätzung), auch Methode der Instrumentvariablen, oder Instrumentvariablenmethode ist ein Oberbegriff für bestimmte Schätzverfahren in der schließenden Statistik.
Ziel der IV-Methode ist es, bei einer Regressionsanalyse eine Korrelation zwischen den erklärenden Variablen und dem Fehlerterm auszuschließen. Dies geschieht, indem man die erklärenden Variablen durch andere Größen ersetzt, die zwar in engem Zusammenhang mit ihnen stehen, aber nicht mit dem Fehlerterm korrelieren oder eine Linearkombination anderer erklärender Variablen darstellen.
Geschichte
[Bearbeiten | Quelltext bearbeiten]Während Instrumentvariablen heutzutage vor allem in Situationen mit ausgelassenen Variablen angewandt werden, wurden sie historisch zunächst als Lösung für Probleme aufgrund von Gleichzeitigkeit benutzt. Bei der Schätzung von Angebots- und Nachfragekurven zum Beispiel ergibt sich das Problem, dass als Datenpunkte nur Gleichgewichtspreise- und mengen bereitstehen, also Mengen, bei denen Angebot und Nachfrage aufeinander abgestimmt sind.[1] Der amerikanische Ökonom Philip G. Wright veröffentlichte 1928 ein Buch unter dem Titel The Tariff on Animal and Vegetable Oils. In einem der Anhänge zu diesem Buch stellte Wright eine Methode dar, mit der die Nachfrage- und Angebotselastizitäten von Butter und Leinsamenöl geschätzt werden können. Dies gilt als die erste Studie, die den Instrumentalvariablenansatz benutzte.[2]
Später wurde herausgefunden, dass Instrumentvariablen auch Verzerrungen aufgrund von Messfehlern bereinigen können. Dies gilt auch für Verzerrungen aufgrund ausgelassener Variablen (englisch omitted variable bias).[3]
Idee
[Bearbeiten | Quelltext bearbeiten]In vielen Situationen, in denen kausale Effekte untersucht und quantifiziert werden sollen, besteht eine Korrelation zwischen dem Fehlerterm und der erklärenden Variable. Möchte man zum Beispiel den Effekt von Bildung () auf das Arbeitseinkommen einer Person () untersuchen, so könnte man zum Beispiel ein Modell folgender Art schätzen (Lineare Einfachregression):
- , wobei den einzelnen Fehlerterm darstellt.
Eine Möglichkeit zur Schätzung von , also zur Ermittlung von wäre die Methode der kleinsten Fehlerquadrate (KQ-Schätzer). Diese beruht jedoch auf mehreren Annahmen, unter anderem darauf, dass der Fehlerterm und die erklärende Variable unkorreliert sind, also:
Dies ist jedoch im genannten Beispiel sehr unwahrscheinlich. Es lassen sich leicht viele Variablen ermitteln, die nicht im Modell auftauchen, allerdings sowohl einen Effekt auf Bildung, als auch auf das Einkommen haben. Manche dieser Variablen sind obendrein kaum oder gar nicht messbar und können deswegen auch nicht als Kontrollvariablen mit in das Modell aufgenommen werden. So ist zum Beispiel der Fleiß einer Person mit großer Wahrscheinlichkeit sowohl mit dem Bildungsgrad dieser Person, als auch mit ihrem Einkommen korreliert; da der Fleiß auch nicht messbar ist und deswegen im Fehlerterm verbleibt, wird somit eben jene Korrelation zwischen der erklärenden Variable und dem Fehlerterm bestehen, die für die Validität der Methode der Kleinsten Quadrate nicht bestehen darf. In einem solchen Fall besteht ein Problem aufgrund ausgelassener Variablen (engl. omitted variables), und der KQ-Schätzer wird inkonsistent sein. Die Korrelation zwischen dem Fehlerterm und den erklärenden Variablen wird als Endogenität bezeichnet. Neben ausgelassenen Variablen kann dieses Problem auch entstehen, wenn die Variablen nicht genau, sondern nur mit Messfehler gemessen werden können und wenn eine beidseitige, simultane Kausalität besteht ( hat einen kausalen Effekt auf , hat einen kausalen Effekt auf ).
Weitere Ansätze zur Lösung von Endogenitätsproblemen sind Regressions-Diskontinuitäts-Analyse, Paneldaten und darauf aufbauende Schätzmethoden sowie das klassische Experiment.
Mathematischer Hintergrund
[Bearbeiten | Quelltext bearbeiten]Für den Kleinste-Quadrate-Schätzer (KQ-Schätzer) gilt (im einfachen linearen Regressionsmodell mit einer erklärenden Variable):
Wenn und nicht korreliert sind, geht der zweite Term bei unendlich vielen Beobachtungen gegen Null und der Schätzer ist konsistent für . Wenn und korreliert sind, ist der Schätzer inkonsistent.
Eine Instrumentvariable ist mit der erklärenden Variable , aber nicht mit dem Fehlerterm korreliert. Der Schätzer lautet:
Wenn und nicht korreliert sind, verschwindet der letzte Term und führt zu einem konsistenten Schätzer. Beachte: Ist nicht mit dem Fehlerterm korreliert, ist selbst eine Instrumentenvariable. In diesem Fall ist der KQ-Schätzer mit dem IV-Schätzer identisch.
Der Ansatz oben kann leicht zu einer Regression mit mehreren erklärenden Variablen verallgemeinert werden. sei eine Matrix von erklärenden Variablen (Datenmatrix), die aus Beobachtungen von Variablen resultiert. sei eine Matrix von Instrumentvariablen. Dann folgt
Implementierung
[Bearbeiten | Quelltext bearbeiten]Diese Technik wird häufig mittels einer zweistufigen Kleinste-Quadrate-Schätzung (engl. two stage least squares, kurz 2SLS) implementiert. Im ersten Schritt des zweistufigen Verfahrens wird jede endogene erklärende Variable auf alle gültigen Instrumente sowie alle exogenen Variablen regressiert. Da die Instrumente exogen sind, wird diese Approximation der endogenen Variablen nicht mit dem Fehlerterm korrelieren. Intuitiv bedeutet dies, dass die Beziehung zwischen und den endogenen erklärenden Variablen untersucht wird. Im zweiten Schritt wird die interessierende Regression wie gewohnt geschätzt, aber alle endogenen erklärenden Variablen werden durch die Näherungswerte aus Schritt 1 ersetzt.
Der so gewonnene Schätzer ist konsistent. Damit die Standardfehler richtig berechnet werden, muss nun nur noch die Summe der quadrierten Fehlerterme korrigiert werden:
- Schritt 1:
- Schritt 2:
Bedingungen
[Bearbeiten | Quelltext bearbeiten]Ein gültiges Instrument muss folgende zwei Bedingungen erfüllen.
Relevanzbedingung
[Bearbeiten | Quelltext bearbeiten]Ein Problem tritt auf, wenn die Instrumente nur schwach mit der/den endogenen Variable(n) korreliert sind („schwaches“ Instrument). Überprüft wird diese Annahme üblicherweise durch einen F-Test in der ersten Stufe der 2SLS-Regression. Die abzulehnde Nullhypothese für diesen Test ist, dass die Instrumente gemeinsam keinen von null unterscheidbaren Einfluss auf die endogene Variable besitzen. Als Faustregel gilt, dass die resultierende F-Statistik größer als 10 sein sollte.[4]
Exogenität
[Bearbeiten | Quelltext bearbeiten]Ein gültiges Instrument korreliert mit der endogenen Variable und mit der zu erklärenden Variable, aber nicht dem Fehlerterm. Schwierig ist hierbei, dass diese Annahme nicht auf Basis der vorhandenen Daten statistisch getestet werden kann, sondern argumentativ begründet werden muss. Lediglich wenn ein gültiges Instrument bereits existiert lässt sich die Exogenität eines weiteren Instruments mit Hilfe des Sargan-Hansen-Tests überprüfen.
Darüber hinaus sind Schätzer auf Basis von gültigen Instrumentvariablen zwar konsistent, aber in der Regel nicht unverzerrt, sodass größere Stichproben benötigt werden.[5]
Interpretation
[Bearbeiten | Quelltext bearbeiten]Eine Schätzung basierend auf Instrumentalvariablen wird als lokaler Durchschnittlicher Behandlungseffekt (engl. local average treatment effect, kurz LATE) interpretiert. Dies bedeutet, dass die Instrumentvariablenschätzung nicht den durchschnittlichen Behandlungseffekt für die ganze Population schätzt, sondern nur für jene Subpopulation, für die das Instrument die endogene Variable beeinflusst. Der Grund hierfür ist, dass lediglich der durch das Instrument erklärbare Teil der Variation in der endogenen Variable für die Schätzung genutzt werden kann.
Literatur
[Bearbeiten | Quelltext bearbeiten]Lehrbücher und Übersichtsartikel
[Bearbeiten | Quelltext bearbeiten]- Joshua D. Angrist, Jörn-Steffen Pischke: Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press, 2008.
- Joshua D. Angrist, Alan B. Krueger: Instrumental Variables and the Seach for Identification: From Supply and Demand to Natural Experiments. In: Journal of Economic Perspectives. Volume 15, Number 4, Herbst 2001, S. 69–85.
- Hans-Friedrich Eckey, Reinhold Kosfeld, Christian Dreger: Ökonometrie. 3., überarb. und erw. Auflage. Gabler, Wiesbaden 2004.
- William H. Greene: Econometric Analysis. 5. Auflage. Prentice Hall, Upper Saddle River, NJ 2003.
- James H. Stock, Mark W. Watson: Introduction to Econometrics. 2. Auflage. Pearson Education, 2007.
- Marno Verbeek: A Guide to Modern Econometrics. 4. Auflage. John Wiley & Sons, Chichester 2012.
- Jeffrey M. Wooldridge: Econometric Analysis of Cross Section and Panel Data. MIT Press, Cambridge, Mass. u. a. 2002.
Beispiele für Studien auf Basis von Instrumentvariablen
[Bearbeiten | Quelltext bearbeiten]- Daron Acemoglu, Simon Johnson, James A. Robinson: The Colonial Origins of Comparative Development: An Empirical Investigation. In: American Economic Review. Dezember 2001, S. 1369–1401.
- Joshua D. Angrist, Alan B. Krueger: Does Compulsory School Attendance Affect Schooling and Earnings? In: Quarterly Journal of Economics. Vol. 106, 1991, S. 979–1014.
- Steven D. Levitt: The Effect of Prison Population Size on Crime Rates: Evidence from Prison Overcrowding Litigation. In: Quarterly Journal of Economics. Vol. 111, 1996, No. 2, S. 319–351.
Anmerkungen
[Bearbeiten | Quelltext bearbeiten]- ↑ J. D. Angrist, A. B. Krueger: Instrumental Variables and the Seach for Identification. 2001, S. 69.
- ↑ J. H. Stock, M. W. Watson: Introduction to Econometrics. 2007, S. 425.
- ↑ J. D. Angrist, A. B. Krueger: Instrumental Variables and the Seach for Identification. 2001, S. 71 f.
- ↑ Douglas Staiger, James H. Stock: Instrumental Variables Regression with Weak Instruments. In: Econometrica, Econometric Society. vol. 65(3), Mai 1997, S. 557–586.
- ↑ J. D. Angrist, A. B. Krueger: Instrumental Variables and the Seach for Identification. 2001, S. 71.