Modul 2: Einfache Lineare Regression

PI 6250 – Ökonometrie I

Max Heinze (mheinze@wu.ac.at)

Department für Volkswirtschaftslehre, WU Wien

Basierend auf einem Foliensatz von Simon Heß

6. März 2025

 

 

 

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

Was haben diese Schlagzeilen gemeinsam?




Bedingte Erwartung von \(y\)

Die Aussagen auf der vorherigen Folie betreffen alle die bedingte Erwartung einer abhängigen Variable \(y\), gegeben eine erklärende Variable \(x\).

  • Manche Aussagen sind trotzdem Unsinn.
  • Wir werden lernen, zu zeigen, wieso.

Bedingte Erwartungen sind ein wichtiges Maß, das eine abhängige Variable \(y\) mit einer erklärenden Variable \(x\) in Relation setzt, zum Beispiel so:

\[ \mathrm{E}\left(\textcolor{var(--primary-color)}{y}\mid\textcolor{var(--secondary-color)}{x}\right) = 0.4 + 0.5\textcolor{var(--secondary-color)}{x} \]

Auf diese Weise können wir Variation in der abhängigen Variable \(y\) in zwei Komponenten unterteilen:

  • Variation, die von der erklärenden Variable \(x\) ausgeht, und
  • Variation, die zufällig entsteht oder von unbeobachteten Faktoren ausgeht.

Evaluierung von Politikmaßnahmen

Wenn wir bestimmte Maßnahmen evaluieren, sind wir oft daran interessiert, Unterschiede zwischen verschiedenen Gruppen zu verstehen.

Zwei Beispiele:

  • Effekte eines Medikaments auf die Gesundheit der Patient:innen in einer randomisierten Doppelblindstudie \[ \mathrm{E}\left(\textcolor{var(--primary-color)}{\mathrm{Gesundheit}}\mid\textcolor{var(--secondary-color)}{\mathrm{Medikament}=1}\right) - \mathrm{E}\left(\textcolor{var(--primary-color)}{\mathrm{Gesundheit}}\mid\textcolor{var(--secondary-color)}{\mathrm{Medikament}=0}\right) \]
  • Gender Pay Gap für ein bestimmtes Bildungsniveau \[ \mathrm{E}\left(\mathrm{log}(\textcolor{var(--primary-color)}{\mathrm{Lohn}})\mid\textcolor{var(--secondary-color)}{\mathrm{M\ddot{a}nnlich}=1},\dots\right) - \mathrm{E}\left(\mathrm{log}(\textcolor{var(--primary-color)}{\mathrm{Lohn}})\mid\textcolor{var(--secondary-color)}{\mathrm{M\ddot{a}nnlich}=0},\dots\right) \]

In beiden Fällen untersuchen wir den durchschnittlichen Behandlungseffekt (engl. average treatment effect, ATE): der durchschnittliche Effekt einer „Behandlung“ relativ zu keiner „Behandlung“.

Vorhersagen

Wir können auch daran interessiert sein, ein Ergebnis für eine bestimmte Ausgangssituation vorherzusagen.

Angenommen, wir kennen die Verteilung von Schulklassengröße und Prüfungsergebnissen. Für einen neuen Bezirk kannen wir nur die Klassengröße. Was ist die beste Vorhersage für die Prüfungsergebnisse im neuen Bezirk?

  • Der bedingte Mittelwert?
  • Der bedingte Median?
  • Der bedingte Modalwert?
  • Etwas anderes?

Wenn wir eine quadratische Verlustfunktion minimieren, wird unsere beste Vorhersage der bedingte Mittelwert sein.

 

 

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

Logarithmische Transformationen

Bedingte Erwartungsfunktion

Wir wollen jetzt die Bedingte Erwartungsfunktion einer bestimmten Zufallsvariable \(y\) in Abhängigkeit von einer anderen Zufallsvariable \(x\) modellieren.

Der einfachste Weg, das zu tun: wir unterstellen eine lineare Funktion.

\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]

wobei

  • \(\beta_0\) und \(\beta_1\) Parameter der Funktion sind
  • \(i\) ein Index für Beobachtungen ist
  • \(\textcolor{var(--primary-color)}{y_i}\) die abhängige Variable, erklärte Variable, Outcome-Variable, der Regressand … ist, und
  • \(\textcolor{var(--secondary-color)}{x_i}\) die erklärende Variable, unabhängige Variable, der Regressor, … ist.

Bedingte Erwartungsfunktion

\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]

Diese Funktion gibt uns eine Information über den Erwartungswert von \(y_i\) für einen bestimmten Wert \(x_i\), und nur das.

  • Wir können nicht herauslesen, welchen Wert von \(y_i\) wir für ein bestimmtes \(x_i\) bekommen.
  • Wir bekommen auch keine Informationen über die Verteilung von \(y_i\) und \(x_i\) abseits des bedingten Erwartungswerts.

Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist

\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]

Bedingte Erwartungsfunktion

Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist

\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]

was können wir dann über die Prüfungsergebnisse in einem neuen Bezirk mit einer Klassengröße von 20 sagen?

  • Der Erwartungswert für die Prüfungsergebnisse ist 708 Punkte.
  • Die tatsächlichen Prüfungsergebnisse können darüber oder darunter liegen:
  • Es gibt einen gewissen Fehler, bzw. eine unbeobachtete Komponente.
  • Wir erwarten im Mittel einen Wert von 0 für diesen Fehlerterm (engl. error term): \(u_i := \textcolor{var(--primary-color)}{y_i}-\mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \textcolor{var(--primary-color)}{y_i}- \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i},\qquad\mathrm{E}(u_i\mid\textcolor{var(--secondary-color)}{x_i})=0.\)$
  • Außerdem nehmen wir an, dass sein Erwartungswert unabhänigig von \(x_i\) ist: \(\mathrm{E}(u_i\mid \textcolor{var(--secondary-color}{x_i})=\mathrm{E}(u_i)=0\) (engl. zero conditional mean assumption).

Visualisierung der bedingten Erwartungsfunktion

In blau sehen wir unsere bedingte Erwartungsfunktion. Für eine Klassengröße von 18 erwarten wir einen bestimmten Wert. Die tatsächlichen Werte sind um diesen Wert herum verteilt. Das trifft auf jeden Punkt entlang der Funktion zu.

Regressionsmodell in der Grundgesamtheit

Wir können unsere Überlegungen zur bedingen Erwartungsfunktion und zum Vorhersagefehler zusammenführen und erhalten ein lineares Regressionsmodell:

\[ \textcolor{var(--primary-color)}{y_i} = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i} + \textcolor{var(--tertiary-color-semidark)}{u_i}, \]

wobei

  • \(\beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}\) die Regressionsfunktion der Grundgesamtheit (engl. population regression function, PRF) ist,
  • \(\textcolor{var(--tertiary-color-semidark)}{u_i}\) der Vorhersagefehler bzw. Fehlerterm der Grundgesamtheit (engl. population prediction error bzw. error term) ist,
  • \(\beta_0\) der konstante Parameter (engl. intercept) ist, der den vorhergesagten Wert bei \(\textcolor{var(--secondary-color)}{x_i}=0\) abbildet, und
  • \(\beta_1\) der Steigungsparameter (engl. slope) ist, der den erwarteten Unterschied der vorhergesagten Werte für \(y_i\) bei einer Änderung von \(x_i\) um eine Einheit darstellt.

Regressionsmodell in der Grundgesamtheit

\[ \textcolor{var(--primary-color)}{y_i} = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i} + \textcolor{var(--tertiary-color-semidark)}{u_i}, \]

In unserem Beispiel von vorher:

\[ \textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i} = \beta_0 - \beta_1 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}+ \textcolor{var(--tertiary-color-semidark)}{u_i}. \]

In diesem Fall ist:

\[ \beta_1 = \frac{\mathrm{d}\:\mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i})}{\mathrm{d}\:\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}} \]

der erwartete Unterschied in den Prüfungsergebnissen, wenn wir die durchschnittliche Klassengröße um eine Einheit variieren.

\[ \beta_0 = \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i}=0) \]

der erwartete Wert für das Prüfungsergebnis, wenn in einem Bezirk durchschnittlich 0 Schüler:innen in einer Klasse sind.

Skalierungseffekte

\[ \beta_1 = \frac{\mathrm{d}\:\mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i})}{\mathrm{d}\:\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}} \]

\[ \beta_0 = \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i}=0) \]

Wie ändern sich diese beiden Parameter, wenn wir die Skalierung der Variablen ändern? Messen wir beispielsweise die Klassengröße in Zehnern:

\[ \textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i} = \beta_0^{\bullet} - \beta_1^\bullet \times \frac{\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}}{10}+ \textcolor{var(--tertiary-color-semidark)}{u_i}. \]

Wir sehen:

\(\beta_0^{\bullet} = \beta_0\qquad\) und \(\qquad\beta_1^{\bullet} = \textcolor{var(--secondary-color)}{10\times}\beta_1\).

Die Regressionskonstante verändert sich nicht, der Steigungsparameter aber wird skaliert.

Übungsaufgabe

Was passiert, wenn wir die abhängige Variable (statt der unabhängigen Variable) skalieren?

Visualisierung der Skalierungseffekte

Auf dieser Folie skalieren wir die \(x_i\)-Werte in mehreren Schritten von Faktor 1 bis 2. Wir sehen, dass die Konstante unverändert bleibt, die Steigung sich aber ändert.

 

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

Logarithmische Transformationen

Der Satz von Gauß-Markow

Grundgesamtheit vs. Stichprobe

Nichts, was wir bisher besprochen haben, hatte mit tatsächlichen Daten zu tun.

  • Wir haben bisher Zusammenhänge in der Grundgesamtheit (engl. population) besprochen.
  • Das Regressionsmodell der Grundgesamtheit beschreibt einen hypothetischen Zusammenhang zwischen mehreren Variablen. Wir können uns vorstellen, dass die Daten von PRF und Fehlerterm generiert werden.
  • Wir kennen die Parameter \(\beta_0\) und \(\beta_1\) aus der PRF nicht.
  • Daher müssen wir die Parameter schätzen. Wir benötigen dafür Daten, also eine Stichprobe (engl. sample).
  • Wir werden im Folgenden Konzepte diskutieren, die sehr ähnlich zu denen aussehen, die wir vorher besprochen haben (z.B. eine Regressionsfunktion).
  • Daher in Erinnerung behalten: Es gibt eine Grundgesamtheit und einen Zusammenhang zwischen mehreren Variablen darin. Wir können diesen Zusammenhang aber nur im Rahmen einer Stichprobe schätzen.

Zufallsstichprobe

Wir haben vorher diskutiert, wie Schulklassengröße und Prüfungsergebnisse in der Grundgesamtheit miteinander verbunden sind. Wir können \(\beta_0\) und \(\beta_1\) aber in der Praxis nicht beobachten. Daher benötigen wir eine Stichprobe, um sie schätzen zu können.


Wir sammeln also Daten:

\(\left.\begin{array}{c}\{y_1, x_1\} \\\{y_2, x_2\} \\\{y_3, x_3\} \\\vdots \\\{y_N, x_N\}\end{array}\right\}\quad\{y_i, x_i\}_{i=1}^{N}\quad\) zufällig gezogen aus einer Grundgesamtheit \(\quad F_{y,x}(\cdot,\cdot)\),


für die wir \(\mathrm{E}(y\mid x)\) mithilfe einer linearen bedingten Erwartungsfunktion approximieren wollen.

Zufallsstichprobe

Wie sieht eine Zufallsstichprobe in unserem Beispiel von vorher aus?

Wir bereiten zuerst den Datensatz wieder auf.

Zufallsstichprobe

Wie sieht eine Zufallsstichprobe in unserem Beispiel von vorher aus?

Wir sehen hier fixe Zahlen. Allerdings sind diese Zahlen Realisierungen von Zufallsvariablen, und jedes Mal, wenn wir eine neue Zufallsstichprobe ziehen, werden wir andere Werte erhalten.

Zufallsstichprobe

Ziehen wir zur Veranschaulichung eine Stichprobe aus einer Standard-Normalverteilung und berechnen den Mittelwert.

Wenn wir diese Berechnung mehrmals durchführen, bekommen wir immer einen Mittelwert, der in der Nähe von 0 liegt, aber wir bekommen jedes Mal einen anderen Wert. Je mehr Beobachtungen wir sammeln (z.B. n=10^6), desto näher werden die meisten dieser Werte an 0 liegen.

Wir suchen einen Schätzer

Wir wollen eine Regressionslinie mit Konstanter \(\tilde{\beta}_0\) und Steigung \(\tilde{\beta}_1\) anpassen:

\[ y_i = \textcolor{var(--quarternary-color)}{\tilde{\beta}_0} + \textcolor{var(--quarternary-color)}{\tilde{\beta}_1}x_i, \]

die die folgenden Vorhersagefehler minimiert:

\[ \textcolor{var(--quarternary-color)}{\hat{u}_i} = y_i - \textcolor{var(--quarternary-color)}{\tilde{\beta}_0} + \textcolor{var(--quarternary-color)}{\tilde{\beta}_1}x_i. \]

  • \(\hat{u}_i\) ist das Residuum (engl. residual), und ist nicht dasselbe wie der Fehlerterm.
    • Das Residuum ist der Unterschied zwischen unserer angepassten Regressionslinie und dem tatsächlich beobachteten Wert \(y_i\).
    • Der Fehlerterm ist die zufällige oder unbeobachtete Komponente aus dem datengenerierenden Prozess der Grundgesamtheit.
  • \(\tilde{\beta}_0\) und \(\tilde{\beta}_1\) sind unsere angepassten Koeffizienten für Konstante und Steigung, und sind nicht dasselbe wie die Parameter \(\beta_0\) und \(\beta_1\) aus der Grundgesamtheit.

OLS-Schätzer

Wie finden wir unter allen \(\tilde{\beta}_0\) und \(\tilde{\beta}_1\) diejenigen Parameter \(\hat{\beta}_0\) und \(\hat{\beta}_1\), die den Vorhersagefehler minimieren?

Vorschlag: Wir nehmen die Summe aller Residuen.

  • Macht das Sinn? Nein.
  • Positive und negative Residuen würden einander aufheben.

Besserer Vorschlag: Wir nehmen die Summe aller Quadrate der Residuen. So bestrafen wir positive und negative Residuen gleichermaßen. Wir suchen also das Minimum von:

\[ S(\tilde{\beta}_0,\tilde{\beta}_1)=\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)^2. \]

Wir nennen den resultierenden Schätzer Kleinste-Quadrate-Schätzer (engl. least squares estimator) bzw. Gewöhnlicher Kleinste-Quadrate-Schätzer (engl. ordinary least squares, OLS).

OLS-Schätzer (Quadrate minimieren)

\[ S(\tilde{\beta}_0,\tilde{\beta}_1)=\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)^2. \]

Wir beginnen damit, die Funktion nach \(\tilde{\beta}_0\) abzuleiten und die Ableitung gleich Null zu setzen:

\[ \frac{\partial S}{\partial \tilde{\beta}_0}=-2\sum_{i=1}^N\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]

Das gibt uns

\[ \colorbox{var(--primary-color-lightened)}{$\sum_{i=1}^N y_i=n\tilde{\beta}_0+\tilde{\beta}_1\sum_{i=1}^N x_i.$} \]

OLS-Schätzer (Quadrate minimieren)

Als nächstes leiten wir nach \(\tilde{\beta}_1\) ab:

\[ \frac{\partial S}{\partial \tilde{\beta}_1}=-2\sum_{i=1}^N x_i\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]

Wir erhalten

\[ \colorbox{var(--secondary-color-lightened)}{$\sum_{i=1}^N x_i y_i=\tilde{\beta}_0\sum_{i=1}^N x_i+\tilde{\beta}_1\sum_{i=1}^N x_i^2.$} \]

OLS-Schätzer (Quadrate minimieren)

Wir notieren ab jetzt \(\bar{x}=\frac{1}{n}\sum_{i=1}^N x_i\) und \(\bar{y}=\frac{1}{n}\sum_{i=1}^N y_i\). Dann erhalten wir aus der ersten Bedingung erster Ordnung:

\[ \tilde{\beta}_0=\bar{y}-\tilde{\beta}_1\bar{x}. \]

Wenn wir das in die zweite Bedingung erster Ordnung einsetzen, erhalten wir:

\[ \sum^N_{i=1}x_i\left(y_i-\bar{y}\right)=\tilde{\beta}_1\sum^N_{i=1}x_i\left(x_i-\bar{x}\right). \]

OLS-Schätzer (Quadrate minimieren)

Weil \(\sum^N_{i=1}x_i\left(x_i-\bar{x}\right)=\sum^N_{i=1}\left(x_i-\bar{x}\right)^2\) und \(\sum^N_{i=1}x_i\left(y_i-\bar{y}\right)=\sum^N_{i=1}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)\) (Siehe Appendix A-1 in Wooldridge):

\[ \colorbox{#e0e0e0}{$\hat{\beta}_1=\frac{\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N (x_i-\bar{x})^2},$} = \textcolor{#999999}{\frac{\widehat{\mathrm{Cov}}(x_i,y_i)}{\widehat{\mathrm{Var}}(x_i)}} \]

solange \(\sum_{i=1}^N (x_i-\bar{x})^2>0\).

Und von vorher:

\[ \colorbox{#e0e0e0}{$\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}.$} \]

Diese Schätzer minimieren die Summe der Residuenquadrate.

OLS-Schätzer (Momentenmethode)

Alternativ können wir die Schätzer über die Momentenmethode (engl. method of moments) herleiten. Wir können dabei die folgenden (vorher besprochenen) Annahmen als Momentenbedingungen (engl. moment conditions) verwenden:

  • \(\mathrm{E}(u_i)=0\) (sonst wäre die Linie einfach zu weit unten/oben)
  • \(\mathrm{Cov}(x_i,u_i)=\mathrm{E}(x_iu_i) = 0\) (sonst wäre die Linie schief) Beweis

Als ersten Schritt ersetzen wir die Momente der Grundgesamtheit durh die Stichprobenmomente:

\[ \frac{1}{n} \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \]

\[ \frac{1}{n} \sum_{i=1}^{n} y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i = 0 \]

OLS-Schätzer (Momentenmethode)

\[ \frac{1}{n} \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \]

\[ \frac{1}{n} \sum_{i=1}^{n} y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i = 0 \]

Diese Ausdrücke sind äquivalent zu denen, die wir durch Ableiten der Verlustfunktion erhalten haben. Insofern können wir genau so fortsetzen wie vorher und erhalten:

\[ \colorbox{#e0e0e0}{$\hat{\beta}_1=\frac{\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N (x_i-\bar{x})^2}$}\qquad\qquad\colorbox{#e0e0e0}{$\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}.$} \]

Wir haben denselben Schätzer durch zwei verschiedene Methoden erhalten.

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

Logarithmische Transformationen

Der Satz von Gauß-Markow

Erwartungswert des OLS-Schätzers

Variation in X

Wir können unseren Schätzer für die Steigung nur berechnen, wenn die Varianz in \(x_i\) nicht 0 ist (andernfalls würden wir durch 0 dividieren):

\[ \hat\beta_1=\frac{\widehat{\mathrm{Cov}}(x_i,y_i)}{\widehat{\mathrm{Var}}(x_i)} \]

Die Residuen sind im Mittel 0

Die Residuen sind die Differenz zwischen tatsächlich beobachtetem Wert und dem angepassten Wert:

\[ \hat{u}_i = y_i - \hat{y}_i \]

Als wir vorher nach \(\tilde{\beta}_0\) abgeleitet haben, hatten wir:

\[ \frac{\partial S}{\partial \tilde{\beta}_0}=-2\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]

was impliziert, dass die Summe (und somit das Mittel) der Residuen 0 ist.

Intuition: Wären die Residuen im Mittel positiv oder negativ, könnten wir die Linie nach unten bzw. oben verschieben und eine bessere Anpassung erreichen.

Die Residuen sind nicht mit \(x_i\) korreliert

Als wir vorher nach \(\tilde{\beta}_1\) abgeleitet haben, hatten wir:

\[ \frac{\partial S}{\partial \tilde{\beta}_1}=-2\sum_{i=1}^N x_i\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0. \]

Das impliziert:

\[ \sum^N_{i=1}\left(x_i-\bar{x}\right)\hat{u}_i=0 \]

Das impliziert wiederum, dass die Korrelation zwischen den \(x_i\) und den Residuen 0 ist.

Intuition: Wären die Residuen mit den \(x_i\) korreliert, könnten wir eine bessere Anpassung erreichen, indem wir unsere Linie neigen.

Dekomposition der Varianz von \(y\)

Wir können die Variation in \(y\) in einen erklärten Teil, also Variation, die von Variation in \(x\) ausgeht; und in einen nicht erklärten Teil, also einen Teil, der von unbeobachteten Faktoren ausgeht, aufteilen:

\[ \textcolor{var(--primary-color)}{\sum^N_{i=1}\left(y_i-\bar{y}\right)^2} = \textcolor{var(--secondary-color)}{\sum^N_{i=1}\left(\hat{y}_i-\bar{y}\right)^2} + \textcolor{var(--quarternary-color)}{\sum^N_{i=1}\hat{u}_i^2} \]

oder auch

Totale Quadratsumme \(=\) Erklärte Quadratsumme \(+\) Residuenquadratsumme

Total Sum of Squares \(=\) Explained Sum of Squares \(+\) Residual Sum of Squares

\[ \textcolor{var(--primary-color)}{\mathrm{SST}} = \textcolor{var(--secondary-color)}{\mathrm{SSE}} + \textcolor{var(--quarternary-color)}{\mathrm{SSR}} \]

Anpassungsgüte

Das Bestimmtheitsmaß \(R^2\) (engl. coefficient of determination) ist eine Maßzahl zur Anpassungsgüte (engl. goodness of fit) und gibt an, welcher Anteil der Variation durch unser Modell erklärt wird:

\[ R^2 = \frac{\textcolor{var(--secondary-color)}{\mathrm{SSE}}}{\textcolor{var(--primary-color)}{\mathrm{SST}}} = 1- \frac{\textcolor{var(--quarternary-color)}{\mathrm{SSR}}}{\textcolor{var(--primary-color)}{\mathrm{SST}}}. \]

  • \(R^2\) liegt immer zwischen 0 und 1.
  • Bei einem \(R^2\) von 1 liegen alle Beobachtungen auf einer Geraden.
  • \(R^2\) wird manchmal verwendet, um Modelle zu vergleichen. Das ist aber meistens eine schlechte Idee.
    • Es gibt keinen Schwellenwert für ein „gutes“ \(R^2\).
    • Es gibt „schlechte“ Modelle, die gut an einen Datensatz angepasst sind.
    • Es gibt Modelle mit niedrigem \(R^2\), die uns wichtige Zusammenhänge aufzeigen.

Anpassungsgüte

Anscombe-Quartett

In allen vier Beispielen ist \(R^2=0.67\).

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

Logarithmische Transformationen

Der Satz von Gauß-Markow

Erwartungswert des OLS-Schätzers

Varianz des OLS-Schätzers

Logarithmische Transformation der abhängigen Variable

Wir beginnen mit einem Beispiel. Nehmen wir an, der Lohn, den eine Person erhält, hängt von der Ausbildung der Person ab:

\[ \mathrm{Lohn}_i = f\left(\mathrm{Ausbildung}_i\right) \]

Ist es plausibler, dass ein zusätzliches Ausbildungsjahr den Lohn immer um die gleiche Menge erhöht, oder um den gleichen Faktor?


Das 5. Jahr Ausbildung erhöht den Lohn um 1 Euro

und

Das 12. Jahr Ausbildung erhöht den Lohn um 1 Euro

Das 5. Jahr Ausbildung erhöht den Lohn um 8 Prozent

und

Das 12. Jahr Ausbildung erhöht den Lohn um 8 Prozent

Logarithmische Transformation der abhängigen Variable

Wir können eine derartige Beziehung mit Logarithmen approximieren:

\[ \mathrm{log}\left(\mathrm{Lohn}_i\right) = \beta_0 + \beta_1\mathrm{Ausbildung}_i+u_i. \]

Das ist äquivalent zu:

\[ \mathrm{Lohn}_i = \mathrm{exp}\left(\beta_0 + \beta_1\mathrm{Ausbildung}_i+u_i\right). \]

Die Beziehung ist nicht-linear in \(y\) (Lohn) und \(x\) (Ausbildung), aber sie ist linear in \(\mathrm{log}(y)\) und \(x\).

Wir können die Regression genau so mit OLS schätzen wie vorher, indem wir \(y_i^\ast=\mathrm{log}\left(y_i\right)\) definieren und folgendes Modell schätzen:

\[ y_i^\ast=\beta_0+\beta_1x_i+u_i \]

Logarithmische Transformation der unabhängigen Variable

Analog zu vorher können wir auch die unabhängige Variable (\(x\)) logarithmieren. Die Interpretation im vorherigen Beispiel wäre:


Eine Erhöhung der Ausbildung um 1 Prozent (egal von welchem Niveau) erhöht den Lohn um eine Bestimmte Anzahl Euro.


Wir definieren \(x_i^\ast = \mathrm{log}\left(x_i\right)\) schätzen das Modell:

\[ y_i = \beta_0 + \beta_1x_i^* +u_i. \]

Natürlicher Logarithmus

Wenn wir den natürlichen Logarithmus für unsere Transformation verwenden, ist die Interpretation der Koeffizienten sehr einfach:

  • Absolute Veränderungen in logarithmierten Variablen entsprechen ungefähr einer relativen Veränderung der nicht-logarithmierten Variable mit demselben numerischen Wert.
  • Ein Anstieg von \(x\) um 1 Prozent entspricht ungefähr einem Anstieg von \(\mathrm{log}(x)\) um 0.01: \[ \begin{aligned} \mathrm{log}(1.01x)&=\mathrm{log}(x)+\mathrm{log}(1.01) \\ &= \mathrm{log}(x)+0.00995 \\ &\approx\mathrm{log}(x)+0.01 \end{aligned} \]

  • Die Approximation funktioniert am besten für kleinere Prozentwerte.

Überblick über Log-Transformationen

  • Nicht transformierte Modelle erlauben uns Aussagen über die Beziehung zwischen absoluten Veränderungen zweier Variablen.
  • Modelle, bei denen wir eine Seite logarithmieren, erlauben uns Aussagen über Semi-Elastizitäten.
  • Modelle, bei denen wir beide Seiten logarithmieren, erlauben uns Aussagen über Elastizitäten.
Modell Abh. Variable Unabh. Variable Interpretation
Level-Level \(y\) \(x\) \(+1\) in \(x\) \(\Leftrightarrow\) \(+\beta_1\) in \(y\)
Level-Log \(y\) \(\log(x)\) \(+1\%\) in \(x\) \(\Leftrightarrow\) \(+\beta_1 / 100\) in \(y\)
Log-Level \(\log(y)\) \(x\) \(+1\) in \(x\) \(\Leftrightarrow\) \(+\beta_1 \times 100\%\) in \(y\)
Log-Log \(\log(y)\) \(\log(x)\) \(+1\%\) in \(x\) \(\Leftrightarrow\) \(+\beta_1\)% in \(y\)

Ein Schätzer

Eigenschaften des OLS-Schätzers

Logarithmische Transformationen

Der Satz von Gauß-Markow

Erwartungswert des OLS-Schätzers

Varianz des OLS-Schätzers

Regressionen mit nur einem Parameter

BLUE

Wenn wir annehmen, dass unser lineares Modell korrekt ist, können wir einige Aussagen über Erwartungswert und Varianz des OLS-Schätzers treffen.

Der Satz von Gauß-Markow (engl. Gauss-Markov Theorem) besagt, dass der OLS-Schätzer der „beste lineare unverzerrte Schätzer” ist, oder auch der

Best Linear Unbiased Estimator

(BLUE)

  • Dass der OLS-Schätzer ein linearer Schätzer ist, wissen wir bereits.
  • Unverzerrt (engl. unbiased) bedeutet, dass der Erwartungswert des Schätzers dem wahren Parameter entspricht.
  • Der beste Schätzer ist ein Schätzer dann, wenn er unter allen unverzerrten linearen Schätzern die geringste Varianz hat. Das besprechen wir im nächsten Abschnitt.

Modellannahmen

Damit wir mithilfe des Satzes von Gauß-Markow beweisen können, dass der OLS-Schätzer BLUE ist, benötigen wir vier Annahmen hinsichtlich unseres Modells:

Satz von Gauß-Markow: Annahmen für Einfache Lineare Regression (SLR)

  1. Linearität in Parametern
  2. Zufallsstichprobe
  3. Variation in \(x\)
  4. Exogener Fehlerterm

(SLR.1) Linearität in Parametern

Die Regressionsfunktion der Grundgesamtheit (PRF) muss linear in ihren Parametern sein:

\[ y_i = \beta_0 + \beta_1 x_i + u_i \]

  • Transformationen (z.B. logarithmische) sind kein Problem, da die PRF trotzdem eine lineare Kombination der Parameter bleibt.
  • Wenn wir nur von einem „linearen Modell“ sprechen, ist unklar, ob wir die Parameter oder \(x\) meinen.
  • Ein Beispiel für ein Modell, das nicht linear in seinen Parametern ist, wäre: \(y_i = 1^{\beta_0}x_i^{\beta_1}+u_i\).
  • Diese Annahme dient nur dazu, die Klasse der Modelle/Schätzer (linear) zu definieren.

(SLR.2) Zufallsstichprobe

Unsere Stichprobe mit \(N\) Beobachtungen, \(\left\{\left(y_i,x_i\right), i = 1, 2, \dots, N\right\}\) muss zufällig aus der Grundgesamtheit gezogen werden. Die Wahrscheinlichkeit, eine Beobachtung in die Stichprobe aufzunehmen, muss für alle gleich sein, und darf nicht davon abhängen, wen wir zuerst „gezogen“ haben.

  • Es ist ziemlich leicht, diese Annahme zu verletzen:
    • Wir ziehen nur aus einem gewissen Teil der Grundgesamtheit, z.B. indem wir Studierende nur in der Mensa befragen.
    • Wir wählen einen Teil der Stichprobe abhängig von einem anderen Teil, z.B. indem wir \(N/2\) Studierende zufällig befragen und dann die andere Hälfte der Stichprobe mit deren besten Freund:innen auffüllen.
  • Mithilfe dieser Annahme können wir das Modell der Grundgesamtheit durch einzelne Beobachtungen beschreiben: \(\mathrm{E}(y_i\mid x_1,\dots,x_N)=\mathrm{E}(y_i\mid x_i)=\mathrm{E}(y\mid x)\)
  • Es gibt ökonometrische Techniken, mit denen man mit nicht-zufälligen Stichproben arbeiten kann. Damit beschäftigen wir uns in späteren Kursen.

(SLR.3) Variation in \(x\)

Damit wir unser Modell schätzen können, benötigen wir Variation in \(x\). Die \(x\)-Werte dürfen nicht alle vollständig gleich sein.

  • Wir brauchen diese Annahme, weil wir sonst keinen Parameter identifizieren können.
  • Wenn wir unsere Daten aus einer Grundgesamtheit ziehen, wird diese Annahme typischerweise erfüllt sein; es sei denn, die Stichprobe ist sehr klein und die Variation in der Grundgesamtheit ist minimal.
  • Ein Beispiel für eine Verletzung der Annahme: Wir versuchen, einen Effekt von Klassengröße auf Prüfungsergebnisse zu schätzen. Alle Beobachtungen in der Stichprobe haben eine Klasengröße von 20.

Übrigens: Wenn wir keine Variation in \(y\) haben, werden unsere Ergebnisse nicht wahnsinnig interessant sein (unsere Regressionsgerade ist dann horizontal), aber berechnen können wir sie ohne Probleme.

(SLR.4) Exogene Fehler

Der Erwartungswert des Fehlerterms \(u\) ist für jeden \(x\)-Wert 0:

\[ \mathrm{E}\left(u_i\mid x_i\right) = 0 \]

Diese Annahme impliziert auch die beiden Momentenbedingungen \(\mathrm{E}\left(u_i\right) = 0\) und \(\mathrm{E}\left(u_i x_i\right) = 0\). Beweis

  • In vielen Herleitungen arbeiten wir mit Erwartungswerten der Form \(\mathrm{E}\left(\cdot\mid x_i\right)\).
  • Anders gesagt: Wir fixieren die \(x\)-Werte und suchen dann mehrere Zufallsstichproben, die diese Werte erfüllen (sich aber in \(u_i\) und daher \(y_i\) unterscheiden) (engl. \(x\) fixed in repeated samples).
  • Das ist, besonders bei Beobachtungsdaten, nicht wahnsinnig realistisch.
  • Die Annahme erlaubt uns, dieselben Herleitungen auch mit nicht-fixierten \(x_i\) anzuwenden.

Wann sind Fehler nicht exogen?

Dass \(\mathrm{E}\left(u_i\right)=0\), ist keine besonders restriktive Annahme (notfalls verschieben wir einfach die Linie). Dass \(\mathrm{E}\left(u_i\mid x_i\right)=0\), ist weit weniger trivial.

Experiment

Wir wählen zufällig eine Anzahl von Feldern aus. Dann wählen wir wiederum zufällig die Hälfte der Stichprobe aus und wenden auf diesen Feldern Dünger an. Wir notieren dann die Erträge.

Beobachtungsstudie

Wir wählen zufällig eine Anzahl von Feldern aus. Dann fragen wir die Landwirt:innen, ob sie diese Felder bedüngt haben. Wir notieren dann Düngergebrauch und die Erträge der Felder.

Im Experiment ist die Intervention, der Düngergebrauch, (\(x_i\)), garantiert unabhängig von unbeobachteten Faktoren. Die Annahme, dass \(\mathrm{E}\left(u_i\mid x_i\right)=0\), ist also plausibel.

In der Beobachtungsstudie ist die Intervention möglicherweise nicht unabhängig von unbeobachteten Faktoren. Vielleicht wird Dünger auf weniger fruchtbaren Feldern angewandt, um einen Nachteil auszugleichen? Oder auf „besseren“ Feldern, um den Ertrag noch mehr zu verbessern? Wenn wir \(\mathrm{E}\left(u_i\mid x_i\right)=0\) für plausibel halten, müssen wir dafür argumentieren.

Eigenschaften des OLS-Schätzers

Logarithmische Transformationen

Der Satz von Gauß-Markow

Erwartungswert des OLS-Schätzers

Varianz des OLS-Schätzers

Regressionen mit nur einem Parameter

Binäre erklärende Variablen

OLS ist unverzerrt

Wenn die vier Annahmen SLR.1 bis SLR.4 erfüllt sind, können wir beweisen, dass der OLS-Schätzer unverzerrt (engl. unbiased) ist.

Ein Schätzer ist dann unverzerrt (oder auch: erwartungstreu), wenn sein Erwartungswert dem wahren Wert des Parameters im Modell der Grundgesamtheit entspricht. Wir wollen also beweisen:

\[ \mathrm{E}\left(\hat{\beta}_j\right) = \beta_j\qquad j = 0,1 \]

Beweis: OLS ist unverzerrt

Wir starten mit dem Ausdruck für den OLS-Schätzer:

\[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) (y_i-\bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) y_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]

Als ersten Schritt schreiben wir \(y_i\) als Summe seiner Bestandteile an:

\[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) (\textcolor{var(--primary-color)}{\beta_0} + \textcolor{var(--secondary-color)}{\beta_1 x_i} + \textcolor{var(--quarternary-color)}{u_i})}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]

Wir teilen auf:

\[ \hat{\beta}_1 = \frac{\textcolor{var(--primary-color)}{\beta_0 \sum_{i=1}^{n} (x_i - \bar{x})} + \textcolor{var(--secondary-color)}{\beta_1 \sum_{i=1}^{n} (x_i - \bar{x}) x_i} + \textcolor{var(--quarternary-color)}{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]

Beweis: OLS ist unverzerrt

\[ \hat{\beta}_1 = \frac{\textcolor{var(--primary-color)}{\beta_0 \sum_{i=1}^{n} (x_i - \bar{x})} + \textcolor{var(--secondary-color)}{\beta_1 \sum_{i=1}^{n} (x_i - \bar{x}) x_i} + \textcolor{var(--quarternary-color)}{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]

Weil \(\textcolor{var(--primary-color)}{\sum_{i=1}^{n} (x_i - \bar{x})} = 0\) und \(\frac{\textcolor{var(--secondary-color)}{\beta_1 \sum_{i=1}^{n} (x_i - \bar{x}) x_i}}{\textcolor{var(--secondary-color)}{\beta_1 \sum_{i=1}^{n} (x_i - \bar{x}) x_i}} = 1\):

\[ \hat{\beta}_1 = \beta_1 + \textcolor{var(--quarternary-color)}{\frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i}} \]

Wir nennen \(\textcolor{var(--quarternary-color)}{\frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i}}\) Stichprobenfehler (engl. sampling error). Die Gleichung zeigt uns, dass \(\hat{\beta}_1\) in einer endlichen Stichprobe der Summe aus dem wahren Parameter \(\beta_1\) und einer bestimmten Linearkombination der Fehlerterme, dem Stichprobenfehler, entspricht.

Wenn wir zeigen können, dass dieser Stichprobenfehler im Mittel 0 ist, haben wir die Unverzerrtheit des OLS-Schätzers bewiesen.

Beweis: OLS ist unverzerrt

Was ist also der Erwartungswert von \(\hat{\beta}_1\)?

\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \mathrm{E} \left( \beta_1 + \frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \Bigg| x_1, \dots, x_N \right) \]

Da der wahre Parameter \(\beta_1\) keine Zufallsvariable ist, können wir ihn herausnehmen:

\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 + \mathrm{E} \left( \frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \Bigg| x_1, \dots, x_N \right) \]

Weil \(\mathrm{E}(x_i\mid x_i)=x_i\):

\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 + \frac{\sum_{i=1}^{n} (x_i - \bar{x}) \mathrm{E} \left( u_i | x_1, \dots, x_N \right)}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]

Beweis: OLS ist unverzerrt

\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 + \frac{\sum_{i=1}^{n} (x_i - \bar{x}) \mathrm{E} \left( u_i | x_1, \dots, x_N \right)}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]

Die Annahme SLR.2 erlaubt uns folgende Vereinfachung:

\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 + \frac{\sum_{i=1}^{n} (x_i - \bar{x}) \mathrm{E} \left( u_i | x_i \right)}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]

Annahme SLR.4 besagt, dass \(\mathrm{E} \left( u_i | x_i \right)=0\), also

\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 \]

Beweis: OLS ist unverzerrt

\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 \]

Aufgrund des Satzes der iterierten Erwartungen ist \(\mathrm{E}(\hat{\beta}_1)=\mathrm{E}(\mathrm{E}(\hat{\beta}_1\mid x_1,\dots,x_N))\) und somit folgt

\[ \mathrm{E}(\hat{\beta}_1) = \beta_1, \]

Der Erwartungswert des Schätzers entspricht dem wahren Parameter aus dem Modell der Grundgesamtheit, er ist also unverzerrt.

\(\square\)

Beweis: OLS ist unverzerrt

Der Beweis dafür, dass auch \(\hat{\beta}_0\) unverzerrt ist, ist sehr einfach. Zuerst schreiben wir \(\hat{\beta}_0\) als

\[ \hat{\beta}_0 = \bar{y}-\hat{\beta}_1\bar{x}. \]

Weil \(\mathrm{E}(\hat{\beta}_1\mid x_1,\dots,x_N)=\beta_1\):

\[ \begin{aligned} \mathrm{E}(\hat{\beta}_0\mid x_i,\dots,x_N) &= \mathrm{E}(\bar{y}\mid x_1,\dots,x_N)-\mathrm{E}(\hat{\beta}_1\bar{x}\mid x_1,\dots,x_N) \\ &= \mathrm{E}(\bar{y}\mid x_1,\dots,x_N)-\mathrm{E}(\hat{\beta}_1\mid x_1,\dots,x_N)\bar{x} \\ &= \beta_0+\beta_1\bar{x}-\beta_1\bar{x} \\ &= \beta_0. \end{aligned} \]

Auch der Schätzer \(\hat{\beta}_0\) ist unverzerrt.

\(\square\)

Logarithmische Transformationen

Der Satz von Gauß-Markow

Erwartungswert des OLS-Schätzers

Varianz des OLS-Schätzers

Regressionen mit nur einem Parameter

Binäre erklärende Variablen

Kausale Inferenz

(SLR.5) Homoskedastizität

Die Varianz des Fehlerterms \(u_i\) ist für alle \(x_i\)-Werte gleich:

\[ \mathrm{Var}(u_i\mid x_i) = \mathrm{Var}(u_i) = \sigma^2 \]

  • Die Varianz des Fehlerterms ist eine Maßzahl für die Variation, die von unbeobachteten Faktoren ausgeht.
  • Unter dieser Annahme ist diese Varianz für alle \(x_i\)-Werte gleich \(\sigma^2\).
  • Wir brauchen diese Annahme nicht, um zu zeigen, dass der OLS-Schätzer unverzerrt ist. Aber wir brauchen sie, um zu zeigen, dass er die geringstmögliche Varianz hat.
  • In echten Querschnittsdaten ist diese Annahme oft verletzt.
    • Leute mit mehr Ausbildung haben vielleicht eine größere Varianz in ihren Löhnen.
    • Später lernen wir Wege kennen, um mit einer Verletzung dieser Annahme umzugehen.

Effizienz des OLS-Schätzers

Wenn die fünf Annahmen SLR.1 bis SLR.5 erfüllt sind, können wir beweisen, dass der OLS-Schätzer die niedrigstmögliche Varianz aller unverzerrten linearen Schätzer hat.

Wir sagen dann, er ist der beste lineare unverzerrte Schätzer (BLUE). Diese Eigenschaft nennen wir auch Effizienz (engl. efficiency).

Wir können das beweisen. Dafür zeigen wir erst, dass die Varianz des OLS-Schätzers

\[ \colorbox{var(--primary-color-lightened)}{$\mathrm{Var}(\hat{\beta}_1\mid x_i) = \frac{\sigma^2}{\sum^N_{i=1}(x_i-\bar{x})^2}, \qquad \mathrm{Var}(\hat{\beta}_0\mid x_i) = \frac{\sigma^2 N^{-1}\sum^N_{i=1}x_i^2}{\sum^N_{i=1}(x_i-\bar{x})^2}$} \]

ist, und dann zeigen wir, dass es keinen linearen unverzerrten Schätzer geben kann, dessen Varianz geringer ist.

Beweis: Effizienz des OLS-Schätzers

Wir zeigen den Beweis für \(\beta_1\). Wir beginnen mit der Aufteilung des Schätzers von vorher:

\[ \mathrm{Var}(\hat{\beta}_1\mid x_i) = \mathrm{Var}\left(\beta_1+\frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i}\middle| x_i\right) \]

Zur besseren Übersichtlichkeit schreiben wir jetzt \(w_i:=\frac{x_i - \bar{x}}{\sum_{i=1}^{n} (x_i - \bar{x})x_i}\):

\[ \textstyle\mathrm{Var}(\hat{\beta}_1\mid x_i) = \mathrm{Var}\left(\beta_1+\sum_{i=1}^{n}w_iu_i \middle| x_i\right) \]

Jetzt können wir SLR.5 anwenden. Außerdem hängen die Gewichte \(w_i\) nur von \(x_i\) ab und sind somit fix:

\[ \mathrm{Var}(\hat{\beta}_1\mid x_i) = \sigma^2\sum_{i=1}^{n}w_i^2 \]

Beweis: Effizienz des OLS-Schätzers

\[ \mathrm{Var}(\hat{\beta}_1\mid x_i) = \sigma^2\sum_{i=1}^{n}w_i^2 \]

Jetzt können wir \(w_i\) wieder ausschreiben: Wenn \(w_i=\frac{x_i - \bar{x}}{\sum_{i=1}^{n} (x_i - \bar{x})x_i}\), dann gilt auch: \(\sum_{i=1}^{n}w_i^2=\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{\left(\sum_{i=1}^{n} (x_i - \bar{x})x_i\right)^2}=\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{\left(\sum_{i=1}^{n} (x_i - \bar{x})^2\right)^2}=\frac{1}{\sum_{i=1}^{n} (x_i - \bar{x})^2}\). Somit:

\[ \colorbox{var(--secondary-color-lightened)}{$\mathrm{Var}(\hat{\beta}_1\mid x_i) = \frac{\sigma^2}{\sum^N_{i=1}(x_i-\bar{x})^2}$} \]

Übungsaufgabe

Wie können wir \(\mathrm{Var}(\hat{\beta}_0\mid x_i) = \frac{\sigma^2 N^{-1}\sum^N_{i=1}x_i^2}{\sum^N_{i=1}(x_i-\bar{x})^2}\) herleiten?

Beweis: Effizienz des OLS-Schätzers

Jetzt widmen wir uns dem zweiten Teil: Ist diese Varianz die geringstmögliche für einen linearen unverzerrten Schätzer? Sei \(\tilde{\beta}_1\) irgendein anderer linearer Schätzer, der beliebige Gewichte \(a_i\) (statt den OLS-Gewichten \(w_i\)) hat:

\[ \tilde{\beta}_1 = \sum^N_{i=1}a_iy_i = \sum^N_{i=1} a_i\left(\beta_0+\beta_1x_i+u_i\right) \]

Da diese Gewichte \(a_i\) sich aus den \(x\)-Werten ergeben, können wir SLR.4 anwenden, um den Erwartungswert so anzuschreiben:

\[ \mathrm{E}\left(\tilde{\beta}_1\middle| x_i\right) = \beta_0\sum^N_{i=1}a_i+\beta_1\sum^N_{i=1}a_ix_i \]

Da wir voraussetzen, dass auch dieser Schätzer unverzerrt ist, können wir daraus zwei Bedingungen ableiten: \(\sum^N_{i=1}a_i = 0\) und \(\sum^N_{i=1}a_ix_i = 1\).

Beweis: Effizienz des OLS-Schätzers

Wir können die Gewichte von \(\tilde{\beta}_1\) als die OLS-Gewichte plus eine Differenz darstellen:

\[ a_i = w_i + d_i \]

Das erlaubt uns, den Schätzer wie folgt anzuschreiben (wir benutzen dieselbe Aufteilung wie vorher beim OLS-Schätzer):

\[ \tilde{\beta}_1 = \beta_1 + \sum^N_{i=1}(w_i+d_i)u_i. \]

Die Varianz von \(\tilde{\beta}_1\) ist somit:

\[ \mathrm{Var}\left(\tilde{\beta}_1\middle|x_i\right) \quad = \quad \sigma^2\sum^N_{i=1}\left(w_i+d_i\right)^2 \quad = \quad \sigma^2\sum^N_{i=1}\left(w_i^2+2w_id_i+d_i^2\right) \]

Beweis: Effizienz des OLS-Schätzers

\[ \textstyle\mathrm{Var}\left(\tilde{\beta}_1\middle|x_i\right) \quad = \quad \sigma^2\sum^N_{i=1}\left(w_i+d_i\right)^2 \quad = \quad \sigma^2\sum^N_{i=1}w_i^2+2w_id_i+d_i^2 \]

Weil \(\sum^N_{i=1}a_i = \sum^N_{i=1}(w_i+d_i)=0\) und \(\sum^N_{i=1}w_i=0\), muss auch

\[ \sum^N_{i=1}d_i=0 \]

Außerdem:

\[ \sum^N_{i=1}(w_i+d_i)x_i=\sum^N_{i=1}w_ix_i+\sum^N_{i=1}d_ix_i=1\quad\Rightarrow\quad \sum^N_{i=1}d_ix_i=0 \]

Beweis: Effizienz des OLS-Schätzers

\[ \textstyle\mathrm{Var}\left(\tilde{\beta}_1\middle|x_i\right) \quad = \quad \sigma^2\sum^N_{i=1}\left(w_i+d_i\right)^2 \quad = \quad \sigma^2\sum^N_{i=1}w_i^2+2w_id_i+d_i^2 \]

Weil \(\sum^N_{i=1}d_i=0\) und \(\sum^N_{i=1}d_ix_i=0\), gilt für den mittleren Term:

\[ \textstyle\sum^N_{i=1}w_id_i = \frac{\sum^N_{i=1}\left(x_i-\bar{x}\right)}{\sum^N_{i=1}(x_i-\bar{x})^2}d_i=\frac{1}{\sum^N_{i=1}(x_i-\bar{x})^2}\sum^N_{i=1}x_id_i-\frac{\bar{x}}{\sum^N_{i=1}(x_i-\bar{x})^2}\sum^N_{i=1}d_i=0 \]

Also reduziert sich der Ausdruck für die Varianz auf

\[ \mathrm{Var}\left(\tilde{\beta}_1\middle|x_i\right) \quad = \quad \sigma^2\sum^N_{i=1}w_i^2+\textcolor{var(--secondary-color)}{\sigma^2\sum^N_{i=1}d_i^2} \]

Der Unterschied zur Varianz des OLS-Schätzers ist der rechte Term. Da dieser Term nie negativ sein kann, muss die Varianz von \(\tilde{\beta}_1\) immer gleich oder größer sein als die von \(\hat{\beta}_1\).

\(\square\)

Schätzer für \(\sigma^2\)

Zurück zur Varianz des OLS-Schätzers:

\[ \mathrm{Var}(\hat{\beta}_1\mid x_i) = \frac{\sigma^2}{\sum^N_{i=1}(x_i-\bar{x})^2} \]

Wenn wir diese Varianz aus den Daten berechnen wollen, haben wir ein Problem: Wir kennen \(\sigma^2\) nicht.

Unter SLR.1 bis SLR.5 können wir allerdings einen unverzerrten Schätzer für die Varianz finden, und zwar:

\[ \colorbox{var(--secondary-color-lightened)}{$\hat{\sigma}^2=\frac{\sum^N_{i=1}\hat{u}_i^2}{n-2}$}, \]

also die Residuenquadratsumme geteilt durch \(n-2\).

Standardfehler der Regression

Wenn wir die Wurzel aus dem Schätzer für die Varianz des Fehlerterms ziehen, erhalten wir

\[ \hat{\sigma}=\sqrt{\hat{\sigma}^2}. \]

Wir nennen diese Größe den Standardfehler der Regression. Er ist zwar kein unverzerrter, aber ein konsistenter Schätzer für \(\sigma\). Wir können damit den Standardfehler von \(\beta_1\), ein Schätzer für die Standardabweichung von \(\hat{\beta}_1\) bestimmen:

\[ \textstyle\mathrm{se}\left(\hat{\beta}_1\right)=\frac{\hat{\sigma}}{\sqrt{\sum^N_{i=1}\left(x_i-\bar{x}\right)^2}} \]

Analog können wir den Standardfehler von \(\beta_0\) bestimmen. Wir können somit messen, wie „genau“ die Koeffizienten geschätzt sind.

Visualisierung

Wir simulieren 4000 Stichproben aus einer Grundgesamtheit und schätzen 4000 Mal den \(\beta_1\)-Koeffizienten.

In diesem Beispiel ist die Standardabweichung der \(\beta_1\)-Koeffizienten 0.161. Der Standardfehler ist 0.1637897.

Der Satz von Gauß-Markow

Erwartungswert des OLS-Schätzers

Varianz des OLS-Schätzers

Regressionen mit nur einem Parameter

Binäre erklärende Variablen

Kausale Inferenz

Appendix

Regressionen ohne Konstante

Was passiert, wenn wir statt dem Modell \(y = \beta_0 + \beta_1x + u\) folgendes Modell schätzen?

\[ y = \beta_1x + u \]

Das bedeutet nichts anderes, als dass wir eine Restriktion \(\beta_0=0\) auferlegen und somit die Regressionsgerade durch den Ursprung geht.

Der OLS-Schätzer in diesem Fall ist

\[ \hat{\beta_1}=\frac{\sum^N_{i=1}x_iy_i}{\sum^N_{i=1}x_i^2}. \]

Übungsaufgabe

Wie können wir diesen Schätzer herleiten?

Verzerrung von Regressionen ohne Konstante

Wenn unser wahres Modell der Grundgesamtheit keine Konstante hat, dann ist dieser Schätzer unverzerrt:

Verzerrung von Regressionen ohne Konstante

Wenn unser wahres Modell der Grundgesamtheit keine Konstante hat, dann ist dieser Schätzer verzerrt:

Verzerrung von Regressionen ohne Konstante

Der OLS-Schätzer in einer Regression ohne Konstante ist nur dann unverzerrt, wenn die Konstante im wahren Modell auch 0 ist.

  • Wenn das der Fall ist, ist es eigentlich sogar vorzuziehen, ein Modell ohne Konstante zu schätzen (weil wir sonst unnötige Struktur vorgeben).
  • Es ist aber fast nie der Fall.
    • Und außerdem wissen wir nie, ob es wirklich der Fall ist.
    • Wir sollten also nie eine Regression ohne Konstante rechnen, wenn wir nicht durchschlagende theoretische Gründe dafür haben (wie gesagt: haben wir selten).

Übungsaufgabe

Wie können wir beweisen, dass der Schätzer im oben genannten Fall verzerrt ist?

Regressionen ohne erklärende Variablen

Was passiert, wenn wir statt dem Modell \(y = \beta_0 + \beta_1x + u\) folgendes Modell schätzen?

\[ y = \beta_0 + u \]

Das bedeutet nichts anderes, als dass wir eine Restriktion \(\beta_1=0\) auferlegen und somit die Regressionsgerade horizontal ist.

Der OLS-Schätzer in diesem Fall ist

\[ \hat{\beta_0} = \bar{y}, \]

der Mittelwert der \(y\)-Werte.

Übungsaufgabe

Wie können wir diesen Schätzer herleiten?

Erwartungswert des OLS-Schätzers

Varianz des OLS-Schätzers

Regressionen mit nur einem Parameter

Binäre erklärende Variablen

Kausale Inferenz

Appendix

 

Qualitative und quantiative Information

Bisher sind wir immer von erklärenden Variablen mit einer quantitativen Interpretation ausgegangen (Ausbildungsjahre, Klassengröße, …). Wie können wir qualitative Information ins Modell einbeziehen?

Angenommen, wir wollen den Gender Pay Gap analysieren und sind daher daran interessiert, ob ein Individuum eine Frau ist oder nicht. Wir können eine Variable wie folgt definieren:

\[ \mathrm{Frau}_i = \begin{cases} 1&\text{wenn }i\text{ eine Frau ist},\\ 0&\text{andernfalls} \end{cases} \]

Wir nennen eine solche Variable eine binäre Variable oder Dummy-Variable.

Ein anderes Beispiel wäre ein Arbeitstrainingsprogramm. Die Variable \(\text{Programmteilnahme}_i\) ist dann 1 für alle Personen, die an dem Programm teilgenommen haben, und 0 für alle anderen.

Interpretation

Wir haben also ein Modell der Form

\[ y = \beta_0 + \beta_1x + u, \]

wo \(x\) eine Dummy-Variable ist. Unsere Annahmen SLR.1 bis SLR.5 gelten nach wie vor. Das bedeutet:

\[ \begin{align} \mathrm{E}(y\mid x=1) &= \beta_0+ \beta_1, \\ \mathrm{E}(y\mid x=0) &= \beta_0. \end{align} \]

Wir können also \(\beta_1\) als den erwarteten Unterschied in \(y\) zwischen den beiden Gruppen interpretieren, und \(\beta_1\) als den mittleren Wert in der Gruppe \(x=0\). Daraus folgt, dass der mittlere Wert in der Gruppe \(x=1\) dann \(\beta_0 + \beta_1\) entspricht.

Wir können auch komplexere qualitative Information als nur „ja/nein“ mit Dummy-Variablen kodieren. Dazu benötigen wir aber die Techniken multipler linearer Regression aus dem nächsten Modul.

Varianz des OLS-Schätzers

Regressionen mit nur einem Parameter

Binäre erklärende Variablen

Kausale Inferenz

Appendix

 

 

Kontrafaktisches Ergebnis

Wir haben an mehreren Stellen davon gesprochen, dass wir Behandlungen oder Interventionen (engl. treatment) evaulieren wollen.

  • Jetzt, wo wir Dummy-Variablen kennen, wissen wir, wie wir Behandlungsteilnahme modellieren können.
  • Wir können also unsere Stichprobe in eine Behandlungsgruppe und eine Kontrollgruppe aufteilen.
  • Grundsätzlich gibt es für jedes Individuum zwei mögliche Ergebniszustände:
    • \(y_i(1)\) ist das Ergebnis, wenn \(i\) an der Intervention teilgenommen hat.
    • \(y_i(0)\) ist das Ergebnis, wenn \(i\) nicht teilgenommen hat.
  • Wir können aber immer nur einen Zustand beobachten, da wir keine alternative Realität besuchen können.
  • Den nicht beobachteten Zustand bezeichnen wir als kontrafaktisches Ergebnis (engl. counterfactual outcome).

Kausale Effekte

Es gibt also für jedes Individuum zwei mögliche Zustände, von denen wir nur einen beobachten können.

  • Könnten wir beide Zustände beobachten, könnten wir sehr leicht einen kausalen Effekt isolieren. Wir müssten einfach rechnen \[ \text{Kausaler Effekt}_i=y_i(1)-y_i(0) \]
  • Dieser Effekt hat ein Subskript \(i\), er ist also möglicherweise für verschiedene Individuen unterschiedlich.
  • Wir werden diesen Effekt nie beobachten können, da wir nur eine Realität beobachten. Dieses Problem bezeichnen wir als fundamentales Problem kausaler Inferenz (engl. fundamental problem of causal inference).
  • Wir benötigen also alternative Strategien, uns diesem Effekt anzunähern.

Durchschnittlicher Behandlungseffekt (ATE)

Ein Effekt, den wir schätzen können, ist der durchschnittliche Behandlungseffekt (engl. average treatment effect, ATE):

\[ \mathrm{ATE}=\mathrm{E}\left(\text{Kausaler Effekt}_i\right) = \mathrm{E}\left(y_i(1)-y_i(0)\right) = \mathrm{E}\left(y_i(1)\right)-\mathrm{E}\left(y_i(0)\right). \]

Wenn die Annahmen SLR.1 bis SLR.4 halten, ist der OLS-Schätzer \(\beta_1\) ein unverzerrter Schätzer für den durchschnittlichen Behandlungseffekt.

Wir kommen zurück zu dem, was wir vorher schon einmal besprochen haben: Die Annahme SLR.4 (also in diesem Kontext: Die Fehler sind unabhängig von der Zugehörigkeit zur Behandlungsgruppe \(x\)) hält nur dann garantiert, wenn die Zuweisung zur Behandlungsgruppe zufällig ist, zum Beispiel in einer randomisierten kontrollierten Studie.

In Kontexten, in denen eine zufällige Zuweisung zu Behandlungsgruppen nicht möglich ist, können wir mit den bisherigen Methoden keine validen Aussagen über Behandlungseffekte treffen. In Modul 3 diskutieren wir, wie wir dieses Problem mit Methoden multipler linearer Regression angehen können.

Regressionen mit nur einem Parameter

Binäre erklärende Variablen

Kausale Inferenz

Appendix

 

 

 

Beste lineare Vorhersagefunktion

Warum verwenden wir die lineare bedingte Erwartungsfunktion zur Vorhersage?

Mit einer quadratischen Verlustfunktion:

  • Wenn \(y_i=\beta_0+\beta_1x_i+u_i\) das wahre Modell ist, und
  • wenn \(\mathrm{E}(y_i^2)<\infty\), \(\mathrm{E}(x_i^2)<\infty\), und \(\mathrm{Var}(x_i)>0\),
  • können wir zeigen, dass die lineare bedingte Erwartungsfunktion \(\mathrm{E}(y_i|x_i)=\beta_0+\beta_1x_i\) die beste lineare Vorhersagefunktion von \(y_i\) ist,
  • also die eindeutige Lösung von \[ (\beta_0,\beta_1)=\underset{b_0\in\mathbb{R},b_1\in\mathbb{R}}{\mathrm{arg\:min}}\:\:\mathrm{E}\left((y_i-b_0-b_1x_i)^2\right). \]

Wenn wir also die gemeinsame verteilung von \(x\) und \(y\) kennen, \(y\) mit einem linearen Modell vorhersagen wollen, und den die erwarteten Fehlerquadrate minimieren wollen, ist die lineare bedingte Erwartungsfunktion die beste Funktion, die wir dazu verwenden können.

Beste lineare Vorhersagefunktion

Zwei Bemerkungen:

  1. Explizite Lösungen für Steigung und Konstante in Abhängigkeit der (unbeobachteten) Momente der Grundgesamtheit sind: \[\beta_1=\frac{\mathrm{Cov}(x,y)}{\mathrm{Var}(x)} \quad\quad\text{und} \quad\quad\beta_0=\mathrm{E}(y)-\beta_1\mathrm{E}(x).\]

  2. Ein ähnliches Ergebnis wie auf der vorherigen Folie hält auch in allgemeinerer Form: Wenn wir eine quadratische Verlustfunktion verwenden, ist die beste Vorhersagefunktion unbekannter \(y\) immer eine bedingte Erwartungsfunktion; auch dann, wenn wir mit nicht-linearen Funktionen arbeiten.

Warum eine quadratische Verlustfunktion?

  • Vorwiegend, weil die analytischen Eigenschaften quadratischer Verlustfunktionen bekannt und bequem sind.
  • Man kann auch andere Verlustfunktionen verwenden.
    • z.B. führt eine Absolutbetrag-Verlustfunktion der Form \(|\cdot|\) zum bedingten median als Lösung.

Beweis: \(\mathrm{Cov}(u,x)=\mathrm{E}(ux)\)

\[ \mathrm{Cov}(u_i,x_i) = \mathrm{E}(u_ix_i)-\mathrm{E}(u_i)\mathrm{E}(x_i) \]

Weil wir annehmen, dass \(\mathrm{E}(u_i)=0\),

\[ \mathrm{Cov}(u_i,x_i)=\mathrm{E}(x_iu_i) \]

\(\square\)

Beweis: \(\mathrm{SST} = \mathrm{SSE} + \mathrm{SSR}\)

\[ \begin{aligned} \text{SST} &= \sum (y_i - \bar{y})^2\\ &= \sum \bigl(y_i - \bar{y} + \underbrace{\hat{y}_i - \hat{y}_i}_{=0}\bigr)^2\\ &= \sum \Bigl((y_i - \hat{y}_i) + (\hat{y}_i - \bar{y})\Bigr)^2\\ &= \sum \Bigl(\hat{u}_i + (\hat{y}_i - \bar{y})\Bigr)^2\\ &= \sum \Bigl(\hat{u}_i^2 + 2\,\hat{u}_i(\hat{y}_i - \bar{y}) + (\hat{y}_i - \bar{y})^2\Bigr)\\ &= \sum \hat{u}_i^2 + 2 \sum \hat{u}_i(\hat{y}_i - \bar{y}) + \sum (\hat{y}_i - \bar{y})^2\\ &= \text{SSR} + 2 \underbrace{\sum \hat{u}_i(\hat{y}_i - \bar{y})}_{=0\text{, siehe rechts}} + \text{SSE}\\ &= \text{SSR} + \text{SSE}\qquad\qquad\qquad\qquad\qquad\qquad\square \end{aligned} \]

\[ \begin{aligned} \sum \hat{u}_i(\hat{y}_i - \bar{y}) &= \sum \hat{u}_i \,\hat{y}_i -\bar{y}\,\sum \hat{u}_i\\ &= \sum \hat{u}_i \bigl(\hat{\beta}_0 + \hat{\beta}_1 x_i\bigr)-\bar{y}\,\sum \hat{u}_i\\ &= \hat{\beta}_0\underbrace{\sum \hat{u}_i}_{=0} +\hat{\beta}_1 \underbrace{\sum \hat{u}_i x_i}_{=0} -\bar{y}\underbrace{\sum \hat{u}_i}_{=0}\\ &= 0 \end{aligned} \]

Beweis: \(\mathrm{E}\left(u_i\mid x_i\right) = 0 \Rightarrow \mathrm{E}\left(u_i x_i\right) = 0\) und \(\mathrm{E}\left(u_i\right) = 0\)

Teil 1: \(\mathrm{E}\left(u_i\mid x_i\right) = 0 \Rightarrow \mathrm{E}\left(u_i\right) = 0\)

Zuerst wenden wir den Satz der iterierten Erwartungen an: \(\mathrm{E}\left(u_i\right) = \mathrm{E}\left(\mathrm{E}\left(u_i\mid x_i\right)\right)\). Dann nutzen wir die Annahme, dass \(\mathrm{E}\left(u_i\mid x_i\right)=0\): \(\mathrm{E}\left(\mathrm{E}\left(u_i\mid x_i\right)\right) = \mathrm{E}(0) = 0\). \(\square\)

Teil 2: \(\mathrm{E}\left(u_i\mid x_i\right) = 0 \Rightarrow \mathrm{E}\left(u_i x_i\right) = 0\)

Wir wenden wieder den Satz der iterierten Erwartungen an: \(\mathrm{E}\left(u_ix_i\right) = \mathrm{E}\left(\mathrm{E}\left(u_ix_i\mid x_i\right)\right)\) Da \(\mathrm{E}(x_i\mid x_i) = x_i\), ist \(\mathrm{E}\left(\mathrm{E}\left(u_ix_i\mid x_i\right)\right) = \mathrm{E}\left(\mathrm{E}\left(u_i\mid x_i\right)x_i\right)\) Dann nutzen wir die Annahme, dass \(\mathrm{E}\left(u_i\mid x_i\right)=0\): \(\mathrm{E}\left(\mathrm{E}\left(u_i\mid x_i\right)x_i\right) = \mathrm{E}(0x_i) = 0\). \(\square\)