Modul 2: Einfache Lineare Regression

PI 6250 – Ökonometrie I

Max Heinze (mheinze@wu.ac.at)

Department für Volkswirtschaftslehre, WU Wien

Basierend auf einem Foliensatz von Simon Heß

6. März 2025

 

 

 

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

Was haben diese Schlagzeilen gemeinsam?




Bedingte Erwartung von \(y\)

Die Aussagen auf der vorherigen Folie betreffen alle die bedingte Erwartung einer abhängigen Variable \(y\), gegeben eine erklärende Variable \(x\).

  • Manche Aussagen sind trotzdem Unsinn.
  • Wir werden lernen, zu zeigen, wieso.

Bedingte Erwartungen sind ein wichtiges Maß, das eine abhängige Variable \(y\) mit einer erklärenden Variable \(x\) in Relation setzt, zum Beispiel so:

\[ \mathrm{E}\left(\textcolor{var(--primary-color)}{y}\mid\textcolor{var(--secondary-color)}{x}\right) = 0.4 + 0.5\textcolor{var(--secondary-color)}{x} \]

Auf diese Weise können wir Variation in der abhängigen Variable \(y\) in zwei Komponenten unterteilen:

  • Variation, die von der erklärenden Variable \(x\) ausgeht, und
  • Variation, die zufällig entsteht oder von unbeobachteten Faktoren ausgeht.

Evaluierung von Politikmaßnahmen

Wenn wir bestimmte Maßnahmen evaluieren, sind wir oft daran interessiert, Unterschiede zwischen verschiedenen Gruppen zu verstehen.

Zwei Beispiele:

  • Effekte eines Medikaments auf die Gesundheit der Patient:innen in einer randomisierten Doppelblindstudie \[ \mathrm{E}\left(\textcolor{var(--primary-color)}{\mathrm{Gesundheit}}\mid\textcolor{var(--secondary-color)}{\mathrm{Medikament}=1}\right) - \mathrm{E}\left(\textcolor{var(--primary-color)}{\mathrm{Gesundheit}}\mid\textcolor{var(--secondary-color)}{\mathrm{Medikament}=0}\right) \]
  • Gender Pay Gap für ein bestimmtes Bildungsniveau \[ \mathrm{E}\left(\mathrm{log}(\textcolor{var(--primary-color)}{\mathrm{Lohn}})\mid\textcolor{var(--secondary-color)}{\mathrm{M\ddot{a}nnlich}=1},\dots\right) - \mathrm{E}\left(\mathrm{log}(\textcolor{var(--primary-color)}{\mathrm{Lohn}})\mid\textcolor{var(--secondary-color)}{\mathrm{M\ddot{a}nnlich}=0},\dots\right) \]

In beiden Fällen untersuchen wir den durchschnittlichen Behandlungseffekt (engl. average treatment effect, ATE): der durchschnittliche Effekt einer „Behandlung“ relativ zu keiner „Behandlung“.

Vorhersagen

Wir können auch daran interessiert sein, ein Ergebnis für eine bestimmte Ausgangssituation vorherzusagen.

Angenommen, wir kennen die Verteilung von Schulklassengröße und Prüfungsergebnissen. Für einen neuen Bezirk kannen wir nur die Klassengröße. Was ist die beste Vorhersage für die Prüfungsergebnisse im neuen Bezirk?

  • Der bedingte Mittelwert?
  • Der bedingte Median?
  • Der bedingte Modalwert?
  • Etwas anderes?

Wenn wir eine quadratische Verlustfunktion minimieren, wird unsere beste Vorhersage der bedingte Mittelwert sein.

 

 

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

Logarithmische Transformationen

Bedingte Erwartungsfunktion

Wir wollen jetzt die Bedingte Erwartungsfunktion einer bestimmten Zufallsvariable \(y\) in Abhängigkeit von einer anderen Zufallsvariable \(x\) modellieren.

Der einfachste Weg, das zu tun: wir unterstellen eine lineare Funktion.

\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]

wobei

  • \(\beta_0\) und \(\beta_1\) Parameter der Funktion sind
  • \(i\) ein Index für Beobachtungen ist
  • \(\textcolor{var(--primary-color)}{y_i}\) die abhängige Variable, erklärte Variable, Outcome-Variable, der Regressand … ist, und
  • \(\textcolor{var(--secondary-color)}{x_i}\) die erklärende Variable, unabhängige Variable, der Regressor, … ist.

Bedingte Erwartungsfunktion

\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]

Diese Funktion gibt uns eine Information über den Erwartungswert von \(y_i\) für einen bestimmten Wert \(x_i\), und nur das.

  • Wir können nicht herauslesen, welchen Wert von \(y_i\) wir für ein bestimmtes \(x_i\) bekommen.
  • Wir bekommen auch keine Informationen über die Verteilung von \(y_i\) und \(x_i\) abseits des bedingten Erwartungswerts.

Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist

\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]

Bedingte Erwartungsfunktion

Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist

\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]

was können wir dann über die Prüfungsergebnisse in einem neuen Bezirk mit einer Klassengröße von 20 sagen?

  • Der Erwartungswert für die Prüfungsergebnisse ist 708 Punkte.
  • Die tatsächlichen Prüfungsergebnisse können darüber oder darunter liegen:
  • Es gibt einen gewissen Fehler, bzw. eine unbeobachtete Komponente.
  • Wir erwarten im Mittel einen Wert von 0 für diesen Fehlerterm (engl. error term): \(u_i := \textcolor{var(--primary-color)}{y_i}-\mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \textcolor{var(--primary-color)}{y_i}- \beta_0 - \beta_1 \textcolor{var(--secondary-color)}{x_i},\qquad\mathrm{E}(u_i\mid\textcolor{var(--secondary-color)}{x_i})=0.\)
  • Außerdem nehmen wir an, dass sein Erwartungswert unabhänigig von \(x_i\) ist: \(\mathrm{E}(u_i\mid \textcolor{var(--secondary-color}{x_i})=\mathrm{E}(u_i)=0\) (engl. zero conditional mean assumption).

Visualisierung der bedingten Erwartungsfunktion