PI 6250 – Ökonometrie I
Department für Volkswirtschaftslehre, WU Wien
22. Mai 2025
Wir haben schon öfter über Unverzerrtheit gesprochen. Eine wichtige andere Eigenschaft ist Konsistenz.
Wir können skizzieren, wie wir beweisen würden, dass der OLS-Schätzer konsistent ist. Dabei gehen wir wie folgt vor, wobei \(\mathrm{plim}\:X_n=X\) bedeutet, dass \(X_n\) in Wahrscheinlichkeit gegen \(X\) konvergiert, wenn \(N\rightarrow\infty\):
\[ \begin{aligned} \mathrm{plim}\:\hat{\boldsymbol{\beta}} &= \mathrm{plim}\:((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}) \\ &= \mathrm{plim}\:((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'(\boldsymbol{X\beta}+\boldsymbol{u})) \\ &= \mathrm{plim}\:((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{X\beta}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}) \\ &= \mathrm{plim}\:\boldsymbol{\beta}+\mathrm{plim}\:((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}) \\ &= \boldsymbol{\beta}+\mathrm{plim}\:(\boldsymbol{X}'\boldsymbol{X})^{-1}\mathrm{plim}\:\boldsymbol{X}'\boldsymbol{u} \\ &= \boldsymbol{\beta}+\mathrm{plim}\:(N^{-1}\boldsymbol{X}'\boldsymbol{X})^{-1}\mathrm{plim}\:(N^{-1}\boldsymbol{X}'\boldsymbol{u}) \\ \end{aligned} \]
Im letzten Schritt multiplizieren wir den zweiten Summanden einmal mit \(\left(N^{-1}\right)^{-1}\), sodass wir das Gesetz der großen Zahlen anwenden können.
Da \(\mathrm{plim}\:(N^{-1}\boldsymbol{X}'\boldsymbol{X})^{-1}\) invertierbar ist, müssen wir nur zeigen, dass \(\mathrm{plim}\:(N^{-1}\boldsymbol{X}'\boldsymbol{u})=\boldsymbol{0}.\) Das ist der Fall, da, wenn \(N\rightarrow\infty\), die Stichprobenkovarianz gegen die Kovarianz der Grundgesamtheit konvergiert und wir angenommen haben, dass alle \(x_k\) mit dem Fehlerterm unkorreliert sind (MLR.4).
\[ \mathrm{plim}(N^{-1}\boldsymbol{X}'\boldsymbol{u}) = \mathrm{plim}\:N^{-1}\sum^N_{i=1}\boldsymbol{x}_i'u_i=\boldsymbol{0}. \]
Wir haben zwar MLR.4 in der Beweisskizze zur Konsistenz des OLS-Schätzers benutzt, haben aber eigentlich nur eine schwächere Annahme benötigt. Wir können diese schwächere Annahme MLR.4’ explizit treffen:
Der Fehlerterm hat Erwartungswert 0 und ist mit keiner erklärenden Variable korreliert:
\[ \mathrm{E}\left(u\right) = 0, \qquad\qquad \mathrm{Cov}\left(x_k,u\right)=0\quad\text{ für } k=1,\dots,K. \]
Wir haben besprochen, dass
\[ \mathrm{plim}\:\hat{\boldsymbol{\beta}} = \boldsymbol{\beta}+\mathrm{plim}\:(N^{-1}\boldsymbol{X}'\boldsymbol{X})^{-1}\mathrm{plim}\:(N^{-1}\boldsymbol{X}'\boldsymbol{u}) \]
Alternativ können wir für ein Element von \(\hat{\boldsymbol{\beta}}\), zum Beispiel \(\hat{\beta}_1\), schreiben:
\[ \mathrm{plim}\:\hat{\beta}_1 = \beta_1 + \frac{\mathrm{Cov}(x_1,u)}{\mathrm{Var}(x_1)}. \]
Wir können also festhalten:
Skalieren, Transformieren, Interagieren
Wenn wir eine Variable skalieren, dann ändert sich die Skalierung bestimmter Koeffizienten:
\[ \begin{aligned} y^{*}&=\textcolor{var(--primary-color)}{10}\beta_{0} +\textcolor{var(--primary-color)}{10}\beta_{1}x_{1} +\textcolor{var(--primary-color)}{10}\beta_{2}x_{2} +\textcolor{var(--primary-color)}{10}u, & y^*=\textcolor{var(--primary-color)}{10}\times y\\ y&=\beta_{0} +\frac{\beta_{1}}{\textcolor{var(--secondary-color)}{10}}\,x_{1}^{*} +\beta_{2}x_{2}+u, & x_1^*=\textcolor{var(--secondary-color)}{10}\times x_1 \end{aligned} \]
Glücklicherweise ändert sich sonst nicht viel:
Wir haben bereits über logarithmische Transformationen gesprochen:
Modell | Abh. Variable | Unabh. Variable | Interpretation |
---|---|---|---|
Level-Level | \(y\) | \(x\) | \(+1\) in \(x\) \(\Leftrightarrow\) \(+\beta_1\) in \(y\) |
Level-Log | \(y\) | \(\log(x)\) | \(+1\%\) in \(x\) \(\Leftrightarrow\) \(+\beta_1 / 100\) in \(y\) |
Log-Level | \(\log(y)\) | \(x\) | \(+1\) in \(x\) \(\Leftrightarrow\) \(+\beta_1 \times 100\%\) in \(y\) |
Log-Log | \(\log(y)\) | \(\log(x)\) | \(+1\%\) in \(x\) \(\Leftrightarrow\) \(+\beta_1\)% in \(y\) |
Es gibt verschiedene Gründe, um Variablen logarithmisch zu transformieren:
Es gibt aber auch gute Gründe, Variablen nicht logarithmisch zu transformieren:
Mit Quadratischen Funktionen können wir nicht-lineare Beziehungen modellieren. Wir schätzen dann ein Modell folgender Art:
\[ y = \beta_0 + \beta_1 x + \textcolor{var(--quarternary-color)}{\beta_2 x^2} + u, \]
Es macht keinen Unterschied, ob wir ein Modell mit oder ohne quadratischen Funktionen schätzen. Da eine quadratische Funktion keine lineare Funktion ist, ist MLR.3 nicht verletzt. Es gibt aber einen Unterschied in der Interpretation:
Wenn wir folgende Gleichung schätzen:
\[ \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x + \hat{\beta}_2x^2, \]
dann können wir approximieren:
\[ \frac{\Delta \hat{y}}{\Delta x}\approx\hat{\beta}_1 +2\hat{\beta}_2x. \]
Wir können auch Situationen modellieren, in denen der Effekt einer Variable vom Wert einer anderen Variable abhängt. Dazu verwenden wir einen Interaktionsterm:
\[ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \textcolor{var(--secondary-color)}{\beta_3\:\:x_1\times x_2} + u. \]
Der durchschnittliche partielle Effekt (engl. average partial effect, APE) ist eine für die Interpretation hilfreiche Maßzahl, wenn die Koeffizienten selbst nicht die partiellen Effekte repräsentieren (aufgrund von Logarithmen, quadratischen Termen, oder Interaktionen).
Angenommen, wir haben dieses Modell:
\[ y = \beta_0 + \beta_1\textcolor{var(--primary-color)}{x_1} + \beta_2\textcolor{var(--secondary-color)}{x_2} + \beta_3\textcolor{var(--secondary-color)}{x_2^2} + \beta_4\textcolor{var(--primary-color)}{x_1}\textcolor{var(--secondary-color)}{x_2} + u. \]
Wir wissen, dass das \(\textcolor{var(--tertiary-color)}{R^2}\) nur begrenzt zum Evaluieren und Vergleichen von Modellen nützlich ist. Bestimmte Probleme betreffen speziell den multivariaten Fall:
\[ \textcolor{var(--tertiary-color)}{R^2} = \frac{\textcolor{var(--secondary-color)}{\mathrm{SSE}}}{\textcolor{var(--primary-color)}{\mathrm{SST}}} = 1- \frac{\textcolor{var(--quarternary-color)}{\mathrm{SSR}}}{\textcolor{var(--primary-color)}{\mathrm{SST}}}. \]
Das adjustierte R² ist eine Möglichkeit, das Problem zu umgehen, dass \(\textcolor{var(--tertiary-color)}{R^2}\) immer wächst, wenn \(K\) größer wird:
\[ \textcolor{var(--secondary-color)}{R^2_{\mathrm{adj.}}} = 1- \frac{\textcolor{var(--quarternary-color)}{\mathrm{SSR}}/N-K-1}{\textcolor{var(--primary-color)}{\mathrm{SST}}/N-1}\qquad = 1-\left(1-\textcolor{var(--tertiary-color)}{R^2}\right)\times\frac{N-1}{N-K-1}. \]
Wir haben bisher nur eine Methode kennengelernt, um zwischen verschiedenen Modellen zu wählen: den F-Test. Der F-Test erlaubt uns aber nur den Vergleich verschachtelter Modelle (engl. nested models), also Situationen, in denen ein Modell ein Spezialfall des anderen ist.
Das adjustierte R² gibt uns eine (erste und einfache) Möglichkeit, Modelle zu vergleichen, die nicht verschachtelt sind (engl. nonnested models).
Mit Dummy-Variablen können wir qualitative Information in unser Modell mit einbeziehen.
\[ y = \beta_0 + \beta_1x_1+\dots + u,\qquad x_1\in\{0,1\} \]
Wir haben die Koeffizienten in so einem Fall so interpretiert:
\[ \mathrm{E}(y\mid x_1=1) = \beta_0+ \beta_1+\cdots, \qquad\mathrm{E}(y\mid x_1=0) = \beta_0+\cdots. \]
Mit den Methoden multipler linearer Regression können wir auch Variablen mit mehr als zwei Kategorien einfließen lassen.
Angenommen, wir wollen die Farbe eines Autos als Regressor verwenden. In unserer Population gibt es schwarze, rote und blaue Autos. Wir können im Prinzip drei Dummy-Variablen daraus bilden:
\[ \mathrm{schwarz}_i = \begin{cases} 1&\text{wenn }i\text{ schwarz ist},\\ 0&\text{andernfalls} \end{cases}, \qquad \mathrm{rot}_i = \begin{cases} 1&\text{wenn }i\text{ rot ist},\\ 0&\text{andernfalls} \end{cases}, \qquad \mathrm{blau}_i = \begin{cases} 1&\text{wenn }i\text{ blau ist},\\ 0&\text{andernfalls} \end{cases}. \]
Angenommen, wir schätzen das Modell
\[ y = \beta_0 + \beta_1\:\mathrm{schwarz}+\beta_2\:\mathrm{rot}+\beta_3\:\mathrm{blau}+u. \]
Die Matrix der Regressoren \(\boldsymbol{X}\) schaut dann zum Beispiel so aus:
\[ \boldsymbol{X}= \begin{pmatrix} 1 & 0 & 1 & 0 \\ 1 & 1 & 0 & 0 \\ 1 & 1 & 0 & 0 \\ 1 & 0 & 0 & 1 \\ \vdots & \vdots & \vdots & \vdots \end{pmatrix} \]
\[ \boldsymbol{X}= \begin{pmatrix} 1 & 0 & 1 & 0 \\ 1 & 1 & 0 & 0 \\ 1 & 1 & 0 & 0 \\ 1 & 0 & 0 & 1 \\ \vdots & \vdots & \vdots & \vdots \end{pmatrix} \]
Was ist das Problem mit dieser Matrix? Die vierte Spalte, \(\beta_3\), ist eine Linearkombination der anderen Spalten: \(x_3=1-x_1-x_2\).
Sagen wir also, wir bestimmen \(\mathrm{blau}_i\) als Referenzkategorie und schätzen:
\[ y = \beta_0 + \beta_1\:\mathrm{schwarz}+\beta_2\:\mathrm{rot}+u. \]
Wie interpretieren wir die Parameter?
Angenommen, es gibt noch weitere erklärende Variablen, z.B. eine numerische Variable \(x_3\). Dann interpretieren wir die Parameter analog:
\(\beta_0+\beta_1\) ist dann der erwartete \(y\)-Wert für ein schwarzes Auto mit \(x_3=0\). In gewisser Weise ist \(\beta_0+\beta_1\) dann also ein gruppenspezifischer Intercept für schwarze Autos.
Wir können also unterschiedliche Konstanten pro Gruppe modellieren. Können wir auch unterschiedliche Steigungen pro Gruppe modellieren? Ja, mit Interaktionen. Betrachten wir das folgende Modell:
\[ y = \beta_0 + \beta_1\:\mathrm{schwarz}+\beta_2\:\mathrm{rot}+\beta_3x_3+\textcolor{var(--secondary-color)}{\beta_4\:\mathrm{schwarz}\times x_3}+\textcolor{var(--secondary-color)}{\beta_5\:\mathrm{rot}\times x_3}+u. \]
Wir interpretieren die Parameter wie folgt:
Wir können eine Dummy-Variable auch als abhängige Variable benutzen. Wir können z.B. untersuchen, wovon abhängt, ob jemand Ökonometrie besteht (Lernzeit, Motivation, …):
\[ y = \beta_0 + \beta_1x_1+\dots+u,\qquad\qquad y_i = \begin{cases} 1&\text{wenn }i\text{ den Ökonometrie-Kurs besteht},\\ 0&\text{andernfalls} \end{cases}. \]
Ein solches Modell nennen wir lineares Wahrscheinlichkeitsmodell (engl. linear probability model).