PI 6250 – Ökonometrie I
Department für Volkswirtschaftslehre, WU Wien
Basierend auf einem Foliensatz von Simon Heß
10. April 2025
Fangen wir mit dem einfachstmöglichen Modell mit mehr als zwei Variablen an:
\[ \textcolor{var(--primary-color)}{y_i}=\beta_0+\beta_1\textcolor{var(--secondary-color)}{x_{i1}}+\beta_2\textcolor{var(--secondary-color)}{x_{i2}}+u_i \]
Wie interpretieren wir die Parameter in so einem Modell?
Wie interpretieren wir die Parameter in so einem Modell?
\[ \textcolor{var(--primary-color)}{y_i}=\beta_0+\beta_1\textcolor{var(--secondary-color)}{x_{i1}}+\beta_2\textcolor{var(--secondary-color)}{x_{i2}}+u_i \]
Der Parameter
\[ \beta_1=\frac{\partial\mathrm{E}(y_i\mid x_{i1},x_{i2})}{\partial x_{i1}} \]
Diese Interpretation wird oft als Ceteris-Paribus-Interpretation bezeichnet; dabei ist aber wichtig, dass nur die beobachteten und im Modell mit einbezogenen Variablen tatsächlich fixiert werden.
Wie sieht das in einem Beispiel aus?
\[ \textcolor{var(--primary-color)}{\mathrm{Lohn}_i}=\beta_0+\beta_1\textcolor{var(--secondary-color)}{\mathrm{Bildung}_{i}}+\beta_2\textcolor{var(--secondary-color)}{\mathrm{Erfahrung}_{i}}+u_i \]
In diesem Modell misst der Parameter
\[ \beta_1=\frac{\partial\mathrm{E}(\mathrm{Lohn}_i\mid \mathrm{Bildung}_i,\mathrm{Erfahrung}_i)}{\partial \mathrm{Bildung}_i} \]
die erwartete Änderung des Lohns, wenn sich die Bildung um eine Einheit ändert, und wir die Erfahrung gleich halten.
Wir können so viele Variablen hinzufügen, wie wir wollen:
\[ \textcolor{var(--primary-color)}{\mathrm{Lohn}_i}=\beta_0+\beta_1\textcolor{var(--secondary-color)}{\mathrm{Bildung}_{i}}+\beta_2\textcolor{var(--secondary-color)}{\mathrm{Erfahrung}_{i}}+\beta_3\textcolor{var(--secondary-color)}{\mathrm{Alter}_{i}}+\beta_4\textcolor{var(--secondary-color)}{\mathrm{Karrierejahre}_{i}}+\beta_5\textcolor{var(--secondary-color)}{\mathrm{Gewerkschaft}_{i}}+u_i \]
Versuchen wir, die OLS-Schätzer so herzuleiten, wie wir das im bivariaten Fall gemacht haben. Wir beginnen damit, eine Verlustfunktion aufzustellen:
\[ \left(\hat{\beta}_0,\hat{\beta}_1,\dots,\hat{\beta}_K\right) = \underset{\left(\tilde{\beta}_0,\tilde{\beta}_1,\dots,\tilde{\beta}_K\right)}{\mathrm{arg\:min}}\sum^N_{i=1}\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_{i1}-\dots-\tilde{\beta}_Kx_{iK}\right)^2. \]
Wir können das ableiten und gleich Null setzen und erhalten ein System von Bedingungen erster Ordnung:
\[ \begin{aligned} \textstyle-2\sum^N_{i=1}\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_{i1}-\dots-\tilde{\beta}_Kx_{iK}\right)&=0 \\ \textstyle-2\sum^N_{i=1}x_{i1}\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_{i1}-\dots-\tilde{\beta}_Kx_{iK}\right)&=0 \\ \textstyle&\vdots\\ \textstyle-2\sum^N_{i=1}x_{iK}\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_{i1}-\dots-\tilde{\beta}_Kx_{iK}\right)&=0 \\ \end{aligned} \]
Wir können das ableiten und gleich Null setzen und erhalten ein System von Bedingungen erster Ordnung:
\[ \begin{aligned} \textstyle-2\sum^N_{i=1}\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_{i1}-\dots-\tilde{\beta}_Kx_{iK}\right)&=0 \\ \textstyle-2\sum^N_{i=1}x_{i1}\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_{i1}-\dots-\tilde{\beta}_Kx_{iK}\right)&=0 \\ \textstyle&\vdots\\ \textstyle-2\sum^N_{i=1}x_{iK}\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_{i1}-\dots-\tilde{\beta}_Kx_{iK}\right)&=0 \\ \end{aligned} \]
Dieses Gleichungssystem ist lösbar, da es linear ist und \(K+1\) Gleichungen und \(K+1\) Variablen hat. Allerdings können wir ohne Matrixalgebra keine Lösung für \(\hat{\beta}_k\) finden.
Wir können, wie im bivariaten Fall, diese Bedingungen erster Ordnung als Momentenbedingungen interpretieren:
Wenn wir mehrere Variablen haben, wird die im letzten Kapitel benutzte Summenschreibweise unhandlich. Wir benutzen daher Vektoren und Matrizen, um Modelle mit mehr als zwei Variablen anzuschreiben.
Sehen wir uns noch einmal dieses Modell an (etwas kompakter als vorher):
\[ \textcolor{var(--primary-color)}{\mathrm{Lohn}_i}=\beta_0\cdot\textcolor{var(--secondary-color)}{1}+\beta_1\textcolor{var(--secondary-color)}{\mathrm{Bildung}_{i}}+\beta_2\textcolor{var(--secondary-color)}{\mathrm{Erfahrung}_{i}}+\beta_3\textcolor{var(--secondary-color)}{\mathrm{Alter}_{i}}+u_i \]
Beachte, dass wir beim konstanten Parameter eine \(1\) hinzugefügt haben. Wenn wir diese \(1\) wie eine Variable betrachten, können wir \(\beta_0\) wie die anderen Parameter betrachten und einen Vektor aus Variablen sowie einen Vektor aus Parametern anschreiben:
\[ \textcolor{var(--secondary-color)}{\boldsymbol{x}_i}= \begin{pmatrix} \textcolor{var(--secondary-color)}{1}\\ \textcolor{var(--secondary-color)}{\mathrm{Bildung}_{i}}\\ \textcolor{var(--secondary-color)}{\mathrm{Erfahrung}_{i}}\\ \textcolor{var(--secondary-color)}{\mathrm{Alter}_{i}} \end{pmatrix} ,\qquad \boldsymbol{\beta}= \begin{pmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \beta_3 \end{pmatrix} \]
\[ \textcolor{var(--secondary-color)}{\boldsymbol{x}_i}= \begin{pmatrix} \textcolor{var(--secondary-color)}{1}\\ \textcolor{var(--secondary-color)}{\mathrm{Bildung}_{i}}\\ \textcolor{var(--secondary-color)}{\mathrm{Erfahrung}_{i}}\\ \textcolor{var(--secondary-color)}{\mathrm{Alter}_{i}} \end{pmatrix} ,\qquad \boldsymbol{\beta}= \begin{pmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \beta_3 \end{pmatrix} \]
Wir können den Variablen-Vektor transponieren, also Spalten und Zeilen vertauschen. Wir markieren das mit einem kleinen Strich:
\[ \textcolor{var(--secondary-color)}{\boldsymbol{x}_i'}=\left(\textcolor{var(--secondary-color)}{1},\textcolor{var(--secondary-color)}{\mathrm{Bildung}_{i}},\textcolor{var(--secondary-color)}{\mathrm{Erfahrung}_{i}},\textcolor{var(--secondary-color)}{\mathrm{Alter}_{i}}\right) \]
Jetzt können wir uns die Regeln der Matrixmultiplikation zunutze machen:
\[ \textcolor{var(--secondary-color)}{\boldsymbol{x}_i'}\boldsymbol{\beta}=\textcolor{var(--secondary-color)}{1}\cdot\beta_0+\textcolor{var(--secondary-color)}{\mathrm{Bildung}_{i}}\beta_1+\textcolor{var(--secondary-color)}{\mathrm{Erfahrung}_{i}}\beta_2+\textcolor{var(--secondary-color)}{\mathrm{Alter}_{i}}\beta_3 \]
\[ \textcolor{var(--secondary-color)}{\boldsymbol{x}_i'}\boldsymbol{\beta}=\textcolor{var(--secondary-color)}{1}\cdot\beta_0+\textcolor{var(--secondary-color)}{\mathrm{Bildung}_{i}}\beta_1+\textcolor{var(--secondary-color)}{\mathrm{Erfahrung}_{i}}\beta_2+\textcolor{var(--secondary-color)}{\mathrm{Alter}_{i}}\beta_3 \]
Wir können unser Regressionsmodell also extrem kompakt schreiben, egal wie viele Variablen wir haben:
\[ \textcolor{var(--primary-color)}{y_i}=\textcolor{var(--secondary-color)}{\boldsymbol{x}_i'}\boldsymbol{\beta}+u_i. \]
Wir können auch das OLS-Optimierungsproblem so anschreiben:
\[ \textstyle\hat{\boldsymbol{\beta}} = \underset{\tilde{\boldsymbol{\beta}}}{\mathrm{arg\:min}}\sum^N_{i=1}\left(y_i-\boldsymbol{x}_i'\boldsymbol{\beta}\right)^2. \]
Die Lösung für dieses Problem ist:
\[ \textstyle\hat{\boldsymbol{\beta}} = \left(\sum^N_{i=1}\boldsymbol{x}_i\boldsymbol{x}_i'\right)^{-1}\left(\sum^N_{i=1}\boldsymbol{x}_iy_i\right) \]
Übungsaufgabe
Löse dieses Optimierungsproblem!
Diese Gleichung beschreibt das Regressionsmodell für eine Beobachtung \(i\).
\[ \textcolor{var(--primary-color)}{y_i}=\textcolor{var(--secondary-color)}{\boldsymbol{x}_i'}\boldsymbol{\beta}+u_i. \]
Wir können das Modell aber noch kompakter darstellen: mit einer Gleichung für alle Beobachtungen. Dazu definieren wir:
\[ \boldsymbol{y}= \begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_N \end{pmatrix} ,\qquad \boldsymbol{X}= \begin{pmatrix} 1 & x_{11} & \dots & x_{1K} \\ 1 & x_{21} & \dots & x_{2K} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{N1} & \dots & x_{NK} \end{pmatrix} ,\qquad \boldsymbol{u}= \begin{pmatrix} u_1\\ u_2\\ \vdots\\ u_N \end{pmatrix}. \]
\[ \boldsymbol{y}= \begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_N \end{pmatrix} ,\qquad \boldsymbol{X}= \begin{pmatrix} 1 & x_{11} & \dots & x_{1K} \\ 1 & x_{21} & \dots & x_{2K} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{N1} & \dots & x_{NK} \end{pmatrix} ,\qquad \boldsymbol{u}= \begin{pmatrix} u_1\\ u_2\\ \vdots\\ u_N \end{pmatrix}. \]
Unser Modell schaut jetzt so aus:
\[ \textcolor{var(--primary-color)}{\boldsymbol{y}}=\textcolor{var(--secondary-color)}{\boldsymbol{X}}\boldsymbol{\beta}+\boldsymbol{u}. \]
Übungsaufgabe
Was sind die Dimensionen von \(\boldsymbol{y}\), \(\boldsymbol{\beta}\), \(\boldsymbol{X}\), und \(\boldsymbol{u}\)?
\(\boldsymbol{u}\) ist der Vektor der Fehlerterme. Er ist also ein Vektor aus Zufallsvariablen, die alle den Mittelwert \(0\) und eine Varianz von \(\sigma^2\) haben. Was ist also die Varianz von \(\boldsymbol{u}\)?
Die Varianz eines Vektors ist eine Matrix. Die diagonalen Elemente dieser Matrix sind die Varianzen der einzelnen Elemente des Vektors. Die Elemente abseits der Diagonale sind die Kovarianzen zwischen den einzelnen Elementen.
Wir nennen so eine Matrix auch Varianz-Kovarianz-Matrix (engl. variance-covariance matrix, VCM):
\[ \mathrm{Var}(\boldsymbol{u}) = \begin{pmatrix} \mathrm{Cov}(u_1,u_1) & \dots & \mathrm{Cov}(u_1,u_N) \\ \vdots & \ddots & \vdots \\ \mathrm{Cov}(u_N,u_1) & \dots & \mathrm{Cov}(u_N,u_N) \\ \end{pmatrix} = \begin{pmatrix} \mathrm{Var}(u_1) & \dots & \mathrm{Cov}(u_1,u_N) \\ \vdots & \ddots & \vdots \\ \mathrm{Cov}(u_N,u_1) & \dots & \mathrm{Var}(u_N) \\ \end{pmatrix} \]
In Matrixnotation ist die Summe der Residuenquadrate:
\[ \hat{\boldsymbol{u}}'\hat{\boldsymbol{u}} = (\boldsymbol{y}-\boldsymbol{X}\tilde{\boldsymbol{\beta}})'(\boldsymbol{y}-\boldsymbol{X}\tilde{\boldsymbol{\beta}}), \]
und das OLS-Optimierungsproblem ist:
\[ \hat{\boldsymbol{\beta}} = \underset{\tilde{\boldsymbol{\beta}}}{\mathrm{arg\:min}}\:\hat{\boldsymbol{u}}'\hat{\boldsymbol{u}}. \]
Wenn wir dieses Problem lösen, erhalten wir den Schätzer
\[ \hat{\boldsymbol{\beta}}=(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}, \]
wir müssen aber Matrizen ableiten. Um das zu vermeiden, verwenden wir die Momentenmethode.
In Matrixschreibweise haben wir eine Momentenbedingung für unser Modell:
\[ \mathrm{E}(\boldsymbol{X}'\boldsymbol{u})=0. \]
Wenn unser \(\boldsymbol{X}\) wie vorher definiert eine 1er-Spalte hat, impliziert diese Bedingung nämlich auch, dass \(\mathrm{E}(\boldsymbol{u})=0\).
Wir beginnen wieder damit, die Momente der Grundgesamtheit durch Stichprobenmomente zu ersetzen. Aus \(\mathrm{E}(\boldsymbol{X}'\boldsymbol{u})=0\) wird also:
\[ \boldsymbol{X}'\hat{\boldsymbol{u}}=0. \]
Wir können unseren OLS-Schätzer jetzt sehr einfach herleiten:
Wir können unseren OLS-Schätzer jetzt sehr einfach herleiten:
\[ \begin{aligned} \boldsymbol{X}'\hat{\boldsymbol{u}}=\boldsymbol{X}'(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{\beta}})&=0 \\ \boldsymbol{X}'\boldsymbol{y}-\boldsymbol{X}'\boldsymbol{X}\hat{\boldsymbol{\beta}}&=0 \\ \boldsymbol{X}'\boldsymbol{y}&=\boldsymbol{X}'\boldsymbol{X}\hat{\boldsymbol{\beta}} \\ (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}&=(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{X}\hat{\boldsymbol{\beta}} \\ (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}&=\hat{\boldsymbol{\beta}} \end{aligned} \]
Wir erhalten denselben Schätzer wie bei der Herleitung mittels Optimierungsproblem,
\[ \colorbox{var(--primary-color-lightened)}{$\hat{\boldsymbol{\beta}}=(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}.$} \]
Wir haben unseren OLS-Schätzer in drei verschiedenen Schreibweisen kennen gelernt:
In Summenschreibweise (für den bivariaten Fall):
\[ \hat{\beta}_1=\frac{\sum^N_{i=1}(x_i-\bar{x})(y_i-\bar{y})}{\sum^N_{i=1}(x_i-\bar{x})^2}, \]
in Vektorschreibweise:
\[ \hat{\boldsymbol{\beta}} = \left(\sum^N_{i=1}\boldsymbol{x}_i\boldsymbol{x}_i'\right)^{-1}\left(\sum^N_{i=1}\boldsymbol{x}_iy_i\right), \]
und in Matrixschreibweise:
\[ \hat{\boldsymbol{\beta}} =(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y.} \]
Multivariate vs. bivariate Modelle
Genau wie bei einfacher linearer Regression teilen wir die beobachteten \(y\)-Werte bei multipler linearer Regression auf in einen
\[ y_i=\underbrace{\hat{\beta}_0+\hat{\beta}_1x_{i1}+\dots+\hat{\beta}_Kx_{iK}}_{\hat{y}_i}+\hat{u}_i. \]
Wenn wir das einfache lineare Regressionsmodell
\[ y_i = \beta_0^*+\beta_1^*x_{i1}+u_i \] und das multiple lineare Regressionsmodell
\[ y_i = \beta_0+\beta_1x_{i1}+\dots+\beta_Kx_{iK}+u_i \]
schätzen, dann werden die Schätzungen für \(\hat{\beta}_1^*\) und \(\hat{\beta}_1\) grundsätzlich nicht übereinstimmen. Nur in zwei Spezialfällen wären die Schätzungen gleich:
Wir können diese Eigenschaft für den einfachen Fall von einem bzw. zwei Regressoren genauer ansehen. Wir betrachten das einfache lineare Regressionsmodell
\[ y_i = \beta_0^*+\beta_1^*x_{i1}+u_i \]
und das multiple lineare Regressionsmodell mit zwei Regressoren
\[ y_i = \beta_0+\beta_1x_{i1}+\beta_2x_{i2}+u_i. \]
Hier kann man zeigen, dass
\[ \hat{\beta}_1^*=\hat{\beta}_1+\hat{\beta}_2\hat{\delta}\qquad\Rightarrow\qquad\mathrm{E}\left(\hat{\beta}_1^*\right)=\beta_1^*=\beta_1+\beta_2\delta, \]
wobei \(\delta\) den Steigungsparameter aus einer Regression von \(x_2\) auf \(x_1\) bezeichnet. Wir sehen: \(\hat{\beta}_1^*\) und \(\hat{\beta}_1\) sind nur dann gleich, wenn \(\hat{\beta}_2\) oder \(\hat{\delta}\) gleich 0 ist.
Wir wissen nicht, ob das eine oder andere Modell „korrekt“ ist. Insbesondere muss das größere Modell nicht automatisch besser als das kleinere Modell sein. Wir müssen uns überlegen, welches Modell besser zu unseren Annahmen passt.
Genau wie im bivariaten Fall können wir die Variation in \(y\) in einen erklärten Teil, also Variation, die von Variation in \(x\) ausgeht; und in einen nicht erklärten Teil, also einen Teil, der von unbeobachteten Faktoren ausgeht, aufteilen:
\[ \begin{aligned} \textcolor{var(--primary-color)}{\sum^N_{i=1}\left(y_i-\bar{y}\right)^2} &= \textcolor{var(--secondary-color)}{\sum^N_{i=1}\left(\hat{y}_i-\bar{y}\right)^2} + \textcolor{var(--quarternary-color)}{\sum^N_{i=1}\hat{u}_i^2}\\ \textcolor{var(--primary-color)}{\mathrm{SST}} &= \textcolor{var(--secondary-color)}{\mathrm{SSE}} + \textcolor{var(--quarternary-color)}{\mathrm{SSR}} \end{aligned} \]
Und genau wie im bivariaten Fall ist das Bestimmtheitsmaß \(R^2\) (engl. coefficient of determination) eine Maßzahl zur Anpassungsgüte (engl. goodness of fit), gibt an, welcher Anteil der Variation durch unser Modell erklärt wird, und hat genau dieselben Probleme, die wir auch im letzten Kapitel besprochen haben. Außerdem wird das \(R^2\) immer ansteigen, wenn wir Variablen hinzufügen.
\[ R^2 = \frac{\textcolor{var(--secondary-color)}{\mathrm{SSE}}}{\textcolor{var(--primary-color)}{\mathrm{SST}}} = 1- \frac{\textcolor{var(--quarternary-color)}{\mathrm{SSR}}}{\textcolor{var(--primary-color)}{\mathrm{SST}}}. \]
Multivariate vs. bivariate Modelle
Praktisches BeispielSchauen wir uns das, was wir theoretisch besprochen haben, einmal in einem Anwendungsbeispiel an. Wir beginnen damit, den Datensatz zu laden und die Variablen, die wir benötigen, zu selektieren:
Übungsaufgabe
Wähle andere Variablen aus und rechne Regressionen so wie auf den nächsten Folien.
Als nächstes können wir uns eine Zusammenfassung unserer Variablen ansehen.
Der Steigungskoeffizient ist 0.094.
Die Konstante ist 1.485.
Was passiert, wenn wir zusätzliche Variablen hinzufügen?
Der Steigungskoeffizient für education
ist 0.094.
Der Koeffizient für gender==female
ist –0.234.
Der Koeffizient für age
ist 0.0089.
Die Konstante ist 1.22.
Wenn wir eine Regression in R rechnen und die Funktion summary()
anwenden, bekommen wir folgenden Output:
Call:
lm(formula = log(earnings) ~ education + gender + age, data = CPSSW8)
Residuals:
Min 1Q Median 3Q Max
-2.79472 -0.28807 0.02562 0.32439 1.63195
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.2206890 0.0130145 93.80 <2e-16 ***
education 0.0941281 0.0007922 118.82 <2e-16 ***
genderfemale -0.2338747 0.0039207 -59.65 <2e-16 ***
age 0.0088690 0.0001839 48.22 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4816 on 61391 degrees of freedom
Multiple R-squared: 0.2452, Adjusted R-squared: 0.2452
F-statistic: 6649 on 3 and 61391 DF, p-value: < 2.2e-16
In einem Paper oder einer Bachelorarbeit präsentiert man die Resultate gewöhnlicherweise in so einer Tabelle:
Dependent variable: log(earnings) | ||
---|---|---|
(1) | (2) | |
education |
0.094*** (0.001) |
0.094*** (0.001) |
genderfemale |
-0.234*** (0.003) |
|
age |
0.009*** (0.0002) |
|
Constant |
1.485*** (0.011) |
1.221*** (0.013) |
Observations | 61,395 | 61,395 |
R² | 0.174 | 0.245 |
Note: *p<0.1; **p<0.05; ***p<0.01 Numbers in parentheses are standard errors. |
Multivariate vs. bivariate Modelle
OLS-Annahmen 1 bis 4Um Aussagen über Erwartungswert und Varianz treffen zu können, brauchen wir wieder eine Reihe von Annahmen. Diese Annahmen MLR.1 bis MLR.4 sind generalisierte Versionen der Annahmen SLR.1 bis SLR.4 aus dem vorigen Kapitel.
Satz von Gauß-Markow: Annahmen für Multiple Lineare Regression (MLR)
Die Regressionsfunktion der Grundgesamtheit (PRF) muss linear in ihren Parametern sein:
\[ y_i = \beta_0 + \beta_1 x_{i1} + \dots + \beta_Kx_{iK} + u_i \]
Unsere Stichprobe mit \(N\) Beobachtungen, \(\left\{\left(y_i,x_{i1},\dots,x_{iK}\right), i = 1, 2, \dots, N\right\}\) muss zufällig aus der Grundgesamtheit gezogen werden. Die Wahrscheinlichkeit, eine Beobachtung in die Stichprobe aufzunehmen, muss für alle gleich sein, und darf nicht davon abhängen, wen wir zuerst „gezogen“ haben.
Im bivariaten Fall haben wir Variation in den \(x\)-Werten an dieser Stelle angenommen. Hier, im multivariaten Fall, benötigen wir eine weiterreichende Annahme: kein Regressor darf eine Linearkombination aus anderen Regressoren sein. Formell können wir sagen:
Die Matrix der Regressoren \(\boldsymbol{X}\) enthält keine Spalte, die eine Linearkombination anderer Spalten ist. \(\boldsymbol{X}\) hat also vollen Rang.
Wir besprechen quadrierte Regressoren und Interaktionsterme in einem späteren Modul detaillierter. An diesem Punkt ist nur wichtig, zu wissen, dass es sie gibt, und dass sie nicht zu einer Verletzung von MLR.3 führen.
Der Erwartungswert des Fehlerterms \(u\) ist für jeden Regressor 0:
\[ \mathrm{E}\left(u_i\mid x_{i1},\dots,x_{iK}\right) = 0 \]
In Matrixnotation (diese Annahme ist noch etwas stärker, da sie nicht nur Regressoren, sondern auch deren Linearkombinationen umfasst):
\[ \mathrm{E}\left(\boldsymbol{u}\mid\boldsymbol{X}\right) = \boldsymbol{0} \]
Wir nehmen an, dass Regressoren und unbeobachtete Faktoren unabhängig voneinander sind. Das ist in Experimenten einfach zu erreichen, bei Beobachtungsdaten aber weit weniger trivial. Wir nennen den Fall, in dem MLR.4 verletzt ist, Endogeneität.
Wir nennen in dem Fall, dass \(\mathrm{E}(x_{ik}u_i)\neq 0\), \(x_{ik}\) einen endogenen Regressor. Das kann der Fall sein, wenn:
Wenn die vier Annahmen MLR.1 bis MLR.4 erfüllt sind, können wir beweisen, dass der OLS-Schätzer unverzerrt (engl. unbiased) ist. Formell:
Unter den Annahmen MLR.1 bis MLR.4 gilt: \(\mathrm{E}\left(\hat{\beta}_k\right) = \beta_k,\qquad\qquad k=0,1,\dots,K,\) für jeden Wert der Parameter \(\beta_j\). In Matrixnotation:
\[ \mathrm{E}\left(\hat{\boldsymbol{\beta}}\right)=\boldsymbol{\beta}, \]
wobei \(\boldsymbol{\beta}\) die Dimension \((K+1)\times 1\) hat.
Der OLS-Schätzer ist also ein unverzerrter/erwartungstreuer (engl. unbiased) Schätzer für die Konstante und alle Steigungsparameter. Wir können das wieder beweisen, indem wir den Schätzer in den wahren Koeffizienten und eine Stichprobenfehler-Komponente aufteilen.
Wir beginnen mit der Aufteilung von \(\hat{\boldsymbol{\beta}}\):
\[ \begin{aligned} \hat{\boldsymbol{\beta}} &= (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}\boldsymbol{y}\\ &= (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'(\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{u}) \\ &= (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{X}\boldsymbol{\beta}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u} \\ &= \underbrace{\boldsymbol{\beta}}_{\text{wahrer Parameter}}+\underbrace{(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}}_{\text{Stichprobenfehler}}. \end{aligned} \]
Wir können diesen Schritt vergleichen mit dem Schritt im Beweis für den SLR-Fall, in dem wir \(\hat{\beta}_1\) so aufgeteilt haben:
\[ \hat{\beta}_1 = \beta_1+\frac{\sum^N_{i=1}(x_i-\bar{x})u_i}{\sum^N_{i=1}(x_i-\bar{x})x_i}. \]
Mit dieser Aufteilung können wir im Beweis fortfahren:
\[ \begin{aligned} \mathrm{E}\left(\hat{\boldsymbol{\beta}}\middle|\boldsymbol{X}\right) &= \mathrm{E}\left(\boldsymbol{\beta}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}\middle|\boldsymbol{X}\right) \\ &= \boldsymbol{\beta}+\mathrm{E}\left((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}\middle|\boldsymbol{X}\right) \\ &= \boldsymbol{\beta}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\underbrace{\mathrm{E}\left(\boldsymbol{u}\middle|\boldsymbol{X}\right)}_{=0\text{ (MLR.4)}} \\ &= \boldsymbol{\beta}. \end{aligned} \]
Da \(\mathrm{E}\left(\hat{\boldsymbol{\beta}}\middle|\boldsymbol{X}\right)=\boldsymbol{\beta}\quad\Rightarrow\quad\mathrm{E}\left(\hat{\boldsymbol{\beta}}\right)=\boldsymbol{\beta}\) (Satz der iterierten Erwartungen), ist der OLS-Schätzer unverzerrt.
\(\square\)
Die Varianz des Fehlerterms \(u_i\) ist für alle \(x_{ik}\) gleich:
\[ \mathrm{Var}(u_i\mid x_{i1},\dots,x_{iK}) = \mathrm{Var}(u_i) = \sigma^2, \]
bzw. in Matrixschreibweise:
\[ \mathrm{Var}(\boldsymbol{u}\mid\boldsymbol{X}) = \sigma^2\boldsymbol{I}_N, \]
wobei \(\boldsymbol{I}_N\) die Identitätsmatrix mit Dimension \(n\times n\) ist.
Unter den Annahmen MLR.1 bis MLR.5 ist die Varianz des OLS-Schätzers
\[ \mathrm{Var}\left(\hat{\boldsymbol{\beta}}\right)=\sigma^2(\boldsymbol{X}'\boldsymbol{X})^{-1}, \]
wobei sich \(\mathrm{Var}(\cdot)\) hier auf eine Varianz-Kovarianz-Matrix bezieht.
Übungsaufgabe
Zeige, wie man zu diesem Ausdruck für die Varianz kommt. In welchem Schritt braucht man dazu welche der Annahmen MLR.1 bis MLR.5? Herleitung
Sehen wir uns das bivariate Modell in Matrixnotation an:
\[ \hat{\boldsymbol{\beta}} = \begin{pmatrix} \hat{\beta}_0 \\ \hat{\beta}_1 \end{pmatrix} ,\qquad\qquad \mathrm{Var}\left(\hat{\boldsymbol{\beta}}\right)= \begin{pmatrix} \mathrm{Var}(\hat{\beta}_0) & \mathrm{Cov}(\hat{\beta}_0,\hat{\beta}_1) \\ \mathrm{Cov}(\hat{\beta}_1,\hat{\beta}_0) & \mathrm{Var}(\hat{\beta}_1) \\ \end{pmatrix} \]
Wir haben bisher immer nur die Stichproben-Varianz eines Schätzers besprochen, aber nicht die Stichproben-Kovarianz. Statistiksoftware schätzt für gewöhnlich nur die Varianzen der Parameter, und nicht die Kovarianzen, also nur die Diagonale der Varianz-Kovarianz-Matrix. Wir benötigen die Kovarianz später für bestimmte statistische Tests.
Analog zur expliziten Formel für die Varianz im bivariaten Fall können wir aus der vorherigen Formel für die Varianz folgende Formel für die Varianz eines einzelnen Koeffizienten herleiten:
\[ \mathrm{Var}\left(\hat{\beta}_k\middle|\boldsymbol{X}\right)=\frac{\sigma^2}{\sum^N_{i=1}(x_{ik}-\bar{x}_k)^2}\times\frac{1}{1-R^2_k}, \]
wobei \(R^2_k\) das \(R^2\) einer Regression von \(x_{k}\) auf alle anderen Regressoren \(x_j,j\neq k\) ist.
Genau wie im bivariaten Fall kennen wir aber die Varianz \(\sigma^2\) nicht, sondern benötigen einen Schätzer.
Man kann zeigen (wir lassen den Beweis aus), dass der folgende Schätzer:
\[ \mathrm{E}\left(\frac{\sum^N_{i=1}\hat{u}_i^2}{N-K-1}\right) = \mathrm{E}\left(\frac{\hat{\boldsymbol{u}}'\hat{\boldsymbol{u}}}{N-K-1}\right) = \mathrm{E}\left(\hat{\sigma}^2\right) = \sigma^2 \]
unter den Annahmen MLR.1 bis MLR.5 ein unverzerrter Schätzer der Varianz des Fehlers ist.
Wir dividieren durch \(N-K-1\) (und nicht durch \(N\)), um für die Freiheitsgrade zu korrigieren: Unsere Schätzung ergibt aus \(N\) Beobachtungen \(K-1\) Koeffizienten, also bleiben \(N-K-1\) Freiheitsgrade. Wir haben dieselbe Korrektur im bivariaten Fall vorgenommen.
Jetzt können wir, analog zum bivariaten Fall, den Satz von Gauß-Markov für den multivariaten Fall formulieren:
Unter den Annahmen MLR.1 bis MLR.5 ist der OLS-Schätzer
\[ \hat{\boldsymbol{\beta}}= \begin{pmatrix} \hat{\beta}_0 \\ \hat{\beta}_1 \\ \vdots \\ \hat{\beta}_K \end{pmatrix} \]
der beste lineare unverzerrte Schätzer (engl. best linear unbiased estimator, BLUE) der Parameter \(\boldsymbol{\beta}=(\beta_0,\beta_1,\dots,\beta_K)'\).
Es ist intuitiv nicht leicht, zu verstehen, was die Koeffizienten in einem multivariaten Modell tatsächlich messen. Das Frisch-Waugh-Lovell-Theorem gibt uns eine zusätzliche Herangehensweise.
Wir betrachten folgendes Modell:
\[ y_i=x_{i1}\beta_1+\boldsymbol{x}'_{i2}\boldsymbol{\beta}_2+u_i,\qquad\mathrm{E}\left(\binom{x_{i1}}{\boldsymbol{x}_{i2}}u_i\right)=0. \]
Wir können annehmen, dass \(y_i\) der Lohn ist, \(x_{i1}\) Geschlecht, und \(\boldsymbol{x}_{i2}\) ein Vektor aus einer 1er-Spalte, Bildung, und dem Alter. Wir nehmen an, dass wir primär an \(\beta_1\) interessiert sind und heben \(x_{i1}\) daher hervor und fassen den Rest des Modells in Vektorschreibweise zusammen.
Die Variablen, an denen wir nicht primär interessiert sind, nennen wir üblicherweise Kontrollvariablen (engl. control variables oder controls). Wir inkludieren sie, damit das Modell vollständig ist.
Wir beginnen damit, \(y_i\) nur auf den Vektor \(\boldsymbol{x}_{i2}\) (und nicht auf x_1) zu regressieren. Wir „behalten“ uns aus dieser Regression die Vorhersagefehler und bezeichnen sie als \(y_i^{(R)}\).
\[ y_{i}=\boldsymbol{x}'_{i2}\boldsymbol{\alpha}+\textcolor{var(--primary-color)}{\underbrace{y_{i}^{(R)}}_{\text{Fehler}}} \]
Als nächstes regressieren wir unsere Variable von Interesse, \(x_{i1}\), auf den Vektor \(\boldsymbol{x}_{i2}\), „behalten“ uns auch hier die Vorhersagefehler und bezeichnen sie als \(x_{i1}^{(R)}\).
\[ x_{i1}=\boldsymbol{x}'_{i2}\boldsymbol{\gamma}+\textcolor{var(--secondary-color)}{\underbrace{x_{i1}^{(R)}}_{\text{Fehler}}} \]
Vereinfacht gesprochen haben wir jetzt eine „Version“ von \(y_i\), bei der wir den Einfluss von \(\boldsymbol{x}_{i2}\) „herausgefiltert“ haben, und eine „Version“ von \(x_{i1}\), bei der wir den Einfluss von \(\boldsymbol{x}_{i2}\) „herausgefiltert“ haben.
\[ y_{i}=\boldsymbol{x}'_{i2}\boldsymbol{\alpha}+\textcolor{var(--primary-color)}{\underbrace{y_{i}^{(R)}}_{\text{Fehler}}} \]
\[ x_{i1}=\boldsymbol{x}'_{i2}\boldsymbol{\gamma}+\textcolor{var(--secondary-color)}{\underbrace{x_{i1}^{(R)}}_{\text{Fehler}}} \]
Interessanterweise können wir denselben Parameter \(\beta_1\) auf zwei unterschiedliche Weisen erhalten:
Wenn wir eine Stichprobe an Daten haben, können wir wie folgt vorgehen, um unseren Schätzer \(\hat{\beta}_1\) auf diese Weise zu erhalten:
Dieses Ergebnis bezeichnen wir als Frisch-Waugh-Lovell-Theorem, nach Frisch und Waugh (1933) sowie Lovell (1963). Es kann uns helfen, die Parameter des multivariaten Modells intuitiv zu verstehen.
Wir können das vorherige Beispiel mit folgendem kausalen Graphen illustrieren: Wir nehmen an, das Geschlecht hat einen Einfluss auf den Lohn, aber es gibt auch eine Korrelation zwischen den Variablen in \(\boldsymbol{x}_{i2}'\) und sowohl Geschlecht als auch Lohn.
Nachdem wir jetzt die Möglichkeit haben, so viele Variablen, wie wir wollen, in unserer Regression zu berücksichtigen, stellt sich die Frage:
Natürlich gibt es keine „Faustregel“ oder allgemein gültige Antwort auf diese Frage. Stattdessen müssen wir für jedes Modell und jede Variable individuell entscheiden, ob es sinnvoll ist, sie zu berücksichtigen.
Wenn wir relevante Variablen auslassen, bekommen wir ein omitted variable bias-Problem. In diesem Fall wird der Effekt, der eigentlich zu der ausgelassenen Variable gehört, inkorrekterweise den im Modell enthaltenen Variablen zugeschrieben.
Was passiert, wenn wir relevante Variablen in unserem Modell auslassen? Unser Schätzer wird nicht länger unverzerrt sein, und wir können das beweisen.
Angenommen, das ist das „wahre“ Modell. Wir haben die Regressoren „aufgeteilt“ in zwei Matrizen, im Prinzip ist das aber das gleiche Modell, das wir im Rahmen dieses Kapitels immer behandelt haben:
\[ \boldsymbol{y}=\boldsymbol{X\beta}+\textcolor{var(--secondary-color)}{\boldsymbol{Z\gamma}}+\boldsymbol{u} \]
Was passiert, wenn wir stattdessen dieses Modell schätzen?
\[ \boldsymbol{y}=\boldsymbol{X\beta}+\boldsymbol{u} \]
Wir teilen wieder \(\hat{\boldsymbol{\beta}}\) auf, allerdings verwenden wir für \(\boldsymbol{y}\) das wahre Modell.
\[ \begin{aligned} \hat{\boldsymbol{\beta}} &= (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y} \\ &= (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'(\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{Z}\boldsymbol{\gamma}+\boldsymbol{u}) \\ &= (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{X}\boldsymbol{\beta}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{Z}\boldsymbol{\gamma}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u} \\ &= \boldsymbol{\beta}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{Z}\boldsymbol{\gamma}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u} \end{aligned} \]
Wenn wir jetzt den Erwartungswert dieses Ausdrucks nehmen, sehen wir, dass der Schätzer nicht mehr unverzerrt ist.
\[ \begin{aligned} \mathrm{E}\left(\hat{\boldsymbol{\beta}}\middle|\boldsymbol{X}\right) &= \mathrm{E}\left( \boldsymbol{\beta}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{Z}\boldsymbol{\gamma}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}\middle|\boldsymbol{X}\right) \\ &= \boldsymbol{\beta} + \mathrm{E}\left( (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{Z}\boldsymbol{\gamma}\middle|\boldsymbol{X}\right)+\mathrm{E}\left((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}\middle|\boldsymbol{X}\right) \\ &= \boldsymbol{\beta} + \textcolor{var(--secondary-color)}{\underbrace{(\boldsymbol{X}'\boldsymbol{X})^{-1}\mathrm{E}\left(\boldsymbol{X}'\boldsymbol{Z}\middle|\boldsymbol{X}\right)\boldsymbol{\gamma}}_{\text{Bias (Verzerrung)}}}+\boldsymbol{0} \end{aligned} \]
Wir können sehr einfach sehen, wovon die „Richtung“ des Bias abhängt:
\[ \mathrm{E}\left(\hat{\boldsymbol{\beta}}\middle|\boldsymbol{X}\right) = \boldsymbol{\beta} + \textcolor{var(--secondary-color)}{\underbrace{(\boldsymbol{X}'\boldsymbol{X})^{-1}\mathrm{E}\left(\boldsymbol{X}'\boldsymbol{Z}\middle|\boldsymbol{X}\right)\boldsymbol{\gamma}}_{\text{Bias (Verzerrung)}}}+\boldsymbol{0} \]
\(\mathrm{E}(\boldsymbol{X}'\boldsymbol{Z}\mid\boldsymbol{X})\) positiv | \(\mathrm{E}(\boldsymbol{X}'\boldsymbol{Z}\mid\boldsymbol{X})\) negativ | |
---|---|---|
\(\boldsymbol{\gamma}\) positiv | Positiver Bias | Negativer Bias |
\(\boldsymbol{\gamma}\) negativ | Negativer Bias | Positiver Bias |
Aber auch zu viele Variablen können ein Problem darstellen, insbesondere in den folgenden Fällen und aus den folgenden Gründen:
In folgendem Beispiel wird durch das Hinzufügen einer zusätzlichen Variable MLR.4 verletzt:
mtcars
enthält 32 Automodelle (1973–74) und ihr(e)mpg
),wt
), Hubraum (disp
), etc.Beginnen wir mit einer einfachen linearen Regression:
\[ \textrm{mpg}_i=\beta_0 + \beta_1\textrm{wt}_i+\beta_2\textrm{wt}^2_i+\beta_3\textrm{disp}_i+u_i \]
Sehen wir uns wieder die CPS-Daten an; zuerst wieder als bivariate Regression (von Lohn auf Bildung).
\[ \begin{aligned} y_i=\beta_0+\beta_1\textrm{Bildung}_i+\beta_2\textrm{Alter}_i+u_i\phantom{x_i^2} \\ \phantom{x_i^2} \end{aligned} \]
\[ \begin{aligned} y_i=\beta_0+\beta_1\textrm{Bildung}_i+\beta_2\textrm{Alter}_i+\beta_3\textrm{Alter}_i^2+u_i\\\phantom{x_i^2} \end{aligned} \]
\[ \begin{aligned} y_i=&\beta_0+\beta_1\textrm{Bildung}_i+\beta_2\textrm{Alter}_i+\beta_3\textrm{Alter}_i^2\\ &+\beta_4\textrm{Bildung}_i\times\textrm{Alter}_i +\beta_5\textrm{Bildung}_i\times\textrm{Alter}_i^2+u_i \end{aligned} \]
Wir beginnen mit einer Umformung.
\[ \begin{aligned} \boldsymbol{u}'\boldsymbol{u}&=(\boldsymbol{y}-\boldsymbol{X\beta})'(\boldsymbol{y}-\boldsymbol{X\beta}) \\ &= \boldsymbol{y}'\boldsymbol{y}-\boldsymbol{\beta}'\boldsymbol{X}'\boldsymbol{y}-\boldsymbol{y}'\boldsymbol{X\beta}+\boldsymbol{\beta}'\boldsymbol{X}'\boldsymbol{X\beta} \\ &= \boldsymbol{y}'\boldsymbol{y}-2\boldsymbol{\beta}'\boldsymbol{X}'\boldsymbol{y}+\boldsymbol{\beta}'\boldsymbol{X}'\boldsymbol{X\beta} \end{aligned} \]
Im dritten Schritt machen wir uns den Fakt zunutze, dass \(\boldsymbol{\beta}'\boldsymbol{X}'\boldsymbol{y}=\boldsymbol{y}'\boldsymbol{X\beta}\), da es sich um einen Skalar handelt. Jetzt müssen wir ableiten:
\[ \textstyle\frac{\partial\boldsymbol{u}'\boldsymbol{u}}{\partial\boldsymbol{\beta}}=-2\boldsymbol{X}'\boldsymbol{y}+2\boldsymbol{X}'\boldsymbol{X\beta}\overset{!}{=}0, \]
woraus wir den Schätzer erhalten:
\[ \hat{\boldsymbol{\beta}}=(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}. \]
\[ \begin{aligned} \mathrm{Var}(\hat{\boldsymbol{\beta}}\mid \boldsymbol{X}) &= \mathrm{Var}\Bigl(\bigl(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}\Big|\boldsymbol{X}\Bigr) \\ &= \mathrm{Var}\Bigl(\bigl(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'(\boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{u})\Big|\boldsymbol{X}\Bigr) \\ &= \mathrm{Var}\Bigl(\boldsymbol{\beta} + \bigl(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}\Big|\boldsymbol{X}\Bigr) \\ &= \mathrm{Var}\Bigl(\bigl(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}\Big|\boldsymbol{X}\Bigr) \\ &= (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\mathrm{Var}(\boldsymbol{u}\mid \boldsymbol{X})\boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1} \\ &=(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{I}\sigma^2\boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\\ &= \sigma^2(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\\ &=\sigma^2(\boldsymbol{X}'\boldsymbol{X})^{-1} \end{aligned} \]