PI 6250 – Ökonometrie I
Department für Volkswirtschaftslehre, WU Wien
Basierend auf einem Foliensatz von Simon Heß
5. Juni 2025
Was ist Heteroskedastizität?
Wir erinnern uns an Annahme MLR.5 zum Thema Homoskedastizität:
\[ \mathrm{Var}(u_i\mid x_{i1},\dots,x_{iK}) = \mathrm{Var}(u_i) = \sigma^2, \]
Wenn unser Fehlerterm heteroskedastisch ist, dann ist die Varianz abhängig von \(i\):
\[ \mathrm{Var}(u_i\mid x_{i1},\dots,x_{iK}) = \mathrm{E}(u_i^2\mid x_{i1},\dots,x_{iK})= \sigma^2_{\textcolor{var(--secondary-color)}{i}}\qquad\neq\sigma^2, \]
\[ \mathrm{Var}(\boldsymbol{u}\mid\boldsymbol{X}) = \mathrm{E}(\boldsymbol{uu}'\mid\boldsymbol{X})=\mathrm{diag}(\sigma^2_{\textcolor{var(--secondary-color)}{1}}, \dots, \sigma^2_{\textcolor{var(--secondary-color)}{N}})\qquad\neq\sigma^2\boldsymbol{I}. \]
Wir fassen zusammen: Oft haben wir mit heteroskedastischen Fehlern zu tun. Das führt dazu, dass der OLS-Schätzer nicht mehr effizient ist und wir die Varianz von \(\hat{\boldsymbol{\beta}}\) nicht mehr wie zuvor berechnen können.
Robuste Standardfehler
Ursprünglich haben wir angenommen, dass \(\mathrm{Var}(\boldsymbol{u}\mid\boldsymbol{X}) = \sigma^2\boldsymbol{I}_N.\) Unter dieser Annahme war die Varianz des OLS-Schätzers
\[ \mathrm{Var}\left(\hat{\boldsymbol{\beta}}\right)=\sigma^2(\boldsymbol{X}'\boldsymbol{X})^{-1}. \]
Wir treffen jetzt eine weniger restriktive Annahme:
\[ \mathrm{Var}(\boldsymbol{u}\mid\boldsymbol{X}) = \mathrm{E}(\boldsymbol{uu}'\mid\boldsymbol{X}) = \mathrm{diag}(\sigma_1^2,\dots,\sigma_N^2) =:\boldsymbol{\Omega} \]
Unter dieser Annahme ist die Varianz des OLS-Schätzers
\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}\mid\boldsymbol{X})=(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{\Omega X}(\boldsymbol{X}'\boldsymbol{X})^{-1}. \]
Übungsaufgabe
Was passiert mit dieser Formel, wenn \(\boldsymbol{\Omega}=\sigma^2\boldsymbol{I}\)?
Wir haben ein Problem mit dieser Gleichung:
\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}\mid\boldsymbol{X})=(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{\Omega X}(\boldsymbol{X}'\boldsymbol{X})^{-1}. \]
Wie kennen \(\boldsymbol{\Omega}\) nicht. Allerdings ist \(\mathrm{diag}(\hat{u}_1^2,\dots,\hat{u}_N^2)\) ein konsistenter Schätzer für \(\boldsymbol{\Omega}\).
Mit diesem Schätzer können wir folgenden Schätzer für die Varianz von \(\hat{\boldsymbol{\beta}}\) konstruieren:
\[ \widehat{\mathrm{Var}}(\hat{\boldsymbol{\beta}}\mid\boldsymbol{X})=\textcolor{var(--tertiary-color)}{(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'}\textcolor{var(--quarternary-color)}{\mathrm{diag}(\hat{u}_1^2,\dots,\hat{u}_N^2)}\textcolor{var(--tertiary-color)}{\boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}}. \]
Dieser Schätzer wird manchmal sandwich estimator genannt (siehe rechts).
Tests für Heteroskedastizität
Wir können testen, ob bestimmte Formen von Heteroskedastizität vorliegen (wir kennen die genaue Form der vorliegenden Heteroskedastizität allerdings für gewöhnlich nicht).
Die erste Herangehensweise, die wir besprechen, ist der Breusch-Pagan-Test von Breusch & Pagan (1979). Mit diesem LM-Test überprüfen wir, ob \(\sigma^2_i\) linear von den Regressoren abhängt:
\[ \sigma^2_i = \delta_0 + \delta_1x_{i1} + \dots + \delta_Kx_{iK} + \text{Fehler}. \]
Die Nullhypothese des Tests ist:
\[ H_0:\delta_1=\dots=\delta_K=0 \]
In großen Stichproben ist die LM-Statistik dieses Tests unter der Nullhypothese \(\chi^2\)-verteilt mit \(K\) Freiheitsgraden.
Wir führen den Breusch-Pagan-Test wie folgt durch:
Der White-Test von White (1980) ist eine Variante des Breusch-Pagan-Tests mit einer flexibleren Spezifikation: er berücksichtigt auch alle möglichen quadrierten Terme und Interaktionen der Regressoren. Wir führen ihn wie folgt durch:
\[ \begin{aligned} \hat{u}_i^2=\delta_0+&\delta_1x_{i1}+\dots+x_{iK}+\\ &\delta_{K+1}x_{i1}^2+\dots+\delta_{2K}x_{iK}^2+\\ &\delta_{2K+1}x_{i1}x_{i2}+\dots+\delta_{(K(K+3)2)}x_{i,K-1}x_{iK}+\text{Fehler}, \end{aligned} \]
Diese Regression hat \((K(K+3)2)\) Regressoren. Das sind sehr viele Regressoren. Wenn \(K\) groß und \(N\) klein ist, sind es vielleicht sogar zu viele.
Eine alternative Version des White-Tests ist
\[ \hat{u}_i^2 = \delta_0 + \delta_1\hat{y}_i + \delta_2\hat{y}_i^2+\text{Fehler}. \]
Angenommen, wir haben Heteroskedastizität, aber wir kennen die \(\sigma^2_i\). Wir wollen folgende Regression schätzen:
\[ y_i = \beta_0+\beta_1x_{i1}+\dots+\beta_Kx_{iK}+u_i, \]
wissen aber, dass OLS ineffizient ist.
Mit den Fehlervarianzen \(\sigma^2_i\) können wir aber einen effizienten Schätzer konstruieren. Dazu dividieren wir die Regression durch \(\sigma_i=\sqrt{\sigma^2_i}\):
\[ \frac{y_i}{\sigma_i}=\beta_0\frac{1}{\sigma_i}+\beta_1\frac{x_{i1}}{\sigma_i}+\dots+\beta_K\frac{x_{iK}}{\sigma_i}+\frac{u_i}{\sigma_i} \]
Warum tun wir das? Weil wir so die Varianz so skalieren können, dass sie für alle \(i\) gleich ist.
Wir gewichten (engl. weight) also Beobachtungen mit größerer Varianz weniger stark als solche mit geringerer Varianz – daher der Name weighted least squares. In Matrixschreibweise:
\[ \tilde{\boldsymbol{y}} = \tilde{\boldsymbol{X}}\boldsymbol{\beta}_{\mathrm{WLS}}+\tilde{\boldsymbol{u},} \]
wobei \(\tilde{\boldsymbol{y}}=\boldsymbol{\Omega}^{-1/2}\boldsymbol{y}\), \(\tilde{\boldsymbol{X}}=\boldsymbol{\Omega}^{-1/2}\boldsymbol{X}\) und \(\tilde{\boldsymbol{u}}=\boldsymbol{\Omega}^{-1/2}\boldsymbol{u}\); \(\boldsymbol{\Omega}=\mathrm{diag}(\sigma_1^2,\dots,\sigma_N^2)\).
Der WLS-Schätzer ist in diesem Fall:
\[ \hat{\boldsymbol{\beta}}_{\mathrm{WLS}} = (\tilde{\boldsymbol{X}}'\tilde{\boldsymbol{X}})^{-1}\tilde{\boldsymbol{X}}'\tilde{\boldsymbol{y}}=(\boldsymbol{X}'\boldsymbol{\Omega}^{-1}\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{\Omega}^{-1}\boldsymbol{y}. \]
Dieser WLS-Schätzer ist ein Spezialfall des Generalized-Least-Squares-Schätzers (GLS). GLS funktioniert mit jeder Varianz-Kovarianz-Matrix \(\boldsymbol{\Omega}\), nicht nur mit der oben genannten diagonalen.
Die Varianz des WLS-Schätzers ist:
\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}_{\mathrm{WLS}}\mid\boldsymbol{X})=(\tilde{\boldsymbol{X}}'\tilde{\boldsymbol{X}})^{-1} = (\boldsymbol{X}'\boldsymbol{\Omega}^{-1}\boldsymbol{X})^{-1} \]
Wir können diese Varianz mithilfe von \(\hat{\boldsymbol{\Omega}}\) schätzen. Somit können wir auch Standardfehler für Tests erhalten. Die Varianz des WLS-Schätzers ist geringer als die des OLS-Schätzers (was wir nicht beweisen):
\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}_{\mathrm{OLS}}\mid\boldsymbol{X})=(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{\Omega}\boldsymbol{X} (\boldsymbol{X}'\boldsymbol{X})^{-1} \]
Das Problem ist: Wir können das nicht schätzen. GLS (WLS) setzt voraus, dass wir die \(\sigma_i^2\) kennen, das tun wir aber nicht.
Wenn wir Feasible Generalized Least Squares anwenden wollen, können wir so vorgehen:
Ein Problem bleibt: Wir kennen die „wahre“ funktionale Form der Heteroskedastizität nicht, wir haben nur eine mögliche Form angewendet.
\[ \begin{aligned} \mathrm{Var}(\hat{\boldsymbol{\beta}}\mid\boldsymbol{X}) &= \mathrm{Var}\left((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}\mid\boldsymbol{X}\right) \\ &= \mathrm{Var}\left((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'(\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{u})\mid\boldsymbol{X}\right) \\ &= \mathrm{Var}\left((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{X}\boldsymbol{\beta}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}\mid\boldsymbol{X}\right) \\ &= \mathrm{Var}\left(\boldsymbol{\beta}+(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}\mid\boldsymbol{X}\right) \\ &= \mathrm{Var}\left((\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u}\mid\boldsymbol{X}\right) \\ &= (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\mathrm{Var}(\boldsymbol{u}\mid\boldsymbol{X})\boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1} \\ &= (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{\Omega}\boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1} \end{aligned} \]