PI 6250 – Ökonometrie I
Department für Volkswirtschaftslehre, WU Wien
8. Mai 2025
In Modul 2 (und 3) haben wir näher betrachtet, was es heißt, dass unser OLS-Schätzer eine Zufallsvariable ist. Wir haben Erwartungswert und Varianz des Schätzers bestimmt und auch folgende Simulation durchgeführt:
Für alles, was wir in diesem Kapitel besprechen, brauchen wir aber mehr als nur die beiden Momente Erwartungswert und Varianz. Wir müssen uns fragen: Was ist die Stichprobenverteilung des OLS-Schätzers?
Wofür brauchen wir Information über diese Verteilung? In Modul 1 haben wir gesagt:
Um eine Hypothese mit Daten überprüfen zu können, brauchen wir Daten und eine Hypothese.
Aber wie testen wir eine Hypothese? Angenommen, wir wollen wissen, ob der Parameter \(\beta_1\) ungleich Null ist, also ob die entsprechende Variable \(x_1\) einen Effekt auf \(y\) hat.
Das, was wir auf der vorherigen Folie besprochen haben, nennen wir einen Hypothesentest (engl. hypothesis test). Etwas formeller:
Warum ist unsere Nullhypothese \(\beta_1=0\) und nicht \(\beta_1\neq 0\)?
Warum ist unsere Nullhypothese \(\beta_1=0\) und nicht \(\beta_1\neq 0\)?
Auf jeden Fall brauchen wir für dieses Testprocedere Informationen über die Stichprobenverteilung von \(\hat{\beta}_1\), also beschäftigen wir uns erst einmal damit, bevor wir zu Hypothesentests zurückkehren.
Wir haben mithilfe der Annahmen MLR.1 bis MLR.5 Aussagen über den Erwartungswert und die Varianz des OLS-Schätzers treffen können.
Der Fehlerterm der Grundgesamtheit ist unabhängig von den erklärenden Variablen \(x_1, \dots, x_K\) und ist normalverteilt mit Erwartungswert 0 und Varianz \(\sigma^2\):
\[ u\sim\mathrm{N}\left(0,\sigma^2\right) \]
Wir können die CLM-Annahmen bezüglich der Grundgesamtheit so zusammenfassen:
\[ y\mid\boldsymbol{x}\sim\mathrm{N}\left(\boldsymbol{x}'\boldsymbol{\beta},\sigma^2\right). \]
Der Zentrale Grenzwertsatz (engl. central limit theorem, CLT) besagt:
Sei \(\{X_1, X_2, \dots, X_N\}\) eine Folge von unabhängig und identisch verteilten Zufallsvariablen mit Mittelwert \(\mu\) und Varianz \(\sigma^2\). Dann konvergiert die Verteilungsfunktion der standardisierten Zufallsvariable
\[ Z_N=\frac{\bar{X}_N-\mu}{\sigma/\sqrt{N}}, \]
wobei \(\bar{X}_N=\frac{1}{N}\sum^N_{i=1}X_i\), in Verteilung gegen die Verteilungsfunktion der Standardnormalverteilung.
Unter den CLM-Annahmen MLR.1 bis MLR.6 ist der OLS-Schätzer, gegeben die Stichprobenwerte der unabhängigen Variablen normalverteilt:
\[ \hat{\beta}_k\sim\mathrm{N}(\beta_k,\mathrm{Var}(\hat{\beta}_k)), \]
wobei \(\mathrm{Var}(\hat{\beta}_k)=\frac{\sigma^2}{\sum^N_{i=1}(x_{ik}-\bar{x}_k)^2}\times\frac{1}{1-R^2_k},\) wo wiederum \(R^2_k\) das \(R^2\) einer Regression von \(x_{k}\) auf alle anderen Regressoren \(x_j,j\neq k\) ist.
Wir beschäftigen uns in diesem Abschnitt damit, Hypothesen über einen der Parameter des Populations-Modells
\[ y = \beta_0 + \beta_1 x_1 + \dots + \beta_K x_K + u \]
zu testen.
Unter den CLM-Annahmen MLR.1 bis MLR.6 gilt:
\[ (\hat{\beta}_k-\beta_k)/\mathrm{se}(\hat{\beta}_k) \sim \mathrm{t}_{n-k-1} \]
Wir spezifizieren folgende Nullhypothese:
\[ H_0:\beta_k=0 \]
Nachdem wir alle \(x_j,j\neq k\) berücksichtigt haben, hat \(x_k\) keinen Einfluss auf \(y\).
Wir können diese Nullhypothese mit folgender Teststatistik testen:
\[ t_{\hat{\beta}_k}=\frac{\hat{\beta}_k-\beta_k}{\mathrm{se}(\hat{\beta}_k)}. \]
Diese bestimmte Teststatistik nennen wir t-Statistik.
Unter der Nullhypothese ist \(\beta_k=0\) und die t-Statistik ist
\[ t_{\hat{\beta}_k}=\frac{\hat{\beta}_k}{\mathrm{se}(\hat{\beta}_k)}. \]
Diese t-Statistik ist t-verteilt mit Mittelwert 0 und \(N-K-1\) Freiheitsgraden.
Unter den CLM-Annahmen können wir auch ein Konfidenzintervall für einen Parameter der Grundgesamtheit \(\beta_k\) berechnen. Wir besprechen das am Beispiel eines 95 %-Konfidenzintervalls.
Mit dem t-Test konnten wir unserem Modell eine einzige Restriktion auferlegen, z.B.
\[ \beta_1=0, \]
und diese Restriktion testen.
Was ist aber, wenn wir mehrere Restriktionen gemeinsam testen wollen? Wir können zum Beispiel daran interessiert sein, ob eine bestimmte Menge von unabhängigen Variablen vielleicht als ganzes keinen Effekt auf \(y\) hat:
\[ \beta_1=0,\beta_2=0,\beta_3=0. \]
Um solche Restriktionen testen zu können, benötigen wir einen anderen Test, den F-Test.
\[ \beta_1=0,\beta_2=0,\beta_3=0. \]
Die Nullhypothese und Alternativhypothese in diesem Fall sind:
\[ H_0:\beta_1=0,\beta_2=0,\beta_3=0;\qquad H_A:H_0\text{ ist nicht wahr}. \]
Wir beginnen damit, unser vollständiges (unrestringiertes, engl. unrestricted) Modell anzuschreiben, zum Beispiel:
\[ y = \beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\beta_5x_5+u. \]
Dann wenden wir alle Restriktionen an und erhalten das restringierte Modell (engl. restricted model):
\[ y = \beta_0 + \beta_4x_4+\beta_5x_5+u. \]
Wie können wir diese Modelle vergleichen?
Eine solche Teststatistik ist
\[ F = \frac{(\mathrm{SSR}_r-\mathrm{SSR}_{ur})/q}{\mathrm{SSR}_{ur}/(N-K-1)}, \]
wobei \(q\) die Anzahl der Restriktionen ist, die wir auferlegen.
Wenn wir eine Regression rechnen, berechnet das Statistikprogramm für gewöhnlich eine bestimmte Menge von Restriktionen:
\[ H_0:\beta_1=0,\beta_2=0,\dots,\beta_K=0, \]
also, dass alle unabhängigen Variablen gemeinsam keinen Beitrag leisten, um \(y\) zu erklären.
Die F-Statistik für diesen Fall kann geschrieben werden als
\[ F=\frac{R^2/K}{(1-R^2)/(N-K-1)}. \]
Sowohl bei dieser „globalen“ als auch bei allen anderen F-Statistiken wird von Statistikprogrammen ein p-Wert ausgegeben, der wie bei t-Statistiken die Interpretation erleichtert.
Wir verwenden den Baseball-Datensatz aus dem Wooldridge-Buch, um uns das Ganze an einem praktischen Beispiel anzusehen.
bavg
, hrunsyr
, und rbisyr
war für sich selbst genommen signifikant.Unter Annahmen MLR.1 bis MLR.5 ist die t-Statistik asymptotisch normalverteilt:
\[ \frac{\hat{\beta}_k-\beta_k}{\mathrm{se}(\hat{\beta}_k)}\:\overset{\mathrm{d}}{\rightarrow}\mathrm{N}(0,1)\qquad\text{bzw.}\qquad \frac{\hat{\beta}_k-\beta_k}{\mathrm{se}(\hat{\beta}_k)}\:\overset{\mathrm{d}}{\rightarrow}\mathrm{t}_{N-K-1}. \]
Unter Annahmen MLR.1 bis MLR.5 ist die t-Statistik asymptotisch normalverteilt:
\[ \frac{\hat{\beta}_k-\beta_k}{\mathrm{se}(\hat{\beta}_k)}\:\overset{\mathrm{d}}{\rightarrow}\mathrm{N}(0,1)\qquad\text{bzw.}\qquad \frac{\hat{\beta}_k-\beta_k}{\mathrm{se}(\hat{\beta}_k)}\:\overset{\mathrm{d}}{\rightarrow}\mathrm{t}_{N-K-1}. \]
Der Lagrange-Multiplier-Test (LM-Test) ist eine Alternative zum F-Test in großen Stichproben.