PI 6250 – Ökonometrie I
Department für Volkswirtschaftslehre, WU Wien
Basierend auf einem Foliensatz von Simon Heß
6. März 2025
Die Aussagen auf der vorherigen Folie betreffen alle die bedingte Erwartung einer abhängigen Variable \(y\), gegeben eine erklärende Variable \(x\).
Bedingte Erwartungen sind ein wichtiges Maß, das eine abhängige Variable \(y\) mit einer erklärenden Variable \(x\) in Relation setzt, zum Beispiel so:
\[ \mathrm{E}\left(\textcolor{var(--primary-color)}{y}\mid\textcolor{var(--secondary-color)}{x}\right) = 0.4 + 0.5\textcolor{var(--secondary-color)}{x} \]
Auf diese Weise können wir Variation in der abhängigen Variable \(y\) in zwei Komponenten unterteilen:
Wenn wir bestimmte Maßnahmen evaluieren, sind wir oft daran interessiert, Unterschiede zwischen verschiedenen Gruppen zu verstehen.
Zwei Beispiele:
In beiden Fällen untersuchen wir den durchschnittlichen Behandlungseffekt (engl. average treatment effect, ATE): der durchschnittliche Effekt einer „Behandlung“ relativ zu keiner „Behandlung“.
Wir können auch daran interessiert sein, ein Ergebnis für eine bestimmte Ausgangssituation vorherzusagen.
Angenommen, wir kennen die Verteilung von Schulklassengröße und Prüfungsergebnissen. Für einen neuen Bezirk kannen wir nur die Klassengröße. Was ist die beste Vorhersage für die Prüfungsergebnisse im neuen Bezirk?
Wenn wir eine quadratische Verlustfunktion minimieren, wird unsere beste Vorhersage der bedingte Mittelwert sein.
Wir wollen jetzt die Bedingte Erwartungsfunktion einer bestimmten Zufallsvariable \(y\) in Abhängigkeit von einer anderen Zufallsvariable \(x\) modellieren.
Der einfachste Weg, das zu tun: wir unterstellen eine lineare Funktion.
\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]
wobei
\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]
Diese Funktion gibt uns eine Information über den Erwartungswert von \(y_i\) für einen bestimmten Wert \(x_i\), und nur das.
Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist
\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]
Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist
\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]
was können wir dann über die Prüfungsergebnisse in einem neuen Bezirk mit einer Klassengröße von 20 sagen?
In blau sehen wir unsere bedingte Erwartungsfunktion. Für eine Klassengröße von 18 erwarten wir einen bestimmten Wert. Die tatsächlichen Werte sind um diesen Wert herum verteilt. Das trifft auf jeden Punkt entlang der Funktion zu.
Wir können unsere Überlegungen zur bedingen Erwartungsfunktion und zum Vorhersagefehler zusammenführen und erhalten ein lineares Regressionsmodell:
\[ \textcolor{var(--primary-color)}{y_i} = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i} + \textcolor{var(--tertiary-color-semidark)}{u_i}, \]
wobei
\[ \textcolor{var(--primary-color)}{y_i} = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i} + \textcolor{var(--tertiary-color-semidark)}{u_i}, \]
In unserem Beispiel von vorher:
\[ \textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i} = \beta_0 - \beta_1 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}+ \textcolor{var(--tertiary-color-semidark)}{u_i}. \]
In diesem Fall ist:
\[ \beta_1 = \frac{\mathrm{d}\:\mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i})}{\mathrm{d}\:\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}} \]
der erwartete Unterschied in den Prüfungsergebnissen, wenn wir die durchschnittliche Klassengröße um eine Einheit variieren.
\[ \beta_0 = \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i}=0) \]
der erwartete Wert für das Prüfungsergebnis, wenn in einem Bezirk durchschnittlich 0 Schüler:innen in einer Klasse sind.
\[ \beta_1 = \frac{\mathrm{d}\:\mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i})}{\mathrm{d}\:\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}} \]
\[ \beta_0 = \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i}=0) \]
Wie ändern sich diese beiden Parameter, wenn wir die Skalierung der Variablen ändern? Messen wir beispielsweise die Klassengröße in Zehnern:
\[ \textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i} = \beta_0^{\bullet} - \beta_1^\bullet \times \frac{\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}}{10}+ \textcolor{var(--tertiary-color-semidark)}{u_i}. \]
Wir sehen:
\(\beta_0^{\bullet} = \beta_0\qquad\) und \(\qquad\beta_1^{\bullet} = \textcolor{var(--secondary-color)}{10\times}\beta_1\).
Die Regressionskonstante verändert sich nicht, der Steigungsparameter aber wird skaliert.
Übungsaufgabe
Was passiert, wenn wir die abhängige Variable (statt der unabhängigen Variable) skalieren?
Auf dieser Folie skalieren wir die \(x_i\)-Werte in mehreren Schritten von Faktor 1 bis 2. Wir sehen, dass die Konstante unverändert bleibt, die Steigung sich aber ändert.
Nichts, was wir bisher besprochen haben, hatte mit tatsächlichen Daten zu tun.
Wir haben vorher diskutiert, wie Schulklassengröße und Prüfungsergebnisse in der Grundgesamtheit miteinander verbunden sind. Wir können \(\beta_0\) und \(\beta_1\) aber in der Praxis nicht beobachten. Daher benötigen wir eine Stichprobe, um sie schätzen zu können.
Wir sammeln also Daten:
\(\left.\begin{array}{c}\{y_1, x_1\} \\\{y_2, x_2\} \\\{y_3, x_3\} \\\vdots \\\{y_N, x_N\}\end{array}\right\}\quad\{y_i, x_i\}_{i=1}^{N}\quad\) zufällig gezogen aus einer Grundgesamtheit \(\quad F_{y,x}(\cdot,\cdot)\),
für die wir \(\mathrm{E}(y\mid x)\) mithilfe einer linearen bedingten Erwartungsfunktion approximieren wollen.
Wie sieht eine Zufallsstichprobe in unserem Beispiel von vorher aus?
Wir bereiten zuerst den Datensatz wieder auf.
Wie sieht eine Zufallsstichprobe in unserem Beispiel von vorher aus?
Wir sehen hier fixe Zahlen. Allerdings sind diese Zahlen Realisierungen von Zufallsvariablen, und jedes Mal, wenn wir eine neue Zufallsstichprobe ziehen, werden wir andere Werte erhalten.
Ziehen wir zur Veranschaulichung eine Stichprobe aus einer Standard-Normalverteilung und berechnen den Mittelwert.
Wenn wir diese Berechnung mehrmals durchführen, bekommen wir immer einen Mittelwert, der in der Nähe von 0 liegt, aber wir bekommen jedes Mal einen anderen Wert. Je mehr Beobachtungen wir sammeln (z.B. n=10^6
), desto näher werden die meisten dieser Werte an 0 liegen.
Wir wollen eine Regressionslinie mit Konstanter \(\tilde{\beta}_0\) und Steigung \(\tilde{\beta}_1\) anpassen:
\[ y_i = \textcolor{var(--quarternary-color)}{\tilde{\beta}_0} + \textcolor{var(--quarternary-color)}{\tilde{\beta}_1}x_i, \]
die die folgenden Vorhersagefehler minimiert:
\[ \textcolor{var(--quarternary-color)}{\hat{u}_i} = y_i - \textcolor{var(--quarternary-color)}{\tilde{\beta}_0} + \textcolor{var(--quarternary-color)}{\tilde{\beta}_1}x_i. \]
Wie finden wir unter allen \(\tilde{\beta}_0\) und \(\tilde{\beta}_1\) diejenigen Parameter \(\hat{\beta}_0\) und \(\hat{\beta}_1\), die den Vorhersagefehler minimieren?
Vorschlag: Wir nehmen die Summe aller Residuen.
Besserer Vorschlag: Wir nehmen die Summe aller Quadrate der Residuen. So bestrafen wir positive und negative Residuen gleichermaßen. Wir suchen also das Minimum von:
\[ S(\tilde{\beta}_0,\tilde{\beta}_1)=\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)^2. \]
Wir nennen den resultierenden Schätzer Kleinste-Quadrate-Schätzer (engl. least squares estimator) bzw. Gewöhnlicher Kleinste-Quadrate-Schätzer (engl. ordinary least squares, OLS).
\[ S(\tilde{\beta}_0,\tilde{\beta}_1)=\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)^2. \]
Wir beginnen damit, die Funktion nach \(\tilde{\beta}_0\) abzuleiten und die Ableitung gleich Null zu setzen:
\[ \frac{\partial S}{\partial \tilde{\beta}_0}=-2\sum_{i=1}^N\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]
Das gibt uns
\[ \colorbox{var(--primary-color-lightened)}{$\sum_{i=1}^N y_i=n\tilde{\beta}_0+\tilde{\beta}_1\sum_{i=1}^N x_i.$} \]
Als nächstes leiten wir nach \(\tilde{\beta}_1\) ab:
\[ \frac{\partial S}{\partial \tilde{\beta}_1}=-2\sum_{i=1}^N x_i\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]
Wir erhalten
\[ \colorbox{var(--secondary-color-lightened)}{$\sum_{i=1}^N x_i y_i=\tilde{\beta}_0\sum_{i=1}^N x_i+\tilde{\beta}_1\sum_{i=1}^N x_i^2.$} \]
Wir notieren ab jetzt \(\bar{x}=\frac{1}{n}\sum_{i=1}^N x_i\) und \(\bar{y}=\frac{1}{n}\sum_{i=1}^N y_i\). Dann erhalten wir aus der ersten Bedingung erster Ordnung:
\[ \tilde{\beta}_0=\bar{y}-\tilde{\beta}_1\bar{x}. \]
Wenn wir das in die zweite Bedingung erster Ordnung einsetzen, erhalten wir:
\[ \sum^N_{i=1}x_i\left(y_i-\bar{y}\right)=\tilde{\beta}_1\sum^N_{i=1}x_i\left(x_i-\bar{x}\right). \]
Weil \(\sum^N_{i=1}x_i\left(x_i-\bar{x}\right)=\sum^N_{i=1}\left(x_i-\bar{x}\right)^2\) und \(\sum^N_{i=1}x_i\left(y_i-\bar{y}\right)=\sum^N_{i=1}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)\) (Siehe Appendix A-1 in Wooldridge):
\[ \colorbox{#e0e0e0}{$\hat{\beta}_1=\frac{\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N (x_i-\bar{x})^2},$} = \textcolor{#999999}{\frac{\widehat{\mathrm{Cov}}(x_i,y_i)}{\widehat{\mathrm{Var}}(x_i)}} \]
solange \(\sum_{i=1}^N (x_i-\bar{x})^2>0\).
Und von vorher:
\[ \colorbox{#e0e0e0}{$\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}.$} \]
Diese Schätzer minimieren die Summe der Residuenquadrate.
Alternativ können wir die Schätzer über die Momentenmethode (engl. method of moments) herleiten. Wir können dabei die folgenden (vorher besprochenen) Annahmen als Momentenbedingungen (engl. moment conditions) verwenden:
Als ersten Schritt ersetzen wir die Momente der Grundgesamtheit durh die Stichprobenmomente:
\[ \frac{1}{n} \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \]
\[ \frac{1}{n} \sum_{i=1}^{n} y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i = 0 \]
\[ \frac{1}{n} \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \]
\[ \frac{1}{n} \sum_{i=1}^{n} y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i = 0 \]
Diese Ausdrücke sind äquivalent zu denen, die wir durch Ableiten der Verlustfunktion erhalten haben. Insofern können wir genau so fortsetzen wie vorher und erhalten:
\[ \colorbox{#e0e0e0}{$\hat{\beta}_1=\frac{\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N (x_i-\bar{x})^2}$}\qquad\qquad\colorbox{#e0e0e0}{$\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}.$} \]
Wir haben denselben Schätzer durch zwei verschiedene Methoden erhalten.
Wir können unseren Schätzer für die Steigung nur berechnen, wenn die Varianz in \(x_i\) nicht 0 ist (andernfalls würden wir durch 0 dividieren):
\[ \hat\beta_1=\frac{\widehat{\mathrm{Cov}}(x_i,y_i)}{\widehat{\mathrm{Var}}(x_i)} \]
Die Residuen sind die Differenz zwischen tatsächlich beobachtetem Wert und dem angepassten Wert:
\[ \hat{u}_i = y_i - \hat{y}_i \]
Als wir vorher nach \(\tilde{\beta}_0\) abgeleitet haben, hatten wir:
\[ \frac{\partial S}{\partial \tilde{\beta}_0}=-2\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]
was impliziert, dass die Summe (und somit das Mittel) der Residuen 0 ist.
Intuition: Wären die Residuen im Mittel positiv oder negativ, könnten wir die Linie nach unten bzw. oben verschieben und eine bessere Anpassung erreichen.
Als wir vorher nach \(\tilde{\beta}_1\) abgeleitet haben, hatten wir:
\[ \frac{\partial S}{\partial \tilde{\beta}_1}=-2\sum_{i=1}^N x_i\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0. \]
Das impliziert:
\[ \sum^N_{i=1}\left(x_i-\bar{x}\right)\hat{u}_i=0 \]
Das impliziert wiederum, dass die Korrelation zwischen den \(x_i\) und den Residuen 0 ist.
Intuition: Wären die Residuen mit den \(x_i\) korreliert, könnten wir eine bessere Anpassung erreichen, indem wir unsere Linie neigen.
Wir können die Variation in \(y\) in einen erklärten Teil, also Variation, die von Variation in \(x\) ausgeht; und in einen nicht erklärten Teil, also einen Teil, der von unbeobachteten Faktoren ausgeht, aufteilen:
\[ \textcolor{var(--primary-color)}{\sum^N_{i=1}\left(y_i-\bar{y}\right)^2} = \textcolor{var(--secondary-color)}{\sum^N_{i=1}\left(\hat{y}_i-\bar{y}\right)^2} + \textcolor{var(--quarternary-color)}{\sum^N_{i=1}\hat{u}_i^2} \]
oder auch
Totale Quadratsumme \(=\) Erklärte Quadratsumme \(+\) Residuenquadratsumme
Total Sum of Squares \(=\) Explained Sum of Squares \(+\) Residual Sum of Squares
\[ \textcolor{var(--primary-color)}{\mathrm{SST}} = \textcolor{var(--secondary-color)}{\mathrm{SSE}} + \textcolor{var(--quarternary-color)}{\mathrm{SSR}} \]
Das Bestimmtheitsmaß \(R^2\) (engl. coefficient of determination) ist eine Maßzahl zur Anpassungsgüte (engl. goodness of fit) und gibt an, welcher Anteil der Variation durch unser Modell erklärt wird:
\[ R^2 = \frac{\textcolor{var(--secondary-color)}{\mathrm{SSE}}}{\textcolor{var(--primary-color)}{\mathrm{SST}}} = 1- \frac{\textcolor{var(--quarternary-color)}{\mathrm{SSR}}}{\textcolor{var(--primary-color)}{\mathrm{SST}}}. \]
In allen vier Beispielen ist \(R^2=0.67\).
Eigenschaften des OLS-Schätzers
Logarithmische TransformationenWir beginnen mit einem Beispiel. Nehmen wir an, der Lohn, den eine Person erhält, hängt von der Ausbildung der Person ab:
\[ \mathrm{Lohn}_i = f\left(\mathrm{Ausbildung}_i\right) \]
Ist es plausibler, dass ein zusätzliches Ausbildungsjahr den Lohn immer um die gleiche Menge erhöht, oder um den gleichen Faktor?
Das 5. Jahr Ausbildung erhöht den Lohn um 1 Euro
und
Das 12. Jahr Ausbildung erhöht den Lohn um 1 Euro
Das 5. Jahr Ausbildung erhöht den Lohn um 8 Prozent
und
Das 12. Jahr Ausbildung erhöht den Lohn um 8 Prozent
Wir können eine derartige Beziehung mit Logarithmen approximieren:
\[ \mathrm{log}\left(\mathrm{Lohn}_i\right) = \beta_0 + \beta_1\mathrm{Ausbildung}_i+u_i. \]
Das ist äquivalent zu:
\[ \mathrm{Lohn}_i = \mathrm{exp}\left(\beta_0 + \beta_1\mathrm{Ausbildung}_i+u_i\right). \]
Die Beziehung ist nicht-linear in \(y\) (Lohn) und \(x\) (Ausbildung), aber sie ist linear in \(\mathrm{log}(y)\) und \(x\).
Wir können die Regression genau so mit OLS schätzen wie vorher, indem wir \(y_i^\ast=\mathrm{log}\left(y_i\right)\) definieren und folgendes Modell schätzen:
\[ y_i^\ast=\beta_0+\beta_1x_i+u_i \]
Analog zu vorher können wir auch die unabhängige Variable (\(x\)) logarithmieren. Die Interpretation im vorherigen Beispiel wäre:
Eine Erhöhung der Ausbildung um 1 Prozent (egal von welchem Niveau) erhöht den Lohn um eine Bestimmte Anzahl Euro.
Wir definieren \(x_i^\ast = \mathrm{log}\left(x_i\right)\) schätzen das Modell:
\[ y_i = \beta_0 + \beta_1x_i^* +u_i. \]
Wenn wir den natürlichen Logarithmus für unsere Transformation verwenden, ist die Interpretation der Koeffizienten sehr einfach:
Modell | Abh. Variable | Unabh. Variable | Interpretation |
---|---|---|---|
Level-Level | \(y\) | \(x\) | \(+1\) in \(x\) \(\Leftrightarrow\) \(+\beta_1\) in \(y\) |
Level-Log | \(y\) | \(\log(x)\) | \(+1\%\) in \(x\) \(\Leftrightarrow\) \(+\beta_1 / 100\) in \(y\) |
Log-Level | \(\log(y)\) | \(x\) | \(+1\) in \(x\) \(\Leftrightarrow\) \(+\beta_1 \times 100\%\) in \(y\) |
Log-Log | \(\log(y)\) | \(\log(x)\) | \(+1\%\) in \(x\) \(\Leftrightarrow\) \(+\beta_1\)% in \(y\) |
Eigenschaften des OLS-Schätzers
Logarithmische Transformationen
Der Satz von Gauß-MarkowWenn wir annehmen, dass unser lineares Modell korrekt ist, können wir einige Aussagen über Erwartungswert und Varianz des OLS-Schätzers treffen.
Der Satz von Gauß-Markow (engl. Gauss-Markov Theorem) besagt, dass der OLS-Schätzer der „beste lineare unverzerrte Schätzer” ist, oder auch der
Best Linear Unbiased Estimator
(BLUE)
Damit wir mithilfe des Satzes von Gauß-Markow beweisen können, dass der OLS-Schätzer BLUE ist, benötigen wir vier Annahmen hinsichtlich unseres Modells:
Satz von Gauß-Markow: Annahmen für Einfache Lineare Regression (SLR)
Die Regressionsfunktion der Grundgesamtheit (PRF) muss linear in ihren Parametern sein:
\[ y_i = \beta_0 + \beta_1 x_i + u_i \]
Unsere Stichprobe mit \(N\) Beobachtungen, \(\left\{\left(y_i,x_i\right), i = 1, 2, \dots, N\right\}\) muss zufällig aus der Grundgesamtheit gezogen werden. Die Wahrscheinlichkeit, eine Beobachtung in die Stichprobe aufzunehmen, muss für alle gleich sein, und darf nicht davon abhängen, wen wir zuerst „gezogen“ haben.
Damit wir unser Modell schätzen können, benötigen wir Variation in \(x\). Die \(x\)-Werte dürfen nicht alle vollständig gleich sein.
Übrigens: Wenn wir keine Variation in \(y\) haben, werden unsere Ergebnisse nicht wahnsinnig interessant sein (unsere Regressionsgerade ist dann horizontal), aber berechnen können wir sie ohne Probleme.
Der Erwartungswert des Fehlerterms \(u\) ist für jeden \(x\)-Wert 0:
\[ \mathrm{E}\left(u_i\mid x_i\right) = 0 \]
Diese Annahme impliziert auch die beiden Momentenbedingungen \(\mathrm{E}\left(u_i\right) = 0\) und \(\mathrm{E}\left(u_i x_i\right) = 0\). Beweis
Dass \(\mathrm{E}\left(u_i\right)=0\), ist keine besonders restriktive Annahme (notfalls verschieben wir einfach die Linie). Dass \(\mathrm{E}\left(u_i\mid x_i\right)=0\), ist weit weniger trivial.
Wir wählen zufällig eine Anzahl von Feldern aus. Dann wählen wir wiederum zufällig die Hälfte der Stichprobe aus und wenden auf diesen Feldern Dünger an. Wir notieren dann die Erträge.
Wir wählen zufällig eine Anzahl von Feldern aus. Dann fragen wir die Landwirt:innen, ob sie diese Felder bedüngt haben. Wir notieren dann Düngergebrauch und die Erträge der Felder.
Im Experiment ist die Intervention, der Düngergebrauch, (\(x_i\)), garantiert unabhängig von unbeobachteten Faktoren. Die Annahme, dass \(\mathrm{E}\left(u_i\mid x_i\right)=0\), ist also plausibel.
In der Beobachtungsstudie ist die Intervention möglicherweise nicht unabhängig von unbeobachteten Faktoren. Vielleicht wird Dünger auf weniger fruchtbaren Feldern angewandt, um einen Nachteil auszugleichen? Oder auf „besseren“ Feldern, um den Ertrag noch mehr zu verbessern? Wenn wir \(\mathrm{E}\left(u_i\mid x_i\right)=0\) für plausibel halten, müssen wir dafür argumentieren.
Eigenschaften des OLS-Schätzers
Logarithmische Transformationen
Erwartungswert des OLS-SchätzersWenn die vier Annahmen SLR.1 bis SLR.4 erfüllt sind, können wir beweisen, dass der OLS-Schätzer unverzerrt (engl. unbiased) ist.
Ein Schätzer ist dann unverzerrt (oder auch: erwartungstreu), wenn sein Erwartungswert dem wahren Wert des Parameters im Modell der Grundgesamtheit entspricht. Wir wollen also beweisen:
\[ \mathrm{E}\left(\hat{\beta}_j\right) = \beta_j\qquad j = 0,1 \]
Wir starten mit dem Ausdruck für den OLS-Schätzer:
\[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) (y_i-\bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) y_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]
Als ersten Schritt schreiben wir \(y_i\) als Summe seiner Bestandteile an:
\[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) (\textcolor{var(--primary-color)}{\beta_0} + \textcolor{var(--secondary-color)}{\beta_1 x_i} + \textcolor{var(--quarternary-color)}{u_i})}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]
Wir teilen auf:
\[ \hat{\beta}_1 = \frac{\textcolor{var(--primary-color)}{\beta_0 \sum_{i=1}^{n} (x_i - \bar{x})} + \textcolor{var(--secondary-color)}{\beta_1 \sum_{i=1}^{n} (x_i - \bar{x}) x_i} + \textcolor{var(--quarternary-color)}{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]
\[ \hat{\beta}_1 = \frac{\textcolor{var(--primary-color)}{\beta_0 \sum_{i=1}^{n} (x_i - \bar{x})} + \textcolor{var(--secondary-color)}{\beta_1 \sum_{i=1}^{n} (x_i - \bar{x}) x_i} + \textcolor{var(--quarternary-color)}{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]
Weil \(\textcolor{var(--primary-color)}{\sum_{i=1}^{n} (x_i - \bar{x})} = 0\) und \(\frac{\textcolor{var(--secondary-color)}{\beta_1 \sum_{i=1}^{n} (x_i - \bar{x}) x_i}}{\textcolor{var(--secondary-color)}{\beta_1 \sum_{i=1}^{n} (x_i - \bar{x}) x_i}} = 1\):
\[ \hat{\beta}_1 = \beta_1 + \textcolor{var(--quarternary-color)}{\frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i}} \]
Wir nennen \(\textcolor{var(--quarternary-color)}{\frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i}}\) Stichprobenfehler (engl. sampling error). Die Gleichung zeigt uns, dass \(\hat{\beta}_1\) in einer endlichen Stichprobe der Summe aus dem wahren Parameter \(\beta_1\) und einer bestimmten Linearkombination der Fehlerterme, dem Stichprobenfehler, entspricht.
Wenn wir zeigen können, dass dieser Stichprobenfehler im Mittel 0 ist, haben wir die Unverzerrtheit des OLS-Schätzers bewiesen.
Was ist also der Erwartungswert von \(\hat{\beta}_1\)?
\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \mathrm{E} \left( \beta_1 + \frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \Bigg| x_1, \dots, x_N \right) \]
Da der wahre Parameter \(\beta_1\) keine Zufallsvariable ist, können wir ihn herausnehmen:
\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 + \mathrm{E} \left( \frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \Bigg| x_1, \dots, x_N \right) \]
Weil \(\mathrm{E}(x_i\mid x_i)=x_i\):
\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 + \frac{\sum_{i=1}^{n} (x_i - \bar{x}) \mathrm{E} \left( u_i | x_1, \dots, x_N \right)}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]
\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 + \frac{\sum_{i=1}^{n} (x_i - \bar{x}) \mathrm{E} \left( u_i | x_1, \dots, x_N \right)}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]
Die Annahme SLR.2 erlaubt uns folgende Vereinfachung:
\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 + \frac{\sum_{i=1}^{n} (x_i - \bar{x}) \mathrm{E} \left( u_i | x_i \right)}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i} \]
Annahme SLR.4 besagt, dass \(\mathrm{E} \left( u_i | x_i \right)=0\), also
\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 \]
\[ \mathrm{E}(\hat{\beta}_1 | x_1, \dots, x_N) = \beta_1 \]
Aufgrund des Satzes der iterierten Erwartungen ist \(\mathrm{E}(\hat{\beta}_1)=\mathrm{E}(\mathrm{E}(\hat{\beta}_1\mid x_1,\dots,x_N))\) und somit folgt
\[ \mathrm{E}(\hat{\beta}_1) = \beta_1, \]
Der Erwartungswert des Schätzers entspricht dem wahren Parameter aus dem Modell der Grundgesamtheit, er ist also unverzerrt.
\(\square\)
Der Beweis dafür, dass auch \(\hat{\beta}_0\) unverzerrt ist, ist sehr einfach. Zuerst schreiben wir \(\hat{\beta}_0\) als
\[ \hat{\beta}_0 = \bar{y}-\hat{\beta}_1\bar{x}. \]
Weil \(\mathrm{E}(\hat{\beta}_1\mid x_1,\dots,x_N)=\beta_1\):
\[ \begin{aligned} \mathrm{E}(\hat{\beta}_0\mid x_i,\dots,x_N) &= \mathrm{E}(\bar{y}\mid x_1,\dots,x_N)-\mathrm{E}(\hat{\beta}_1\bar{x}\mid x_1,\dots,x_N) \\ &= \mathrm{E}(\bar{y}\mid x_1,\dots,x_N)-\mathrm{E}(\hat{\beta}_1\mid x_1,\dots,x_N)\bar{x} \\ &= \beta_0+\beta_1\bar{x}-\beta_1\bar{x} \\ &= \beta_0. \end{aligned} \]
Auch der Schätzer \(\hat{\beta}_0\) ist unverzerrt.
\(\square\)
Logarithmische Transformationen
Erwartungswert des OLS-Schätzers
Varianz des OLS-SchätzersDie Varianz des Fehlerterms \(u_i\) ist für alle \(x_i\)-Werte gleich:
\[ \mathrm{Var}(u_i\mid x_i) = \mathrm{Var}(u_i) = \sigma^2 \]
Wenn die fünf Annahmen SLR.1 bis SLR.5 erfüllt sind, können wir beweisen, dass der OLS-Schätzer die niedrigstmögliche Varianz aller unverzerrten linearen Schätzer hat.
Wir sagen dann, er ist der beste lineare unverzerrte Schätzer (BLUE). Diese Eigenschaft nennen wir auch Effizienz (engl. efficiency).
Wir können das beweisen. Dafür zeigen wir erst, dass die Varianz des OLS-Schätzers
\[ \colorbox{var(--primary-color-lightened)}{$\mathrm{Var}(\hat{\beta}_1\mid x_i) = \frac{\sigma^2}{\sum^N_{i=1}(x_i-\bar{x})^2}, \qquad \mathrm{Var}(\hat{\beta}_0\mid x_i) = \frac{\sigma^2 N^{-1}\sum^N_{i=1}x_i^2}{\sum^N_{i=1}(x_i-\bar{x})^2}$} \]
ist, und dann zeigen wir, dass es keinen linearen unverzerrten Schätzer geben kann, dessen Varianz geringer ist.
Wir zeigen den Beweis für \(\beta_1\). Wir beginnen mit der Aufteilung des Schätzers von vorher:
\[ \mathrm{Var}(\hat{\beta}_1\mid x_i) = \mathrm{Var}\left(\beta_1+\frac{\sum_{i=1}^{n} (x_i - \bar{x}) u_i}{\sum_{i=1}^{n} (x_i - \bar{x}) x_i}\middle| x_i\right) \]
Zur besseren Übersichtlichkeit schreiben wir jetzt \(w_i:=\frac{x_i - \bar{x}}{\sum_{i=1}^{n} (x_i - \bar{x})x_i}\):
\[ \textstyle\mathrm{Var}(\hat{\beta}_1\mid x_i) = \mathrm{Var}\left(\beta_1+\sum_{i=1}^{n}w_iu_i \middle| x_i\right) \]
Jetzt können wir SLR.5 anwenden. Außerdem hängen die Gewichte \(w_i\) nur von \(x_i\) ab und sind somit fix:
\[ \mathrm{Var}(\hat{\beta}_1\mid x_i) = \sigma^2\sum_{i=1}^{n}w_i^2 \]
\[ \mathrm{Var}(\hat{\beta}_1\mid x_i) = \sigma^2\sum_{i=1}^{n}w_i^2 \]
Jetzt können wir \(w_i\) wieder ausschreiben: Wenn \(w_i=\frac{x_i - \bar{x}}{\sum_{i=1}^{n} (x_i - \bar{x})x_i}\), dann gilt auch: \(\sum_{i=1}^{n}w_i^2=\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{\left(\sum_{i=1}^{n} (x_i - \bar{x})x_i\right)^2}=\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{\left(\sum_{i=1}^{n} (x_i - \bar{x})^2\right)^2}=\frac{1}{\sum_{i=1}^{n} (x_i - \bar{x})^2}\). Somit:
\[ \colorbox{var(--secondary-color-lightened)}{$\mathrm{Var}(\hat{\beta}_1\mid x_i) = \frac{\sigma^2}{\sum^N_{i=1}(x_i-\bar{x})^2}$} \]
Übungsaufgabe
Wie können wir \(\mathrm{Var}(\hat{\beta}_0\mid x_i) = \frac{\sigma^2 N^{-1}\sum^N_{i=1}x_i^2}{\sum^N_{i=1}(x_i-\bar{x})^2}\) herleiten?
Jetzt widmen wir uns dem zweiten Teil: Ist diese Varianz die geringstmögliche für einen linearen unverzerrten Schätzer? Sei \(\tilde{\beta}_1\) irgendein anderer linearer Schätzer, der beliebige Gewichte \(a_i\) (statt den OLS-Gewichten \(w_i\)) hat:
\[ \tilde{\beta}_1 = \sum^N_{i=1}a_iy_i = \sum^N_{i=1} a_i\left(\beta_0+\beta_1x_i+u_i\right) \]
Da diese Gewichte \(a_i\) sich aus den \(x\)-Werten ergeben, können wir SLR.4 anwenden, um den Erwartungswert so anzuschreiben:
\[ \mathrm{E}\left(\tilde{\beta}_1\middle| x_i\right) = \beta_0\sum^N_{i=1}a_i+\beta_1\sum^N_{i=1}a_ix_i \]
Da wir voraussetzen, dass auch dieser Schätzer unverzerrt ist, können wir daraus zwei Bedingungen ableiten: \(\sum^N_{i=1}a_i = 0\) und \(\sum^N_{i=1}a_ix_i = 1\).
Wir können die Gewichte von \(\tilde{\beta}_1\) als die OLS-Gewichte plus eine Differenz darstellen:
\[ a_i = w_i + d_i \]
Das erlaubt uns, den Schätzer wie folgt anzuschreiben (wir benutzen dieselbe Aufteilung wie vorher beim OLS-Schätzer):
\[ \tilde{\beta}_1 = \beta_1 + \sum^N_{i=1}(w_i+d_i)u_i. \]
Die Varianz von \(\tilde{\beta}_1\) ist somit:
\[ \mathrm{Var}\left(\tilde{\beta}_1\middle|x_i\right) \quad = \quad \sigma^2\sum^N_{i=1}\left(w_i+d_i\right)^2 \quad = \quad \sigma^2\sum^N_{i=1}\left(w_i^2+2w_id_i+d_i^2\right) \]
\[ \textstyle\mathrm{Var}\left(\tilde{\beta}_1\middle|x_i\right) \quad = \quad \sigma^2\sum^N_{i=1}\left(w_i+d_i\right)^2 \quad = \quad \sigma^2\sum^N_{i=1}w_i^2+2w_id_i+d_i^2 \]
Weil \(\sum^N_{i=1}a_i = \sum^N_{i=1}(w_i+d_i)=0\) und \(\sum^N_{i=1}w_i=0\), muss auch
\[ \sum^N_{i=1}d_i=0 \]
Außerdem:
\[ \sum^N_{i=1}(w_i+d_i)x_i=\sum^N_{i=1}w_ix_i+\sum^N_{i=1}d_ix_i=1\quad\Rightarrow\quad \sum^N_{i=1}d_ix_i=0 \]
\[ \textstyle\mathrm{Var}\left(\tilde{\beta}_1\middle|x_i\right) \quad = \quad \sigma^2\sum^N_{i=1}\left(w_i+d_i\right)^2 \quad = \quad \sigma^2\sum^N_{i=1}w_i^2+2w_id_i+d_i^2 \]
Weil \(\sum^N_{i=1}d_i=0\) und \(\sum^N_{i=1}d_ix_i=0\), gilt für den mittleren Term:
\[ \textstyle\sum^N_{i=1}w_id_i = \frac{\sum^N_{i=1}\left(x_i-\bar{x}\right)}{\sum^N_{i=1}(x_i-\bar{x})^2}d_i=\frac{1}{\sum^N_{i=1}(x_i-\bar{x})^2}\sum^N_{i=1}x_id_i-\frac{\bar{x}}{\sum^N_{i=1}(x_i-\bar{x})^2}\sum^N_{i=1}d_i=0 \]
Also reduziert sich der Ausdruck für die Varianz auf
\[ \mathrm{Var}\left(\tilde{\beta}_1\middle|x_i\right) \quad = \quad \sigma^2\sum^N_{i=1}w_i^2+\textcolor{var(--secondary-color)}{\sigma^2\sum^N_{i=1}d_i^2} \]
Der Unterschied zur Varianz des OLS-Schätzers ist der rechte Term. Da dieser Term nie negativ sein kann, muss die Varianz von \(\tilde{\beta}_1\) immer gleich oder größer sein als die von \(\hat{\beta}_1\).
\(\square\)
Zurück zur Varianz des OLS-Schätzers:
\[ \mathrm{Var}(\hat{\beta}_1\mid x_i) = \frac{\sigma^2}{\sum^N_{i=1}(x_i-\bar{x})^2} \]
Wenn wir diese Varianz aus den Daten berechnen wollen, haben wir ein Problem: Wir kennen \(\sigma^2\) nicht.
Unter SLR.1 bis SLR.5 können wir allerdings einen unverzerrten Schätzer für die Varianz finden, und zwar:
\[ \colorbox{var(--secondary-color-lightened)}{$\hat{\sigma}^2=\frac{\sum^N_{i=1}\hat{u}_i^2}{n-2}$}, \]
also die Residuenquadratsumme geteilt durch \(n-2\).
Wenn wir die Wurzel aus dem Schätzer für die Varianz des Fehlerterms ziehen, erhalten wir
\[ \hat{\sigma}=\sqrt{\hat{\sigma}^2}. \]
Wir nennen diese Größe den Standardfehler der Regression. Er ist zwar kein unverzerrter, aber ein konsistenter Schätzer für \(\sigma\). Wir können damit den Standardfehler von \(\beta_1\), ein Schätzer für die Standardabweichung von \(\hat{\beta}_1\) bestimmen:
\[ \textstyle\mathrm{se}\left(\hat{\beta}_1\right)=\frac{\hat{\sigma}}{\sqrt{\sum^N_{i=1}\left(x_i-\bar{x}\right)^2}} \]
Analog können wir den Standardfehler von \(\beta_0\) bestimmen. Wir können somit messen, wie „genau“ die Koeffizienten geschätzt sind.
Wir simulieren 4000 Stichproben aus einer Grundgesamtheit und schätzen 4000 Mal den \(\beta_1\)-Koeffizienten.
In diesem Beispiel ist die Standardabweichung der \(\beta_1\)-Koeffizienten 0.161. Der Standardfehler ist 0.1637897.
Erwartungswert des OLS-Schätzers
Regressionen mit nur einem ParameterWas passiert, wenn wir statt dem Modell \(y = \beta_0 + \beta_1x + u\) folgendes Modell schätzen?
\[ y = \beta_1x + u \]
Das bedeutet nichts anderes, als dass wir eine Restriktion \(\beta_0=0\) auferlegen und somit die Regressionsgerade durch den Ursprung geht.
Der OLS-Schätzer in diesem Fall ist
\[ \hat{\beta_1}=\frac{\sum^N_{i=1}x_iy_i}{\sum^N_{i=1}x_i^2}. \]
Übungsaufgabe
Wie können wir diesen Schätzer herleiten?
Wenn unser wahres Modell der Grundgesamtheit keine Konstante hat, dann ist dieser Schätzer unverzerrt:
Wenn unser wahres Modell der Grundgesamtheit keine Konstante hat, dann ist dieser Schätzer verzerrt:
Der OLS-Schätzer in einer Regression ohne Konstante ist nur dann unverzerrt, wenn die Konstante im wahren Modell auch 0 ist.
Übungsaufgabe
Wie können wir beweisen, dass der Schätzer im oben genannten Fall verzerrt ist?
Was passiert, wenn wir statt dem Modell \(y = \beta_0 + \beta_1x + u\) folgendes Modell schätzen?
\[ y = \beta_0 + u \]
Das bedeutet nichts anderes, als dass wir eine Restriktion \(\beta_1=0\) auferlegen und somit die Regressionsgerade horizontal ist.
Der OLS-Schätzer in diesem Fall ist
\[ \hat{\beta_0} = \bar{y}, \]
der Mittelwert der \(y\)-Werte.
Übungsaufgabe
Wie können wir diesen Schätzer herleiten?
Erwartungswert des OLS-Schätzers
Regressionen mit nur einem Parameter
Binäre erklärende Variablen
Bisher sind wir immer von erklärenden Variablen mit einer quantitativen Interpretation ausgegangen (Ausbildungsjahre, Klassengröße, …). Wie können wir qualitative Information ins Modell einbeziehen?
Angenommen, wir wollen den Gender Pay Gap analysieren und sind daher daran interessiert, ob ein Individuum eine Frau ist oder nicht. Wir können eine Variable wie folgt definieren:
\[ \mathrm{Frau}_i = \begin{cases} 1&\text{wenn }i\text{ eine Frau ist},\\ 0&\text{andernfalls} \end{cases} \]
Wir nennen eine solche Variable eine binäre Variable oder Dummy-Variable.
Ein anderes Beispiel wäre ein Arbeitstrainingsprogramm. Die Variable \(\text{Programmteilnahme}_i\) ist dann 1 für alle Personen, die an dem Programm teilgenommen haben, und 0 für alle anderen.
Wir haben also ein Modell der Form
\[ y = \beta_0 + \beta_1x + u, \]
wo \(x\) eine Dummy-Variable ist. Unsere Annahmen SLR.1 bis SLR.5 gelten nach wie vor. Das bedeutet:
\[ \begin{align} \mathrm{E}(y\mid x=1) &= \beta_0+ \beta_1, \\ \mathrm{E}(y\mid x=0) &= \beta_0. \end{align} \]
Wir können also \(\beta_1\) als den erwarteten Unterschied in \(y\) zwischen den beiden Gruppen interpretieren, und \(\beta_1\) als den mittleren Wert in der Gruppe \(x=0\). Daraus folgt, dass der mittlere Wert in der Gruppe \(x=1\) dann \(\beta_0 + \beta_1\) entspricht.
Wir können auch komplexere qualitative Information als nur „ja/nein“ mit Dummy-Variablen kodieren. Dazu benötigen wir aber die Techniken multipler linearer Regression aus dem nächsten Modul.
Wir haben an mehreren Stellen davon gesprochen, dass wir Behandlungen oder Interventionen (engl. treatment) evaulieren wollen.
Es gibt also für jedes Individuum zwei mögliche Zustände, von denen wir nur einen beobachten können.
Ein Effekt, den wir schätzen können, ist der durchschnittliche Behandlungseffekt (engl. average treatment effect, ATE):
\[ \mathrm{ATE}=\mathrm{E}\left(\text{Kausaler Effekt}_i\right) = \mathrm{E}\left(y_i(1)-y_i(0)\right) = \mathrm{E}\left(y_i(1)\right)-\mathrm{E}\left(y_i(0)\right). \]
Wenn die Annahmen SLR.1 bis SLR.4 halten, ist der OLS-Schätzer \(\beta_1\) ein unverzerrter Schätzer für den durchschnittlichen Behandlungseffekt.
Wir kommen zurück zu dem, was wir vorher schon einmal besprochen haben: Die Annahme SLR.4 (also in diesem Kontext: Die Fehler sind unabhängig von der Zugehörigkeit zur Behandlungsgruppe \(x\)) hält nur dann garantiert, wenn die Zuweisung zur Behandlungsgruppe zufällig ist, zum Beispiel in einer randomisierten kontrollierten Studie.
In Kontexten, in denen eine zufällige Zuweisung zu Behandlungsgruppen nicht möglich ist, können wir mit den bisherigen Methoden keine validen Aussagen über Behandlungseffekte treffen. In Modul 3 diskutieren wir, wie wir dieses Problem mit Methoden multipler linearer Regression angehen können.
Warum verwenden wir die lineare bedingte Erwartungsfunktion zur Vorhersage?
Mit einer quadratischen Verlustfunktion:
Wenn wir also die gemeinsame verteilung von \(x\) und \(y\) kennen, \(y\) mit einem linearen Modell vorhersagen wollen, und den die erwarteten Fehlerquadrate minimieren wollen, ist die lineare bedingte Erwartungsfunktion die beste Funktion, die wir dazu verwenden können.
Zwei Bemerkungen:
Explizite Lösungen für Steigung und Konstante in Abhängigkeit der (unbeobachteten) Momente der Grundgesamtheit sind: \[\beta_1=\frac{\mathrm{Cov}(x,y)}{\mathrm{Var}(x)} \quad\quad\text{und} \quad\quad\beta_0=\mathrm{E}(y)-\beta_1\mathrm{E}(x).\]
Ein ähnliches Ergebnis wie auf der vorherigen Folie hält auch in allgemeinerer Form: Wenn wir eine quadratische Verlustfunktion verwenden, ist die beste Vorhersagefunktion unbekannter \(y\) immer eine bedingte Erwartungsfunktion; auch dann, wenn wir mit nicht-linearen Funktionen arbeiten.
Warum eine quadratische Verlustfunktion?
\[ \mathrm{Cov}(u_i,x_i) = \mathrm{E}(u_ix_i)-\mathrm{E}(u_i)\mathrm{E}(x_i) \]
Weil wir annehmen, dass \(\mathrm{E}(u_i)=0\),
\[ \mathrm{Cov}(u_i,x_i)=\mathrm{E}(x_iu_i) \]
\(\square\)
\[ \begin{aligned} \text{SST} &= \sum (y_i - \bar{y})^2\\ &= \sum \bigl(y_i - \bar{y} + \underbrace{\hat{y}_i - \hat{y}_i}_{=0}\bigr)^2\\ &= \sum \Bigl((y_i - \hat{y}_i) + (\hat{y}_i - \bar{y})\Bigr)^2\\ &= \sum \Bigl(\hat{u}_i + (\hat{y}_i - \bar{y})\Bigr)^2\\ &= \sum \Bigl(\hat{u}_i^2 + 2\,\hat{u}_i(\hat{y}_i - \bar{y}) + (\hat{y}_i - \bar{y})^2\Bigr)\\ &= \sum \hat{u}_i^2 + 2 \sum \hat{u}_i(\hat{y}_i - \bar{y}) + \sum (\hat{y}_i - \bar{y})^2\\ &= \text{SSR} + 2 \underbrace{\sum \hat{u}_i(\hat{y}_i - \bar{y})}_{=0\text{, siehe rechts}} + \text{SSE}\\ &= \text{SSR} + \text{SSE}\qquad\qquad\qquad\qquad\qquad\qquad\square \end{aligned} \]
\[ \begin{aligned} \sum \hat{u}_i(\hat{y}_i - \bar{y}) &= \sum \hat{u}_i \,\hat{y}_i -\bar{y}\,\sum \hat{u}_i\\ &= \sum \hat{u}_i \bigl(\hat{\beta}_0 + \hat{\beta}_1 x_i\bigr)-\bar{y}\,\sum \hat{u}_i\\ &= \hat{\beta}_0\underbrace{\sum \hat{u}_i}_{=0} +\hat{\beta}_1 \underbrace{\sum \hat{u}_i x_i}_{=0} -\bar{y}\underbrace{\sum \hat{u}_i}_{=0}\\ &= 0 \end{aligned} \]
Zuerst wenden wir den Satz der iterierten Erwartungen an: \(\mathrm{E}\left(u_i\right) = \mathrm{E}\left(\mathrm{E}\left(u_i\mid x_i\right)\right)\). Dann nutzen wir die Annahme, dass \(\mathrm{E}\left(u_i\mid x_i\right)=0\): \(\mathrm{E}\left(\mathrm{E}\left(u_i\mid x_i\right)\right) = \mathrm{E}(0) = 0\). \(\square\)
Wir wenden wieder den Satz der iterierten Erwartungen an: \(\mathrm{E}\left(u_ix_i\right) = \mathrm{E}\left(\mathrm{E}\left(u_ix_i\mid x_i\right)\right)\) Da \(\mathrm{E}(x_i\mid x_i) = x_i\), ist \(\mathrm{E}\left(\mathrm{E}\left(u_ix_i\mid x_i\right)\right) = \mathrm{E}\left(\mathrm{E}\left(u_i\mid x_i\right)x_i\right)\) Dann nutzen wir die Annahme, dass \(\mathrm{E}\left(u_i\mid x_i\right)=0\): \(\mathrm{E}\left(\mathrm{E}\left(u_i\mid x_i\right)x_i\right) = \mathrm{E}(0x_i) = 0\). \(\square\)