PI 6250 – Ökonometrie I
Department für Volkswirtschaftslehre, WU Wien
6. März 2025
Willkommen im Kurs Ökonometrie I!
In diesem Kurs beschäftigen wir uns, einfach gesagt, damit, wie wir Daten nutzen können, um Beweise für Hypothesen und Antworten auf Fragestellungen zu finden, die wir uns stellen.
Dafür benötigen wir solide mathematische und statistische Grundkenntnisse. Im Großen und Ganzen sind das Dinge, die schon im Maturastoff vorkommen und in den Statistik- und Mathematiklehrveranstaltungen im CBK wiederholt werden.
Dieser Foliensatz zum Selbststudium soll euch helfen, diese Grundlagen aufzufrischen. Wenn etwas nicht klar ist, besteht in der LV natürlich noch genug Zeit zum Nachfragen, aber ihr solltet über diesen Foliensatz grundlegend Bescheid wissen.
Die englischsprachigen Übersetzungen der wichtigsten Begriffe in diesem Foliensatz sollen euch dabei helfen, englischsprachige Lehrbücher (also die Kursliteratur) besser verstehen zu können und euch darauf vorbereiten, falls ihr einen englischsprachigen Kurs in Ökonometrie 2 oder 3 besuchen wollt.
Installation von R
An verschiedenen Stellen in diesem Kurs, nicht zuletzt bei Hausübungen, benötigen wir ein Programm, mit dem wir statistische Berechnungen anstellen können. Welches Programm ihr dafür verwendet, ist euch freigestellt. Meine Empfehlung ist R. Auch alle Codebeispiele in diesem Kurs werden in R angeboten.
Eine komfotable Art und Weise, R zu verwenden, ist mit der integrierten Entwicklungsumgebung RStudio. RStudio ist dabei die Oberfläche, die wir verwenden, um Code in R zu schreiben; R selber ist ein separates Programm, das unseren Code ausführt und Ergebnisse liefert.
Installation von R und RStudio
Eine Installationsanleitung und der Download für R findet sich unter cran.r-project.org.
Eine Installationsanleitung und der Download von RStudio findet sich unter posit.co/download/rstudio-desktop/
Installation von einer Statistiksoftware (z.B. R) wird im Kurs vorausgesetzt.
Einführung in R mit RStudio
Die Standard-Anordnung ist etwas anders und das Standard-Thema ist hell. Beides kann in den Einstellungen geändert werden.
Etwa so sieht ein RStudio-Fenster aus:
1+1
eintippen und mit Enter bestätigen.
Base R kommt mit vielen nützlichen Funktionen, manchmal werden wir für spezielle ökonometrische Zwecke aber Funktionen brauchen, die nicht in Base R enthalten sind. Oftmals sind diese in Paketen enthalten, die Entwickler:innen erstellt und dann (im Idealfall) im Comprehensive R Archive Network (CRAN) veröffentlicht haben. Diese zusätzlichen Pakete können wir wie folgt installieren:
Die obigen Funktionen installieren, laden, und aktualisieren Pakete (Beachte: install.packages()
braucht Anführungszeichen). Wir können die Dokumentation einer Funktion mit einem ?
aufrufen:
Funktionen erkennen wir an den Klammern. Diese können Argumente enthalten, müssen aber nicht.
Mithilfe von <-
(oder =
) können wir einem Variablennamen einen Wert zuweisen.
Das kann entweder ein Skalar sein, ein Vektor, oder etwas anderes (mehr später).
Mit print()
können wir eine Variable ausgeben lassen. Es genügt aber auch, nur den Variablennamen zu schreiben (ohne print()
).
Der Code rechts ist interaktiv und kann modifiziert und dann ausgeführt werden.
Wir können R auch wie einen Taschenrechner verwenden. Der interaktive Code rechts zeigt verschiedene mathematische Operationen.
Wir können auch Matrizen definieren und mit ihnen rechnen.
Natürlich ist R vorwiegend eine statistische Programmiersprache. Simulieren wir einmal 100 Würfelwürfe:
Führe diesen Code aus, damit wir weitermachen können.
Was ist der Mittelwert der Würfe?
Wir können auch andere Maßzahlen berechnen:
Weitere Funktionen sind median()
, min()
, max()
, length()
, var()
, sd()
, sum()
, …
Wir verwenden je nach Dateiformat eine andere Funktion, um Daten einzulesen: read.csv()
für CSV, readRDS()
für RDS, …
Manche Datensätze sind auch in R bereits verfügbar, was besonders praktisch für Übungszwecke ist. Ein Beispiel ist mtcars
. Mit head()
können wir die ersten Zeilen ansehen.
Wenn wir Daten z.B. als CSV einlesen, müssen wir sie erst einem Namen zuweisen, z.B. durch my_data <- read.csv("data.csv")
. Übrigens können wir Daten auf ähnliche Weise exportieren: write.csv(my_data, "my_data.csv")
.
Die Struktur, in der die Daten gespeichert sind, heißt Dataframe. Die Zeilen eines Dataframe entsprechen einzelnen Beobachtungen, die Spalten entsprechen Variablen. Mit View()
können wir den Datensatz in einem separaten Fenster ansehen. Wir können aber auch z.B. die Anzahl der Spalten und Zeilen herausfinden:
Mit eckigen Klammern können wir bestimmte Zeilen und Spalten aufrufen. mtcars[1,]
ist die erste Zeile von mtcars
, mtcars[,1]
ist die erste Spalte. Wir können einzelne Variablen auch mit folgender Notation aufrufen: mtcars$mpg
.
Was passiert, wenn wir diesen Code ausführen?
Wir können TRUE
und FALSE
auch verwenden, um Werte zu filtern:
Wir können auch mehrere Funktionen verbinden:
Oder Grafiken zeichnen:
Oft wollen wir einen Scatterplot (ein Punktwolkendiagramm) zeichnen, um die Beziehnung zweier Variablen zueinander darzustellen.
Versuche, die Zeile abline(lm(mpg~hp, data=mtcars), col="red")
hinzuzufügen, um eine rote Regressionslinie in den Plot zu zeichnen!
Wie stark sind mpg
und hp
korreliert?
Wenn wir eine Summe bilden, addieren wir verschiedene Dinge zusammen. Diese Dinge nennen wir Summanden. Diese Summanden können Zahlen sein, Funktionen, Vektoren, oder Matrizen. Das Bilden von Summen ist einfach und intuitiv, aber bei einer großen Anzahl von Summanden mühsam aufzuschreiben. Beispiel: Wir wollen die Summe aller natürlichen Zahlen von 1 bis 100 bilden:
\[ \begin{aligned} &1+2+3+4+5+6+7+8+9+10+11+12+13+14+15+\\ &16+17+18+19+20+21+22+23+24+25+26+27+28+\\ &29+30+31+32+33+34+35+36+37+38+39+40+41+\\ &42+43+44+45+46+47+48+49+50+51+52+53+54+\\ &55+56+57+58+59+60+61+62+63+64+65+66+67+\\ &68+69+70+71+72+73+74+75+76+77+78+79+80+\\ &81+82+83+84+85+86+87+88+89+90+91+92+93+\\ &94+95+96+97+98+99+100 &=5050. \end{aligned} \]
Glücklicherweise können wir diese lange Summe auch einfacher aufschreiben:
\[ \sum^{100}_{i=1}i = 5050. \]
Das Summenzeichen (engl. summation operator) wird oft gefürchtet (besonders wenn es in Gleichungen oft vorkommt, sehen die Gleichungen gerne kompliziert aus), ist aber sehr einfach:
\[ \sum^{100}_{i=1}i = 5050. \]
Wir verfahren wie folgt. Wir lassen \(i\) der Reihe nach einmal jeden Wert von Start- bis Endwert annehmen. Dann wird der Ausdruck rechts des Summenzeichens, \(i\), zuerst 1, dann 2, … und schließlich 100. Wir summieren dann alle diese Ausdrücke.
Der Summationsindex kann auch als Index einer Variable vorkommen:
\[ \sum^{4}_{i=1}x_i = x_1 + x_2 + x_3 + x_4. \]
Wenn ein Term auf der rechten Seite des Summenzeichens den Summenindex nicht enthält, bleibt er in jedem Durchgang unverändert:
\[ \sum^{100}_{i=1}c = 100c. \]
Für jede Konstante \(c\) gilt außerdem:
\[ \sum^n_{i=1}cx_i = c\sum^n_{i=1}x_i \]
Wenn Start- und Endwert gleich sind:
\[ \sum^n_{i=1}x_i+\sum^n_{i=1}y_i=\sum^n_{i=1}x_i+y_i \]
Wir notieren Matrizen mit fettgedruckten Großbuchstaben (\(\boldsymbol{X}\)) und (Spalten)vektoren mit fettgedruckten Kleinbuchstaben (\(\boldsymbol{x}\)):
\[ \boldsymbol{X} = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1k} \\ x_{21} & \dots & \dots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \dots & x_{nk} \\ \end{pmatrix} ,\quad \boldsymbol{x} = \begin{pmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \\ \end{pmatrix} \]
Der Fettdruck ist nicht unbedingt notwendig. Wenn wir handschriftlich trotzdem klarstellen wollen, dass es sich um eine Matrix oder einen Vektor handelt, können wir sie oder ihn stattdessen unterstreichen: \(\underline{X}\) oder \(\underline{x}\).
In der vorangegangenen Folie hatte \(\boldsymbol{X}\) die Dimensionen \(n\times k\) und \(\boldsymbol{x}\) hatte die Dimension \(n\). \(\boldsymbol{x}\) war als Spaltenvektor angeschrieben, wir können \(\boldsymbol{x}\) aber auch als Zeilenvektor anschreiben. Dafür müssen wir den Vektor transponieren: Vereinfacht gesagt werden aus Zeilen Spalten und aus Spalten Zeilen. Wir notieren die Transposition mit einem kleinen Strich (man kann aber auch ein hochgestelltes T verwenden):
\[ \boldsymbol{x}' = (x_1, x_2, \dots, x_n) \]
Wir können auch Matrizen transponieren. Eine Matrix, die zuvor die Dimensionen \(n\times k\) hatte, hat nach der Transposition die Dimensionsn \(k\times n\).
Wenn wir eine transponierte Matrix wieder transponieren, erhalten wir:
\[ (\boldsymbol{X}')' = \boldsymbol{X} \]
Darüber hinaus gilt: \((\boldsymbol{XZ})'=\textcolor{red}{\boldsymbol{Z}'\boldsymbol{X}'}\).
Wir begegnen in der Ökonometrie verschiedenen speziellen Matrizen:
Der Rang (engl. rank) einer Matrix ist definiert als die Dimension des von den Spalten einer Matrix aufgespannten Vektorraumes und wird als \(\mathrm{rang}(\boldsymbol{X})\) oder \(\mathrm{rank}(\boldsymbol{X})\) angeschrieben. Einfacher gesagt entspricht der Rang einer Matrix der Anzahl ihrer linear unabhängigen Spalten (engl. linearly independent columns). Eine Spalte ist dann linear unabhängig von den anderen, wenn sie nicht als lineare Kombination derselben ausgedrückt werden kann (also als eine Summe von Vielfachen der anderen Spalten). Wir betrachten die folgende Matrix:
\[ \boldsymbol{X} = \begin{pmatrix} 12 & 2 & 10 \\ 3 & 1 & 2 \\ 7 & 4 & 3 \\ 8 & 6 & 2 \end{pmatrix} \]
Diese Matrix hat Rang 2. Sie hat zwar drei Spalten, aber die dritte Spalte ist eine lineare Kombination der ersten beiden: \(x_{i3} = x_{i1} + (-1) \cdot x_{i2}\).
Wenn eine Matrix den maximal möglichen Rang für eine Matrix ihrer Dimensionen hat, hat sie vollen Rang (engl. full rank).
Matrixaddition passiert Element für Element:
\[ \small \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1k} \\ x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nk} \end{pmatrix} + \begin{pmatrix} z_{11} & z_{12} & \cdots & z_{1k} \\ z_{21} & z_{22} & \cdots & z_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ z_{n1} & z_{n2} & \cdots & z_{nk} \end{pmatrix} = \begin{pmatrix} x_{11} + z_{11} & x_{12} + z_{12} & \cdots & x_{1k} + z_{1k} \\ x_{21} + z_{21} & x_{22} + z_{22} & \cdots & x_{2k} + z_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} + z_{n1} & x_{n2} + z_{n2} & \cdots & x_{nk} + z_{nk} \end{pmatrix} \]
Multiplikation einer Matrix mit einem Skalar funktioniert auch Element für Element:
\[ \small \alpha \cdot \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1k} \\ x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nk} \end{pmatrix} = \begin{pmatrix} \alpha x_{11} & \alpha x_{12} & \cdots & \alpha x_{1k} \\ \alpha x_{21} & \alpha x_{22} & \cdots & \alpha x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ \alpha x_{n1} & \alpha x_{n2} & \cdots & \alpha x_{nk} \end{pmatrix} \]
Die Multiplikation zweier Matrizen ist etwas komplizierter. Sei \(\boldsymbol{X}\) eine \(2\times 3\)-Matrix und \(\boldsymbol{Z}\) eine \(3\times 2\)-Matrix. Dann können wir die Matrizen wie folgt miteinander multiplizieren:
\[ \small \begin{pmatrix} \textcolor{red}{x_{11}} & \textcolor{red}{x_{12}} \\ \textcolor{orange}{x_{21}} & \textcolor{orange}{x_{22}} \\ \textcolor{purple}{x_{31}} & \textcolor{purple}{x_{32}} \end{pmatrix} \cdot \begin{pmatrix} \textcolor{blue}{z_{11}} & \textcolor{green}{z_{12}} & \textcolor{teal}{z_{13}} \\ \textcolor{blue}{z_{21}} & \textcolor{green}{z_{22}} & \textcolor{teal}{z_{23}} \end{pmatrix} = \begin{pmatrix} \textcolor{red}{x_{11}}\textcolor{blue}{z_{11}} + \textcolor{red}{x_{12}}\textcolor{blue}{z_{21}} & \textcolor{red}{x_{11}}\textcolor{green}{z_{12}} + \textcolor{red}{x_{12}}\textcolor{green}{z_{22}} & \textcolor{red}{x_{11}}\textcolor{teal}{z_{13}} + \textcolor{red}{x_{12}}\textcolor{teal}{z_{23}} \\ \textcolor{orange}{x_{21}}\textcolor{blue}{z_{11}} + \textcolor{orange}{x_{22}}\textcolor{blue}{z_{21}} & \textcolor{orange}{x_{21}}\textcolor{green}{z_{12}} + \textcolor{orange}{x_{22}}\textcolor{green}{z_{22}} & \textcolor{orange}{x_{21}}\textcolor{teal}{z_{13}} + \textcolor{orange}{x_{22}}\textcolor{teal}{z_{23}} \\ \textcolor{purple}{x_{31}}\textcolor{blue}{z_{11}} + \textcolor{purple}{x_{32}}\textcolor{blue}{z_{21}} & \textcolor{purple}{x_{31}}\textcolor{green}{z_{12}} + \textcolor{purple}{x_{32}}\textcolor{green}{z_{22}} & \textcolor{purple}{x_{31}}\textcolor{teal}{z_{13}} + \textcolor{purple}{x_{32}}\textcolor{teal}{z_{23}} \end{pmatrix} \]
Die folgende Tabelle hilft dabei, sich den Prozess zu visualisieren:
\[ \small \begin{array}{c|ccc} & \textcolor{blue}{z_{11}, z_{21}} & \textcolor{green}{z_{12}, z_{22}} & \textcolor{teal}{z_{13}, z_{23}} \\ \hline \textcolor{red}{x_{11}, x_{12}} & \textcolor{red}{x_{11}}\textcolor{blue}{z_{11}} + \textcolor{red}{x_{12}}\textcolor{blue}{z_{21}} & \textcolor{red}{x_{11}}\textcolor{green}{z_{12}} + \textcolor{red}{x_{12}}\textcolor{green}{z_{22}} & \textcolor{red}{x_{11}}\textcolor{teal}{z_{13}} + \textcolor{red}{x_{12}}\textcolor{teal}{z_{23}} \\ \textcolor{orange}{x_{21}, x_{22}} & \textcolor{orange}{x_{21}}\textcolor{blue}{z_{11}} + \textcolor{orange}{x_{22}}\textcolor{blue}{z_{21}} & \textcolor{orange}{x_{21}}\textcolor{green}{z_{12}} + \textcolor{orange}{x_{22}}\textcolor{green}{z_{22}} & \textcolor{orange}{x_{21}}\textcolor{teal}{z_{13}} + \textcolor{orange}{x_{22}}\textcolor{teal}{z_{23}} \\ \textcolor{purple}{x_{31}, x_{32}} & \textcolor{purple}{x_{31}}\textcolor{blue}{z_{11}} + \textcolor{purple}{x_{32}}\textcolor{blue}{z_{21}} & \textcolor{purple}{x_{31}}\textcolor{green}{z_{12}} + \textcolor{purple}{x_{32}}\textcolor{green}{z_{22}} & \textcolor{purple}{x_{31}}\textcolor{teal}{z_{13}} + \textcolor{purple}{x_{32}}\textcolor{teal}{z_{23}} \end{array} \]
Es ist leicht zu sehen, dass Matrizen nur dann miteinander multipliziert werden können, wenn die Anzahl der Spalten der linken Matrix der Anzahl der Zeilen der rechten Matrix entspricht.
Eine quadratische Matrix \(\boldsymbol{X}\) heißt invertierbar (engl. invertible), wenn eine Matrix \(\boldsymbol{X}^{-1}\) existiert, sodass gilt:
\[ \boldsymbol{XX}^{-1}=\boldsymbol{X}^{-1}\boldsymbol{X}=\boldsymbol{I}. \]
In diesem Fall nennen wir \(\boldsymbol{X}^{-1}\) die Inverse (engl. inverse) von \(\boldsymbol{X}\). Wenn keine solche Matrix existiert, nennen wir \(\boldsymbol{X}\) singulär (engl. singular) oder nicht-invertierbar (engl. non-invertible). Wenn eine Inverse existiert, ist sie eindeutig (engl. unique).
Angenommen, wir beobachten ein Zufallsereignis, wie z.B. einen Münzwurf oder das Werfen eines Würfels. Eine Zufallsvariable ist eine Veriable, die einen Wert annimmt, der von dem beobachteten Ereignis abhängt. Wir bezeichnen sie mit einem Großbuchstaben:
\[ X \]
Wir bezeichnen alle möglichen Ergebnisse mit dem entsprechenden Kleinbuchstaben:
\[ x_i \]
Eine diskrete Zufallsvariable ist eine Zufallsvariable, die nur eine endliche oder abzählbar unendliche Anzahl möglicher Ergebnisse haben kann. Wenn die Variable \(X\) genannt wird, bezeichnen wir die Ergebnisse mit \(x_i\) und die zugehörigen Wahrscheinlichkeiten mit \(p_i\). Beachte, dass die Summe aller Wahrscheinlichkeiten \(\sum_i p_i\) gleich 1 sein muss.
Ein Beispiel für eine diskrete Zufallsvariable wäre das Werfen von zwei Würfeln. Die möglichen Ergebnisse sind \(\{2,3,4,5,6,7,8,9,10,11,12\}\), und die zugehörigen Wahrscheinlichkeiten sind \(\{\tfrac{1}{36},\tfrac{2}{36},\tfrac{3}{36},\tfrac{4}{36},\tfrac{5}{36},\tfrac{6}{36},\tfrac{5}{36},\tfrac{4}{36},\tfrac{3}{36},\tfrac{2}{36},\tfrac{1}{36}\}\). Rechts ist die Wahrscheinlichkeitsfunktion (engl. probability mass function, PMF) dargestellt:
Eine Bernoulli-Variable ist eine diskrete Zufallsvariable, die nur zwei Ergebnisse annehmen kann, wie etwa ein Münzwurf.
Eine stetige oder kontinuierliche Zufallsvariable (engl. continuous random variable) ist eine Zufallsvariable, die eine überabzählbar unendliche (engl. uncountably infinite) Anzahl unterschiedlicher Ergebnisse annehmen kann.
Wir wissen, dass es eine unendliche Anzahl von Ergebnissen gibt und dass die Summe all dieser 1 beträgt. Daraus folgt, dass die Wahrscheinlichkeit jedes einzelnen Ergebnisses gleich null ist. Daher gibt es auch keine Wahrscheinlichkeitsfunktion wie bei diskreten Zufallsvariablen.
Was wir jedoch tun können, ist, eine Wahrscheinlichkeitsdichtefunktion (engl. probability density function, PDF) zu zeichnen. Sie sagt uns die Wahrscheinlichkeit, dass das Ergebnis in ein bestimmtes Intervall fällt. Der Flächeninhalt unter der gesamten PDF entspricht 1.
Ein Beispiel für eine solche Variable wäre die Körpergröße einer Person. Es wäre sinnlos, nach der Wahrscheinlichkeit zu fragen, dass eine Person genau 1,734681092536 Meter groß ist. Diese Wahrscheinlichkeit ist null. Aber wir können uns die PDF ansehen und bestimmen, wie wahrscheinlich es ist, dass die Körpergröße der Person zwischen 1.73 und 1.74 Meter liegt:
Ob eine unendliche Menge von Zahlen abzählbar oder überabzählbar unendlich ist, kann intuitiv beantwortet werden. Alle natürlichen Zahlen \(\mathbb{N}\) sind abzählbar unendlich. Wir können klar einen Weg vorgeben, wie man sie zählt (beginne bei 0, dann 1, dann 2, dann 3, …), wir wissen nur nicht, wo und wann der Weg endet. Schließlich ist er immer noch unendlich lang. Alle reellen Zahlen \(\mathbb{R}\) sind jedoch überabzählbar unendlich. Wir können keinen eindeutigen Weg bestimmen, der alle Zahlen erreicht. Angenommen, wir beginnen bei 0, dann 0.001 was ist mit allen Zahlen dazwischen? Und allen Zahlen zwischen diesen Zahlen? Es gibt keinen Weg, sie alle zu zählen.
Zusätzlich zur Wahrscheinlichkeits-dichtefunktion können wir die Verteilungsfunktion (engl. cumulative distribution function, CDF) zeichnen. Sie gibt die Wahrscheinlichkeit an, dass das Ergebnis gleich oder kleiner als ein bestimmter Wert ist. Die Funktion ist streng monoton steigend:
Die gestrichelte Linie zeigt, wie wir den Plot lesen: Der Wert der Dichtefunktion bei \(X=1.74\) stellt die Wahrscheinlichkeit dar, dass eine zufällig ausgewählte Person kleiner oder genau 1.74 Meter groß ist.
Kehren wir zu unserem Beispiel des Würfelwurfs zurück. Das Ergebnis ist eine diskrete Zufallsvariable mit den folgenden Ergebnissen und zugehörigen Wahrscheinlichkeiten:
Ergebnis | Wahrscheinlichkeit |
---|---|
\(1\) | \(\tfrac{1}{6}\) |
\(2\) | \(\tfrac{1}{6}\) |
\(3\) | \(\tfrac{1}{6}\) |
\(4\) | \(\tfrac{1}{6}\) |
\(5\) | \(\tfrac{1}{6}\) |
\(6\) | \(\tfrac{1}{6}\) |
Der Erwartungswert (engl. expected value oder expectation) ist ein Konzept, das uns erlaubt – ganz einfach – zu analysieren, welchen Wert wir beim Würfeln erwarten können. Wir berechnen ihn als das arithmetische Mittel der Ergebnisse, gewichtet mit ihren jeweiligen Wahrscheinlichkeiten. Wir bezeichnen den Erwartungswert mit einem großen \(\mathrm{E}\):
\[ \mathrm{E} := \sum_{i=1}^n x_i p_i \]
Der Erwartungswert für einen fairen Würfel beträgt 3.5. Wenn wir immer mehr Ergebnisse aus dieser Verteilung ziehen, d.h. den Würfel sehr oft werfen, wird sich der Durchschnitt aller Würfe immer mehr dem Erwartungswert annähern. Solange wir mit diskreten Variablen arbeiten, ist all dies recht einfach zu interpretieren. Bei kontinuierlichen Variablen wird es schwieriger, aber die allgemeine Intuition bleibt bestehen.
Wir beschäftigen uns in der Ökonometrie viel mit Erwartungswerten, daher ist es nützlich, einige Regeln im Umgang damit zu kennen.
Oftmals reicht der Erwartungswert nicht aus, um eine Verteilung zu analysieren. Stellen Sie sich vor, Sie besitzen eine Firma, die Schrauben herstellt. Sie haben zwei Maschinen, die sie produzieren. Sie werben damit, dass Ihre Schrauben alle 35 Millimeter lang sind, aber in Wirklichkeit ist die Länge der Schrauben zufällig verteilt: Der Erwartungswert der Schraubenlänge beträgt für beide Maschinen 35mm. Allerdings produziert die Maschine \(A\) meist Schrauben, die sehr nah an der gewünschten Länge sind, während die Maschine \(B\) manchmal Schrauben ausgibt, die sogar 33 oder 37 Millimeter lang sind. Was ist der Unterschied zwischen diesen beiden Maschinen mit identischen Erwartungswerten?
Die Antwort lautet Varianz. Vereinhachend gesagt: Der Erwartungswert zeigt uns, wo das “Zentrum” einer Verteilung liegt. Die Varianz hingegen gibt an, wie weit die Ergebnisse tendenziell von dieser Erwartung abweichen. Wir bezeichnen sie als \(\mathrm{Var}(X)\) und berechnen sie wie folgt:
\[ \mathrm{Var}(X) := \mathrm{E}\left((X - \mu)^2\right), \]
wobei \(\mu = \mathrm{E}(X)\).
Es leuchtet ein, dass die Varianz jeder Konstante null ist. Zu beachten ist außerdem die folgende Regel für eine Zufallsvariable \(X\) und Konstanten \(a,b\):
\[ \mathrm{Var}(aX + b) = a^2 \mathrm{Var}(X) + \mathrm{Var}(b) = a^2 \mathrm{Var}(X) \]
Die Standardabweichung, bezeichnet als \(\mathrm{sd}(X)\), ist einfach die Quadratwurzel der Varianz.
Angenommen, \(X\) und \(Y\) sind zwei diskrete Zufallsvariablen. Zusätzlich zu ihren individuellen Verteilungen können wir ihre gemeinsame Verteilung (engl. joint distribution) beschreiben. Dafür verwenden wir eine gemeinsame Wahrscheinlichkeitsfunktion:
\[ f_{X,Y}(x,y) = P(X=x, Y=y) \]
Diese Funktion gibt einfach an, wie groß die Wahrscheinlichkeit für jede Kombination von \(X\) und \(Y\) ist. Wenn \(X\) und \(Y\) unabhängig sind, dann gilt:
\[ f_{X,Y}(x,y) = f_X(x)f_Y(y), \]
wobei \(f(x)\) und \(f(y)\) die Wahrscheinlichkeitsfunktionen für \(X\) bzw. \(Y\) sind. Zwei Zufallsvariablen sind unabhängig (engl. independent), wenn das Ergebnis von \(X\) die Wahrscheinlichkeiten der möglichen Ergebnisse von \(Y\) nicht beeinflusst.
Ein weiteres wichtiges Konzept ist die bedingte Verteilung (engl. conditional distribution). Die bedingte Wahrscheinlichkeitsdichtefunktion beschreibt, wie das Ergebnis von \(X\) das von \(Y\) beeinflusst:
\[ f_{Y|X}(y|x) = P(Y=y|X=x) = \frac{f_{X,Y}(x,y)}{f_{X}(x)}, \text{ für alle } f_{X}(x) > 0 \]
Wenn \(X\) und \(Y\) unabhängig sind, beeinflusst das Ergebnis von \(X\) nicht \(Y\) und somit gilt \(f_{Y|X}(y|x) = f_{Y}(y)\).
Die Kovarianz (engl. covariance) ähnelt einer “zwei-Variablen-Version” der Varianz. Wir könen damit zwei Verteilungen gemeinsam analysieren. Sie wird wie folgt definiert und mit \(\mathrm{Cov}(X,Y)\) bezeichnet:
\[ \mathrm{Cov}(X,Y) := \mathrm{E}\left((X-\mu_X)(Y-\mu_Y)\right), \]
wobei \(\mu_X=\mathrm{E}_X(X)\) und \(\mu_Y=\mathrm{E}_Y(Y)\).
Die Vorzeichen der Kovarianz können intuitiv interpretiert werden. Ist die Kovarianz positiv, erwarten wir, dass \(Y\) über seinem Mittelwert liegt, wenn \(X\) das ebenfalls tut. Ist die Kovarianz negativ, erwarten wir, dass \(Y\) unter seinem Mittelwert liegt, wenn \(X\) über seinem Mittelwert liegt. Einfach gesagt, zeigt eine positive Kovarianz, dass zwei Variablen positiv miteinander assoziiert sind, und umgekehrt. Eine Kovarianz von 0 bedeutet, dass keine Beziehung besteht. Wenn \(X\) und \(Y\) unabhängig sind, ist die Kovarianz immer 0.
Eine Assoziation in diesem Sinne bedeutet natürlich noch lange keinen kausalen Zusammenhang, aber mehr dazu im Kurs :)
Folgende Regeln gelten für die Kovarianz:
\[ \mathrm{Cov}(X,Y) = \mathrm{E}(XY) - \mathrm{E}(X)\mathrm{E}(Y) \]
Für Konstanten \(a,b,c,d\):
\[ \mathrm{Cov}(aX +b, cY +d) = a\cdot c \cdot \mathrm{Cov}(X,Y) \]
Angenommen, wir haben zwei Zufallsvariablen \(X\) und \(Y\), die in irgendeiner Weise miteinander verbunden sind. Wir möchten wissen, was die Erwartung von \(Y\) ist, vorausgesetzt, \(X\) nimmt einen bestimmten Wert an. Dies wird als bedingter Erwartungswert bezeichnet und mit \(\mathrm{E}(Y|X=x)\) notiert. Für bedingte Erwartungswerte gilt folgendes: