Skip to content
Snippets Groups Projects
Commit 7f760ca2 authored by Elias Leonard Willem Kaiser's avatar Elias Leonard Willem Kaiser
Browse files

Update regression_3.qmd

parent 3055aa0a
Branches
No related tags found
No related merge requests found
......@@ -226,7 +226,7 @@ Der geometrische Zugang beginnt mit der Beobachtung, dass die zu minimierende Su
$$
\sum^{n}_{i=1}(y_i - \sum^p_{j=1}\beta_j \, x_{ij})^2= ||y-X\, \beta||^2.
$$
Wir suchen jetzt dasjenige $\beta$, für das der Abstand von $X\, \beta$ zu dem gegebenen $Y$ minimal wird. Wir betrachten dazu den Raum
Wir suchen jetzt dasjenige $\beta$, für das der Abstand von $X\, \beta$ zu dem gegebenen $y$ minimal wird. Wir betrachten dazu den Raum
$$
\omega=\{ X \beta: \beta \in \mathbb{R}^p\} \subset\mathbb{R}^n.
$$
......@@ -256,7 +256,7 @@ $$
::: {#exm-regression3-usairpollution}
In `R` findet man den Datensatz `USairpollution`, der Daten zur
Luftverschmutzung in n=41 Großstädten in den USA enthält. Die
Luftverschmutzung in $n=41$ Großstädten in den USA enthält. Die
Luftverschmutzung wird charakterisiert durch den Gehalt an
Schwefeldioxid ($y=$`SO2`). Als erklärende Variablen werden die
durchschnittliche Jahrestemperatur ($x_1=$`temp`), die Anzahl der
......@@ -277,7 +277,7 @@ die gegeben ist durch
$$
Y= \beta_0+ \beta_1\, x_1 + \beta_2\, x_2 + \beta_3\, x_3 + \beta_4\, x_4+ \beta_5\, x_5 + \beta_6\, x_6 + \epsilon.
$$
Zur Analyse dieses Modells in R verwenden wir den Befehl
Zur Analyse dieses Modells in`R`verwenden wir den Befehl
```{r results = 'hide'}
attach(USairpollution)
......@@ -672,10 +672,12 @@ da $Z_i\sim N(0,\sigma^2)$ für $i=p+1,\ldots, n$. Weiter sind die Zufallsvariab
<br>
Im Fall normalverteilter Fehler ist der Kleinste-Quadrate-Schätzer zugleich der Maximum-Likelihood-Schätzer für den Parameter $\beta$, was uns eine tiefere Rechtfertigung für die Verwendung des Kleinste-Quadrate-Schätzers liefert, die bereits Gauß bekannt war. Um dies zu erkennen, schreiben wir zunächst die gemeinsame Dichte der Beobachtungen $Y_1, \ldots, Y_n$ auf.
Nach den Transformationsregeln für eindimensionale Normalverteilungen hat $Y_i = \sum^{p}_{j=1}x_{ij} \beta_j + \epsilon_i$ eine $N(\sum^p_{j=1}x_{ij} \beta_{j}, \sigma^2)$-Verteilung und somit haben $Y_1,\ldots,Y_n$ die gemeinsame Dichtefunktion
\begin{align*}
f_{\beta, \sigma^2}(y_1,\ldots, y_n)& = \frac{1}{(2 \pi\sigma^2)^{n/2}} \exp\Big(-\frac{1}{2\sigma^2}\sum^n_{i=1}\big(y_i - \sum^p_{j=1} x_{ij}\beta_j \big)^2\Big)\\
& = \frac{1}{(2 \pi\sigma^2)^{n/2}} \exp\Big( - \frac{1}{2 \sigma^2}||y - X \beta||^2\Big).
\end{align*}
Entsprechend ist die Likelihood-Funktion gegeben durch
$$
L(\beta,\sigma)= \frac{1}{(2 \pi\sigma^2)^{n/2}}\, \exp\Big( - \frac{1}{2 \sigma^2}\, ||y - X \beta||^2\Big).
......@@ -701,6 +703,8 @@ $$
und somit ist der Maximum-Likelihood-Schätzer gegeben durch $\hat{\sigma}_{ML}^2= \frac{1}{n}\, ||y-X \hat{\beta}||^2$. Wir weisen darauf hin, dass der Maximum-Likelihood-Schätzer von dem eingangs eingeführten Schätzer $s^2$ insofern abweicht, als wir durch $n$ teilen und nicht durch $n-p$. Entsprechend ist der Maximum-Likelihood-Schätzer auch nicht erwartungstreu.
:::
## Konfidenzintervalle für die Regressionsparameter
Wir können die bislang erzielten Ergebnisse jetzt verwenden, um Konfidenzintervalle für die Parameter des linearen Modells anzugeben. Vorab formulieren und beweisen wir eine Folgerung aus dem obigen Satz.
::: {#thm-regression3-cor}
......@@ -775,7 +779,9 @@ Schließlich können wir noch Konfidenzintervalle für die Parameter $\alpha$ un
Die oben gemachte Bemerkung über die Varianz von $\hat{\beta}$ spiegelt sich hier in der Länge des Konfidenzintervalls wider, das umgekehrt proportional zu $\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$ ist.
:::
## Konfidenzintervalle für die Regressionsparameter
::: {.remark}
### Konfidenzintervalle für die Regressionsparameter in R
<br>
Ein $(1-\alpha)$-Konfidenzintervall für den Regressionsparameter
$\beta_j$ ist gegeben durch
......@@ -788,6 +794,7 @@ geschätzte Standardabweichung findet man in `R` in der Spalte
neben dem Schätzwert für den Parameter $\beta_j$. So erhalten wir etwa
für den Parameter $\beta_2$ das $95\%$-Konfidenzintervall mit den
Grenzen $0.065 \pm 0.032$, also das Intervall $[0.033, 0.097]$.
:::
::: {#exr-regression3-usairpollution-2 .r-project}
......@@ -826,7 +833,7 @@ zurück zu @exr-regression3-usairpollution
::: {.callout-tip collapse="true"}
### Lösung zu @exr-regression3-usairpollution-2
1. Wir bestimmen die Schätzwerte für die Parameter in R wie folgt:
1. Wir bestimmen die Schätzwerte für die Parameter in`R`wie folgt:
```{r}
attach(USairpollution)
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment