Skip to content
Snippets Groups Projects
Commit 3055aa0a authored by Elias Leonard Willem Kaiser's avatar Elias Leonard Willem Kaiser
Browse files

Update regression_4.qmd

parent 4000ad72
Branches
No related tags found
No related merge requests found
......@@ -66,7 +66,7 @@ $$
:::
::: {#exm-regression4-luftverschmutzung-bestimmtheitsmaß}
In `R` findet man den Datensatz `USairpollution`, der Daten zur Luftverschmutzung in 41 Großstädten in den USA enthält. Die Luftverschmutzung wird charakterisiert durch den Gehalt an Schwefeldioxid (`SO2`, $y$). Als erklärende Variablen werden die durchschnittliche Jahrestemperatur (`temp`, $x_1$), die Anzahl der Industrieunternehmen mit mindestens $20$ Beschäftigten (`manu`, $x_2$), die Einwohnerzahl (`popul`, $x_3$), die durchschnittliche jährliche Windgeschwindigkeit (`wind`, $x_4$), die jährliche Niederschlagsmenge (`precip`, $x_5$) sowie die durchschnittliche Anzahl an Regentagen (`predays`, $x_6$) verwendet.
In `R` findet man den Datensatz `USairpollution`, der Daten zur Luftverschmutzung in $n=41$ Großstädten in den USA enthält. Die Luftverschmutzung wird charakterisiert durch den Gehalt an Schwefeldioxid ($y=$`SO2`). Als erklärende Variablen werden die durchschnittliche Jahrestemperatur ($x_1=$`temp`), die Anzahl der Industrieunternehmen mit mindestens $20$ Beschäftigten ($x_2=$`manu`), die Einwohnerzahl ($x_3=$`popul`), die durchschnittliche jährliche Windgeschwindigkeit ($x_4=$`wind`), die jährliche Niederschlagsmenge ($x_5=$`precip`) sowie die durchschnittliche Anzahl an Regentagen ($x_6=$`predays`) verwendet.
```{r}
data("USairpollution", package = "HSAUR3")
......@@ -180,8 +180,7 @@ $$
$${#eq-regression4-r-squared}
:::{.remark}
Die Komponenten der Streuungszerlegung werden in R nicht direkt ausgegeben, aber man kann sie mithilfe der obigen Formel @eq-regression4-r-squared leicht aus der totalen Streuung und dem Bestimmtheitsmaß $R^2$ berechnen, indem man @eq-regression4-r-squared umformt zu
:::
Die Komponenten der Streuungszerlegung werden in `R` nicht direkt ausgegeben, aber man kann sie mithilfe der obigen Formel @eq-regression4-r-squared leicht aus der totalen Streuung und dem Bestimmtheitsmaß $R^2$ berechnen, indem man @eq-regression4-r-squared umformt zu
$$
\sum_{i=1}^n \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big)^2 = R^2 \, \sum_{i=1}^n \big(y_i-\bar{y}\big)^2.
$$
......@@ -190,8 +189,9 @@ Mit den obigen Notationen erhalten wir damit folgende Identitäten
SQ_{Model}&=R^2\cdot SQ_{total}, \\[1mm]
SQ_{error}&= (1-R^2) \cdot SQ_{total}.
\end{align*}
Die totale Streuung in den Daten finden wir in R mithilfe der Beziehung
Die totale Streuung in den Daten finden wir in `R` mithilfe der Beziehung
$SQ_{total}=(n-1)\, s_y^2$.
:::
::: {#exm-regression4-luftverschmutzung-streuung}
Für die `USairpollution` Daten findet man die totale Streuung mithilfe des R-Befehls
......@@ -280,7 +280,7 @@ attach(USairpollution)
summary(lm(SO2 ~ temp + manu + wind + precip))
```
Das Bestimmtheitsmaß hat abgenommen und ist jetzt $R^2=0.6028$. Analog zu den Berechnungen in Beispiel 2 finden wir folgende Werte für die beiden Komponenten der Streuungszerlegung unter der hier betrachteten Nullhypothese:
Das Bestimmtheitsmaß hat abgenommen und ist jetzt $R^2=0.6028$. Analog zu den Berechnungen in @exm-regression4-luftverschmutzung-streuung finden wir folgende Werte für die beiden Komponenten der Streuungszerlegung unter der hier betrachteten Nullhypothese:
\begin{align*}
SQ_{model} (H) &= R^2 \cdot SQ_{total} = 0.6028\cdot 22037.90 = 13284.45 \\
SQ_{error} (H) & =(1-R^2)\cdot SQ_{total} = (1-0.6028)\cdot 22037.90= 8753.46
......@@ -294,22 +294,41 @@ diese Frage diskutieren zu können, berechnen wir den Wert der
$F$-Teststatistik:
$$
F=\frac{(8753.46-7283.52)/2 }{7283.52/34 } =3.52.
F=\frac{(8753.46-7283.52)/2 }{7283.52/34 } =3.43.
$$
Der zugehörige $p$-Wert ist die Wahrscheinlichkeit, dass eine
$F_{2,34}$-verteilte Zufallsvariable einen Wert größer oder gleich
3.52 annimmt. Diese Wahrscheinlichkeit kann man mit `R` berechnen:
3.43 annimmt. Diese Wahrscheinlichkeit kann man mit `R` berechnen:
```{r}
1 - pf(3.52, 2, 34)
1 - pf(3.43, 2, 34)
```
Ein Test zum Signifikanzniveau $\alpha=5\%$ würde also die Hypothese
verwerfen.
:::
::: {.remark}
Man kann den Wert der $F$-Teststatistik aus den beiden Bestimmtheitsmaßen, also dem $R^2$ für das volle Modell mit allen erklärenden Variablen und dem $R^2$ für das kleinere Modell, mit den unter der Nullhypothese verbliebenen erklärenden Variablen, berechnen. Zur Unterscheidung bezeichnen wir die Bestimmtheitsmaße für das volle Modell mit $R_M^2$ und für das Modell unter der Nullhypothese mit $R_H^2$.
Wegen
\begin{align*}
SQ_{error}(M)&= (1-R_M^2) \cdot SQ_{total} \\
SQ_{error}(H)&= (1-R_H^2) \cdot SQ_{total}
\end{align*}
erhalten wir
$$
F= \frac{ ((1-R_H^2)\cdot SQ_{total} - (1-R_M^2)\cdot SQ_{total})/(p-q)}{ (1-R_M^2)\cdot SQ_{total}/(n-p)} =\frac{(R_M^2-R_H^2)/(p-q) }{(1-R_M^2)/(n-p) }
$$
Mit dieser Formel können wir den Wert der $F$-Teststatistik erneut berechnen,
$$
F=\frac{(0.6695-0.6028)/2 }{(1-0.6695)/34 }=3.43
$$
und erhalten dasselbe Ergebnis.
:::
::: {#exr-regression4-luftverschmutzung-f-test .r-project}
<br>
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment