In `R` findet man den Datensatz `USairpollution`, der Daten zur Luftverschmutzung in 41 Großstädten in den USA enthält. Die Luftverschmutzung wird charakterisiert durch den Gehalt an Schwefeldioxid (`SO2`, $y$). Als erklärende Variablen werden die durchschnittliche Jahrestemperatur (`temp`, $x_1$), die Anzahl der Industrieunternehmen mit mindestens $20$ Beschäftigten (`manu`, $x_2$), die Einwohnerzahl (`popul`, $x_3$), die durchschnittliche jährliche Windgeschwindigkeit (`wind`, $x_4$), die jährliche Niederschlagsmenge (`precip`, $x_5$) sowie die durchschnittliche Anzahl an Regentagen (`predays`, $x_6$) verwendet.
In `R` findet man den Datensatz `USairpollution`, der Daten zur Luftverschmutzung in $n=41$ Großstädten in den USA enthält. Die Luftverschmutzung wird charakterisiert durch den Gehalt an Schwefeldioxid ($y=$`SO2`). Als erklärende Variablen werden die durchschnittliche Jahrestemperatur ($x_1=$`temp`), die Anzahl der Industrieunternehmen mit mindestens $20$ Beschäftigten ($x_2=$`manu`), die Einwohnerzahl ($x_3=$`popul`), die durchschnittliche jährliche Windgeschwindigkeit ($x_4=$`wind`), die jährliche Niederschlagsmenge ($x_5=$`precip`) sowie die durchschnittliche Anzahl an Regentagen ($x_6=$`predays`) verwendet.
```{r}
data("USairpollution", package = "HSAUR3")
...
...
@@ -180,8 +180,7 @@ $$
$${#eq-regression4-r-squared}
:::{.remark}
Die Komponenten der Streuungszerlegung werden in R nicht direkt ausgegeben, aber man kann sie mithilfe der obigen Formel @eq-regression4-r-squared leicht aus der totalen Streuung und dem Bestimmtheitsmaß $R^2$ berechnen, indem man @eq-regression4-r-squared umformt zu
:::
Die Komponenten der Streuungszerlegung werden in `R` nicht direkt ausgegeben, aber man kann sie mithilfe der obigen Formel @eq-regression4-r-squared leicht aus der totalen Streuung und dem Bestimmtheitsmaß $R^2$ berechnen, indem man @eq-regression4-r-squared umformt zu
@@ -190,8 +189,9 @@ Mit den obigen Notationen erhalten wir damit folgende Identitäten
SQ_{Model}&=R^2\cdot SQ_{total}, \\[1mm]
SQ_{error}&= (1-R^2) \cdot SQ_{total}.
\end{align*}
Die totale Streuung in den Daten finden wir in R mithilfe der Beziehung
Die totale Streuung in den Daten finden wir in `R` mithilfe der Beziehung
$SQ_{total}=(n-1)\, s_y^2$.
:::
::: {#exm-regression4-luftverschmutzung-streuung}
Für die `USairpollution` Daten findet man die totale Streuung mithilfe des R-Befehls
...
...
@@ -280,7 +280,7 @@ attach(USairpollution)
summary(lm(SO2 ~ temp + manu + wind + precip))
```
Das Bestimmtheitsmaß hat abgenommen und ist jetzt $R^2=0.6028$. Analog zu den Berechnungen in Beispiel 2 finden wir folgende Werte für die beiden Komponenten der Streuungszerlegung unter der hier betrachteten Nullhypothese:
Das Bestimmtheitsmaß hat abgenommen und ist jetzt $R^2=0.6028$. Analog zu den Berechnungen in @exm-regression4-luftverschmutzung-streuung finden wir folgende Werte für die beiden Komponenten der Streuungszerlegung unter der hier betrachteten Nullhypothese:
@@ -294,22 +294,41 @@ diese Frage diskutieren zu können, berechnen wir den Wert der
$F$-Teststatistik:
$$
F=\frac{(8753.46-7283.52)/2 }{7283.52/34 } =3.52.
F=\frac{(8753.46-7283.52)/2 }{7283.52/34 } =3.43.
$$
Der zugehörige $p$-Wert ist die Wahrscheinlichkeit, dass eine
$F_{2,34}$-verteilte Zufallsvariable einen Wert größer oder gleich
3.52 annimmt. Diese Wahrscheinlichkeit kann man mit `R` berechnen:
3.43 annimmt. Diese Wahrscheinlichkeit kann man mit `R` berechnen:
```{r}
1 - pf(3.52, 2, 34)
1 - pf(3.43, 2, 34)
```
Ein Test zum Signifikanzniveau $\alpha=5\%$ würde also die Hypothese
verwerfen.
:::
::: {.remark}
Man kann den Wert der $F$-Teststatistik aus den beiden Bestimmtheitsmaßen, also dem $R^2$ für das volle Modell mit allen erklärenden Variablen und dem $R^2$ für das kleinere Modell, mit den unter der Nullhypothese verbliebenen erklärenden Variablen, berechnen. Zur Unterscheidung bezeichnen wir die Bestimmtheitsmaße für das volle Modell mit $R_M^2$ und für das Modell unter der Nullhypothese mit $R_H^2$.