Update regression_4.qmd

3055aa0a · Elias Leonard Willem Kaiser · 4000ad72 · 3055aa0a
Commit 3055aa0a authored 6 months ago by Elias Leonard Willem Kaiser
--- a/kapitel_regression/regression_4.qmd
+++ b/kapitel_regression/regression_4.qmd
@@ -66,7 +66,7 @@ $$
 :::

 ::: {#exm-regression4-luftverschmutzung-bestimmtheitsmaß}
-In `R` findet man den Datensatz `USairpollution`, der Daten zur Luftverschmutzung in 41 Großstädten in den USA enthält. Die Luftverschmutzung wird charakterisiert durch den Gehalt an Schwefeldioxid (`SO2`, $y$). Als erklärende Variablen werden die durchschnittliche Jahrestemperatur (`temp`, $x_1$), die Anzahl der Industrieunternehmen mit mindestens $20$ Beschäftigten (`manu`, $x_2$), die Einwohnerzahl (`popul`, $x_3$), die durchschnittliche jährliche Windgeschwindigkeit (`wind`, $x_4$), die jährliche Niederschlagsmenge (`precip`, $x_5$) sowie die durchschnittliche Anzahl an Regentagen (`predays`, $x_6$) verwendet. 
+In `R` findet man den Datensatz `USairpollution`, der Daten zur Luftverschmutzung in $n=41$ Großstädten in den USA enthält. Die Luftverschmutzung wird charakterisiert durch den Gehalt an Schwefeldioxid ($y=$`SO2`). Als erklärende Variablen werden die durchschnittliche Jahrestemperatur ($x_1=$`temp`), die Anzahl der Industrieunternehmen mit mindestens $20$ Beschäftigten ($x_2=$`manu`), die Einwohnerzahl ($x_3=$`popul`), die durchschnittliche jährliche Windgeschwindigkeit ($x_4=$`wind`), die jährliche Niederschlagsmenge ($x_5=$`precip`) sowie die durchschnittliche Anzahl an Regentagen ($x_6=$`predays`) verwendet. 

 ```{r}
 data("USairpollution", package = "HSAUR3")
@@ -180,8 +180,7 @@ $$
 $${#eq-regression4-r-squared}

 :::{.remark}
-Die Komponenten der Streuungszerlegung werden in R nicht direkt ausgegeben, aber man kann sie mithilfe der obigen Formel @eq-regression4-r-squared leicht aus der totalen Streuung und dem Bestimmtheitsmaß  $R^2$ berechnen, indem man @eq-regression4-r-squared umformt zu
-:::
+Die Komponenten der Streuungszerlegung werden in `R` nicht direkt ausgegeben, aber man kann sie mithilfe der obigen Formel @eq-regression4-r-squared leicht aus der totalen Streuung und dem Bestimmtheitsmaß  $R^2$ berechnen, indem man @eq-regression4-r-squared umformt zu
 $$
 \sum_{i=1}^n \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big)^2 = R^2 \,  \sum_{i=1}^n \big(y_i-\bar{y}\big)^2.
 $$
@@ -190,8 +189,9 @@ Mit den obigen Notationen erhalten wir damit folgende Identitäten
  SQ_{Model}&=R^2\cdot SQ_{total}, \\[1mm]
  SQ_{error}&= (1-R^2) \cdot SQ_{total}.
 \end{align*}
-Die totale Streuung in den Daten finden wir in R mithilfe der Beziehung
+Die totale Streuung in den Daten finden wir in `R` mithilfe der Beziehung
 $SQ_{total}=(n-1)\, s_y^2$. 
+:::

 ::: {#exm-regression4-luftverschmutzung-streuung}
 Für die `USairpollution` Daten findet man die totale Streuung mithilfe des R-Befehls 
@@ -280,7 +280,7 @@ attach(USairpollution)
 summary(lm(SO2 ~ temp + manu + wind + precip))
 ```

-Das Bestimmtheitsmaß hat abgenommen und ist jetzt $R^2=0.6028$. Analog zu den Berechnungen in Beispiel 2 finden wir folgende Werte für die beiden Komponenten der Streuungszerlegung unter der hier betrachteten Nullhypothese:
+Das Bestimmtheitsmaß hat abgenommen und ist jetzt $R^2=0.6028$. Analog zu den Berechnungen in @exm-regression4-luftverschmutzung-streuung finden wir folgende Werte für die beiden Komponenten der Streuungszerlegung unter der hier betrachteten Nullhypothese:
 \begin{align*}
 SQ_{model} (H) &= R^2 \cdot SQ_{total} =  0.6028\cdot 22037.90 = 13284.45  \\
 SQ_{error} (H)  & =(1-R^2)\cdot SQ_{total} =  (1-0.6028)\cdot 22037.90= 8753.46
@@ -294,22 +294,41 @@ diese Frage diskutieren zu können, berechnen wir den Wert der
 $F$-Teststatistik:

 $$
-  F=\frac{(8753.46-7283.52)/2 }{7283.52/34 } =3.52.
+  F=\frac{(8753.46-7283.52)/2 }{7283.52/34 } =3.43.
 $$

 Der zugehörige $p$-Wert ist die Wahrscheinlichkeit, dass eine
 $F_{2,34}$-verteilte Zufallsvariable einen Wert größer oder gleich
-3.52 annimmt. Diese Wahrscheinlichkeit kann man mit `R` berechnen:
+3.43 annimmt. Diese Wahrscheinlichkeit kann man mit `R` berechnen:


 ```{r}
-1 - pf(3.52, 2, 34)
+1 - pf(3.43, 2, 34)
 ```

 Ein Test zum Signifikanzniveau $\alpha=5\%$ würde also die Hypothese
 verwerfen.
 :::

+::: {.remark}
+
+Man kann den Wert der $F$-Teststatistik aus den beiden Bestimmtheitsmaßen, also dem $R^2$ für das volle Modell mit allen erklärenden Variablen und dem $R^2$ für das kleinere Modell, mit den unter der Nullhypothese verbliebenen erklärenden Variablen, berechnen. Zur Unterscheidung bezeichnen wir die Bestimmtheitsmaße für das volle Modell mit $R_M^2$ und für das Modell unter der Nullhypothese mit $R_H^2$. 
+Wegen 
+\begin{align*}
+  SQ_{error}(M)&= (1-R_M^2) \cdot SQ_{total} \\
+  SQ_{error}(H)&= (1-R_H^2) \cdot  SQ_{total}
+  \end{align*}
+erhalten wir 
+$$
+  F= \frac{ ((1-R_H^2)\cdot SQ_{total} - (1-R_M^2)\cdot SQ_{total})/(p-q)}{ (1-R_M^2)\cdot SQ_{total}/(n-p)}  =\frac{(R_M^2-R_H^2)/(p-q) }{(1-R_M^2)/(n-p) }
+$$
+Mit dieser Formel können wir den Wert der $F$-Teststatistik erneut berechnen,
+$$
+ F=\frac{(0.6695-0.6028)/2 }{(1-0.6695)/34 }=3.43 
+$$
+und erhalten dasselbe Ergebnis.
+:::
+
 ::: {#exr-regression4-luftverschmutzung-f-test .r-project}
 <br>