Skip to content
Snippets Groups Projects
Commit 0b5666ac authored by Elias Leonard Willem Kaiser's avatar Elias Leonard Willem Kaiser
Browse files

Update regression_2.qmd

parent 633acbc1
Branches
No related tags found
No related merge requests found
---
title: "Hypothesentest und Konfidenzintervall"
abstract: "In diesem Kapitel behandeln wir einen Hypothesentest und Konfidenzintervalle für die einfache lineare Regression. Wir erklären, wie Konfidenzintervalle berechnet werden und wie die Hypothese getestet werden kann, dass die Regressionsgerade Steigung Null aufweist."
title: "Hypothesentest und Konfidenzintervalle"
abstract: "In diesem Kapitel behandeln wir einen Hypothesentest und Konfidenzintervalle für die einfache lineare Regression. Wir erklären, wie Konfidenzintervalle berechnet werden und wie die Hypothese getestet werden kann, dass die Regressionsgerade eine vorgegebene Steigung $\beta_0$ aufweist. Insbesondere werden wir erklären, wie die Hypothese getestet werden kann, dass die erklärende Variable keinen Einfluss auf die abhängige Variable hat."
---
> **Lernziele:** Am Ende des Kapitels können Sie
......@@ -13,20 +13,9 @@ abstract: "In diesem Kapitel behandeln wir einen Hypothesentest und Konfidenzint
## T-Test für Regressionskoeffizienten
Im Zusammenhang mit dem linearen Regressionsmodell kann man diverse
Hypothesen über die Modellparameter testen. Wir wollen an dieser
Stelle nur die wichtigste Hypothese $H:\beta=0$ betrachten, d.h. dass
die Steigung der Regressionsgeraden gleich $0$ ist. Diese Hypothese
bedeutet, dass die erklärende Variable $x$ keinen Einfluss auf das
Ergebnis des Experiments hat. Je nach Situation kann man die
Hypothese gegen die einseitige Alternative $A: \beta>0$ oder die
zweiseitige Alternative $A:\beta\neq 0$ testen. Die einseitige
Alternative ist relevant, wenn wir sicher sind, dass die erklärende
Variable keinesfalls einen negativen Einfluss auf $y$ haben kann.
Wenn wir keine derartige Vorabinformation haben, sollten wir die
zweiseitige Alternative nehmen.
Als Teststatistik zum Testen der Hypothese $H:\beta=0$ bietet sich
Im Zusammenhang mit dem linearen Regressionsmodell kann man diverse Hypothesen über die Modellparameter testen. Wir wollen an dieser Stelle zunächst die wichtigste Nullhypothese $H_0:\beta=0$ betrachten, d.h. dass die Steigung der Regressionsgeraden gleich $0$ ist. Diese Nullhypothese bedeutet, dass die erklärende Variable $x$ keinen Einfluss auf die abhängige Variable $y$ hat. Je nach Sachkontext wird man diese Nullhypothese gegen die zweiseitige Alternativhypothese $H_1: \beta\neq 0$ oder gegen eine der einseitigen Alternativhypothesen $H_1:\beta>0$ bzw. $H_1:\beta<0$ testen. Die einseitige Alternativhypothese $H_1: \beta>0$ ist relevant, wenn wir von vornherein sicher sein können, dass die erklärende Variable keinen negativen Einfluss auf die abhängige Variable haben kann. Analog ist die einseitige Alternativhypothese $H_1: \beta<0$ relevant, wenn die erklärende Variable keinen positiven Einfluss auf die abhängige Variable haben kann. Gibt uns der Sachkontext keine derartige Vorinformation, so sollten wir immer die zweiseitige Alternativhypothese wählen.
Als Teststatistik zum Testen der Nullhypothese $H:\beta=0$ bietet sich
zunächst die geschätzte Steigung $\widehat{\beta}$ der
Regressionsgeraden an. Um beurteilen zu können, ob $\widehat{\beta}$
signifikant von $0$ abweicht, standardisieren wir mit der
......@@ -46,17 +35,25 @@ Quelle der Streuung einführen.
### T-Test
Wir testen die Hypothese $H\colon\beta=0$ mithilfe der T-Teststatistik
Wir testen die Nullhypothese $H\colon\beta=0$ mithilfe der T-Teststatistik
$$
T:= \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}
\frac{\widehat{\beta}}{\sqrt{s_{y|x}^2}}.
$$
Diese Teststatistik hat unter der Hypothese eine
$t_{n-2}$-Verteilung. Bei der einseitigen Alternative $A:\beta>0$
weisen nur große Werte von $T$ auf eine Abweichung von der Hypothese
in Richtung der Alternative hin, und entsprechend verwerfen wir die
Hypothese, wenn $T\geq t_{n-2;0.05}$. Bei der zweiseitigen
Alternative $A:\beta\neq 0$ verwerfen wir, wenn $T\leq -t_{n-2;0.025}$ oder $T \geq t_{n-2;0.025}$.
Diese Teststatistik hat unter der Nullhypothese eine $t_{n-2}$-Verteilung. Je nach Wahl der Alternativhypothese deuten entweder große oder kleine Werte von $T$ auf eine Abweichung von der Nullhypothese in Richtung der Alternative oder sowohl große als auch kleine Werte. Im Einzelnen verfahren wir wie folgt:
* $H_1: \beta>0$: Wir verwerfen die Nullhypothese zum Signifikanzniveau $\alpha$, wenn
$$
T>t_{n-2;1-\alpha}
$$
* $H_1:\beta<0$: Wir verwerfen die Nullhypothese zum Signifikanzniveau $\alpha$, wenn
$$
T<t_{n-2;\alpha}
$$
* $H_1:\beta\neq 0$: Wir verwerfen die Nullhypothese zum Signifikanzniveau $\alpha$, wenn
$$
T<t_{n-2;\alpha/2} \text{ oder } T>t_{n-2;1-\alpha/2}
$$
:::
......@@ -69,13 +66,13 @@ $$
T=T_{\beta_0}:= \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}
\frac{\widehat{\beta} -\beta_0}{\sqrt{s_{y|x}^2}}.
$$
Unter der Hypothese $H:\beta=\beta_0$ hat $T$ eine
Unter der Nullhypothese $H_0:\beta=\beta_0$ hat $T$ eine
$t_{n-2}$-Verteilung. Bei der zweiseitigen Alternative $A:\beta\neq
\beta_0$ verwerfen wir die Hypothese wenn $T\leq -t_{n-2;0.025}$ oder
\beta_0$ verwerfen wir die Nullhypothese wenn $T\leq -t_{n-2;0.025}$ oder
$T\geq t_{n-2;0.025}$. Bei der einseitigen Alternative
$A:\beta>\beta_0$ verwerfen wir $H$ wenn $T\geq t_{n-2;0.05}$. Lautet
$A:\beta>\beta_0$ verwerfen wir $H$ wenn $T\geq t_{n-2;\alpha}$. Lautet
die einseitige Alternative $A:\beta<\beta_0$, so verwerfen wir die
Hypothese, wenn $T\leq -t_{n-2;0.05}$.
Hypothese, wenn $T\leq -t_{n-2;\alpha}$.
:::
......@@ -98,7 +95,7 @@ $$
\sum_{i=1}^n (y_i-\hat{\alpha}-\hat{\beta}x_i)^2 = (1-r_{x,y}^2) \sum_{i=1}^n (y_i-\bar{y})^2.
$$
verwendet haben. Damit erhalten wir die folgende Formel
für die $T$-Teststatistik zum Testen der Hypothese $H:\beta=\beta_0$:
für die $T$-Teststatistik zum Testen der Nullhypothese $H_0:\beta=\beta_0$:
$$
T=(\hat{\beta}-\beta_0) \frac{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2} }{ \sqrt{s_{y|x}^2} }
= (\hat{\beta}-\beta_0) \sqrt{ \frac{(n-1)s_x^2}{\frac{n-1}{n-2} (1-r_{x,y}^2)s_y^2 } }= (\hat{\beta}-\beta_0) \sqrt{ \frac{(n-2)\, s_x^2}{ (1-r_{x,y}^2)s_y^2 } }.
......@@ -125,45 +122,34 @@ attach(Daten)
Daten
```
:::
Wir betrachten erneut die Daten aus @exm-regression2-energie, für
die wir jetzt die Hypothese $H:\beta=0$ testen wollen. Im Kontext der
Abhängigkeit des Energieverbrauchs von der Außentemperatur liegt die
Alternative $A:\beta<0$ nahe -- wenn die Temperatur einen Einfluss auf
den Energieverbrauch hat, dann kommt nur eine monoton fallende
Regressionsgerade in Betracht. Wir berechnen die Teststatistik aus
den Zusammenfassungen $\bar{x},\bar{y},s_x^2,s_y^2$ und $r_{x,y}$
Wir wollen jetzt die Nullhypothese $H_0:\beta=0$ testen, d.h. dass die morgendliche Außen temperatur keinen Einfluss auf den Energieverbrauch hat. Im Sachkontext der Abhängigkeit des Energieverbrauchs der Heizung von der morgendlichen Außentemperatur macht nur die Alternativhypothese $H_1:\beta<0$ Sinn -- wenn die Außentemperatur überhaupt einen Einfluss auf den Energieverbrauch hat, dann kommt nur eine monoton fallende Regressionsgerade in Frage. Wir berechnen die Teststatistik für den T-Test aus den Zusammenfassungen $\bar{x},\bar{y},s_x^2, s_y^2$ und $r_{x,y}$
$$
T=\hat{\beta}\, \sqrt{ \frac{(n-2)\, s_x^2}{ (1-r_{x,y}^2)s_y^2 } } = \frac{s_y}{s_x} r_{x,y} \, \sqrt{ \frac{(n-2)\, s_x^2}{ (1-r_{x,y}^2)s_y^2 } } =- \sqrt{\frac{(n-2)\, r_{x,y}^2 } {1-r_{x,y}^2}}=-\sqrt{\frac{11\cdot 0.6^2}{1-0.6^2 } } = -2.49.
$$
Der kritische Wert ist in diesem Fall $-t_{11;0.025}=-1.80$, d.h. dass
die Hypothese $H:\beta=0$ verworfen wird und wir damit davon ausgehen
können, dass die morgendliche Außentemperatur einen Einfluss auf den
Fernwärmeverbrauch hat. Der $p$-Wert ist in diesem Fall $p=P_H(T\leq
-2.49)=0.015$, d.h. dass wir einen kleineren als den beobachteten
$T$-Wert auch bei Gültigkeit der Hypothese in $1.5\%$ aller Fälle
erhalten würden.
Der kritische Wert für den einseitigen T-Test zum Signifikanzniveau $\alpha=0.05$ ist in diesem Fall $t_{11;0.05}=-1.80$. Da der beobachtete Wert der Teststatistik kleiner als der kritische Wert ist, verwerfen wir die Nullhypothese $H_0: \beta=0$ zu Gunsten der Alternativhypothese $H_1:\beta<0$. Wir können also davon ausgehen, dass die morgendliche Außentemperatur einen negativen Einfluss auf den Energieverbrauch der Heizung hat.
Wir können dasselbe auch mithilfe von R ausrechnen. Dazu geben wir den
folgenden R-Befehl ein:
Ergänzend berechnen wir noch den $p$-Wert, der in diesem Fall gegeben ist durch
$$
p=P_{H_0}(T\leq -2.49)=0.015.
$$
Bei Gültigkeit der Nullhypothese würden wir also einen kleineren oder gleichen als den beobachteten Wert der Teststatistik mit einer Wahrscheinlichkeit von $0.015$ erhalten. Der $p$-Wert ist das kleinste Signifikanzniveau, zu dem wir die Nullhypothese noch verwerfen. Bei unseren Daten ist $p<0.05$, im Einklang damit, dass wir die Nullhypothese verworfen haben.
In der Praxis werden wir den T-Test fast immer mit Hilfe statistischer Software ausführen. In R verwenden wir dazu den Befehl `lm` und erhalten:
```{r}
summary(lm(Energie ~ Temperatur))
```
Hier können wir dann den Wert der Teststatistik im Abschnitt
`Coefficients` in der Zeile `Temperatur` und Spalte `t value`
ablesen. Der zugehörige p-Wert findet sich in derselben Zeile in der
Spalte `Pr(>|t|)`.
Wir können jetzt den Wert der T-Teststatistik im Abschnitt `Coefficients` in der Zeile `Temperatur` und der Spalte `t value` ablesen. Bis auf Rundungsfehler erhalten wir denselben Wert $t=-2.49$, den wir bereits von Hand berechnet hatten. Der $p$-Wert $p=0.0299$, den wir in der Spalte mit der Überschrift $Pr(>|t|)$ finden, ist der $p$-Wert zur zweiseitigen Alternativhypothese $H_1:\beta\neq 0$ und ist daher das doppelte des $p$-Werts zur einseitigen Alternativhypothese.
:::
::: {#exr-regression2-hyp-reg-1 .r-project}
Betrachten Sie den Datensatz `trees`, der in R standardmäßig vorhanden
ist. Er enthält die beiden Merkmale `Girth` (Durchmesser des Stamms)
ist. Er enthält die beiden Merkmale `Girth` (Umfang des Stamms)
und `Height` (Höhe des Baums). Wir wollen die Hypothese untersuchen,
dass der Durchmesser des Stamms nicht von der Höhe des Baums abhängig
dass der Umfang des Stamms nicht von der Höhe des Baums abhängig
ist. Berechnen Sie mit R den Wert der passenden Teststatistik. Wird
die Hypothese zu einem Niveau von 5% verworfen?
......@@ -189,15 +175,15 @@ hat. Also hat $\frac{\hat{\beta}-\beta}{\sigma} \sqrt{\sum_{i=1}^n
(x_i-\bar{x})^2}$ eine $N(0,1)$-Verteilung. Wenn wir jetzt den
unbekannten Parameter $\sigma^2$ durch den Schätzer $s_{y|x}^2$
ersetzen, so verändert dies die Verteilung in eine
$t_{n-2}$-Verteilung und somit gilt mit Wahrscheinlichkeit $95\%$,
$t_{n-2}$-Verteilung und somit gilt mit Wahrscheinlichkeit $1-\alpha$,
dass
$$
- t_{n-2;0.025} \leq \frac{\hat{\beta}-\beta}{\sqrt{s_{y|x}^2}} \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2} \leq t_{n-2;0.025}.
- t_{n-2;1-\alpha/2} \leq \frac{\hat{\beta}-\beta}{\sqrt{s_{y|x}^2}} \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2} \leq t_{n-2;1-\alpha/2}.
$$
Durch Umformungen erhalten wir hieraus das folgende
$95\%$-Konfidenzintervall für $\beta$:
$1-\alpha$ Konfidenzintervall für $\beta$:
$$
\Big[ \hat{\beta}- t_{n-2;0.025} \frac{\sqrt{s_{y|x}^2}}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}} , \hat{\beta}+t_{n-2;0.025} \frac{\sqrt{s_{y|x}^2}}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}} \Big].
\Big[ \hat{\beta}- t_{n-2;1-\alpha/2} \frac{\sqrt{s_{y|x}^2}}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}} , \hat{\beta}+t_{n-2;1-\alpha/2} \frac{\sqrt{s_{y|x}^2}}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}} \Big].
$$
Die Länge des Konfidenzintervalls ist umgekehrt proportional zu
$\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$; je breiter gestreut die
......@@ -219,11 +205,11 @@ $N(0,1)$-Verteilung. Ersetzen wir hier $\sigma^2$ durch den Schätzer
$s_{y|x}^2$, so erhalten wir eine $t_{n-2}$-verteilte
Zufallsvariable. Mit denselben Überlegungen und Umformungen wie beim
Konfidenzintervall für $\beta$ erhalten wir schließlich das folgende
$95\%$-Konfidenzintervall für den Parameter $\alpha$
$1-\alpha$ Konfidenzintervall für den Parameter $\alpha$
$$
\Big[\hat{\alpha}-t_{n-2;0.025} \sqrt{s_{y|x}^2}
\Big[\hat{\alpha}-t_{n-2;1-\alpha/2} \sqrt{s_{y|x}^2}
\left( \frac{\sum_{i=1}^n x_i^2}{n \sum_{i=1}^n (x_i-\bar{x})^2}\right)^{1/2},
\hat{\alpha}+t_{n-2;0.025} \sqrt{s_{y|x}^2}
\hat{\alpha}+t_{n-2;1-\alpha/2} \sqrt{s_{y|x}^2}
\left( \frac{\sum_{i=1}^n x_i^2}{n \sum_{i=1}^n (x_i-\bar{x})^2}\right)^{1/2}
\Big].
$$
......@@ -237,15 +223,15 @@ $$
Bei der Suche nach einem Konfidenzintervall für die Varianz des
Fehlerterms verwenden wir die Tatsache, dass $(n-2)
s_{y|x}^2/\sigma^2$ eine $\chi_{n-2}^2$-Verteilung hat, und daher mit
Wahrscheinlichkeit $95\%$ gilt, dass
Wahrscheinlichkeit $1-\alpha$ gilt, dass
$$
\chi^2_{n-2;0.975} \leq (n-2)\frac{s_{y|x}^2}{\sigma^2}
\leq \chi^2_{n-2;0.025}.
\chi^2_{n-2;\alpha/2} \leq (n-2)\frac{s_{y|x}^2}{\sigma^2}
\leq \chi^2_{n-2;1-\alpha/2}.
$$
Durch Umformen erhalten wir ein $95\%$ Konfidenzintervall für $\sigma^2$:
$$
\left[(n-2)s_{y|x}^2 / \chi^2_{n-2;0.025},
(n-2) s_{y|x}^2/ \chi^2_{n-2;0.975} \right].
\left[(n-2)s_{y|x}^2 / \chi^2_{n-2;1-\alpha/2},
(n-2) s_{y|x}^2/ \chi^2_{n-2;\alpha/2} \right].
$$
:::
......@@ -256,7 +242,7 @@ Die Formeln für die obigen drei Konfidenzintervalle kann man so
umschreiben, dass zu ihrer Auswertung nur die Zusammenfassungen
$\bar{x},\bar{y}, s_x^2,s_y^2, r_{x,y}$ benötigt werden. Wir zeigen
dies exemplarisch für das Konfidenzintervall für $\beta$. Wegen
\eqref{eq:s-xy-alt} erhalten wir
@eq-regression2-s-xy-alt erhalten wir
$$
\frac{s_{y|x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2} =\frac{1-r_{xy}^2}{n-2}\frac{s_y^2}{s_x^2},
$$
......@@ -270,7 +256,7 @@ $$
::: {#exr-regression2-energie-confint-beta .pencil}
Betrachten Sie noch einmal die Daten aus @exm-regression2-energie und bestimmen
Sie dazu ein Konfidenzintervall für $\beta$.
Sie dazu ein 95%-Konfidenzintervall für $\beta$.
:::
......@@ -279,7 +265,7 @@ kann man relativ einfach aus dem R-Output ermitteln. Beide
Konfidenzintervalle haben die Struktur
$$
\text{Schätzwert} \pm
t_{n-2;0.0975} \cdot \text{geschätzte Standardabweichung des Schätzers}.
t_{n-2;1-\alpha/2} \cdot \text{geschätzte Standardabweichung des Schätzers}.
$$
Schauen wir nun noch einmal auf die R-Ausgabe:
```{r, echo=FALSE}
......@@ -290,11 +276,11 @@ Die geschätzte Standardabweichung des Schätzers findet man in der Spalte
mit der Überschrift `Std. Error` direkt neben dem Schätzwert. Das
Quantil der $t_{n-2}$-Verteilung kann man in Tabellen finden oder
auch mit dem R-Befehl `qt(0.975, n - 2)` bestimmen. Für die oben
betrachteten Daten erhalten wir $t_{11,0.975}=2.20$ und damit das $95\%$-Konfidenzintervall $-3.95 \pm 2.2 \cdot 1.59$ für $\beta$.
betrachteten Daten erhalten wir $t_{11,0.975}=2.20$ und damit das $95\%$-Konfidenzintervall $[-7.44 , 0.46]$ für $\beta$.
::: {#exr-regression2-hyp-reg-2 .r-project}
Bestimmen Sie ein Konfidenzintervall für $\alpha$ aus den Daten aus
Bestimmen Sie ein 95%-Konfidenzintervall für $\alpha$ aus den Daten aus
@exm-regression2-energie, indem Sie die passenden Werte aus der R-Ausgabe ablesen
und die Struktur der Formel wie oben beschrieben ausnutzen.
......@@ -324,12 +310,12 @@ zurück zu @exr-regression2-hyp-reg-1
::: {.callout-tip collapse="true"}
### Lösung zu @exr-regression2-energie-confint-beta
Die Grenzen des Konfidenzintervalls sind
Die Grenzen des 95%-Konfidenzintervalls sind
$$
\hat{\beta}\pm t_{11,0.025}\sqrt{\frac{(1-r_{x,y}^2)\,s_y^2}{11\, s_x^2} }
=-3.95\pm 2.2\, \sqrt{\frac{(1-0.6^2)\cdot 362.08}{11\cdot 8.36}}=-3.95\pm 3.49,
$$
und somit ergibt sich das Konfidenzintervall $[-7.44 , -0.46
und somit ergibt sich das 95%-Konfidenzintervall $[-7.44 , -0.46
]$. Dieses Konfidenzintervall ist groß, zum einen, weil die Anzahl der
Beobachtungen relativ klein ist, und zum anderen, weil die Daten weit
um die Regressionsgerade streuen, was sich in einem relativ kleinen
......@@ -348,7 +334,7 @@ Zunächst machen wir eine lineare Regression mit R und erhalten:
summary(lm(Energie~Temperatur, data=Daten))
```
Gemäß der Struktur der Formel für das Konfidenzintervall für $\alpha$
Gemäß der Struktur der Formel für das 95%-Konfidenzintervall für $\alpha$
ergibt sich also
$$
\hat{\alpha} \pm t_{11,0.975} \cdot \text{geschätzte Standardabweichung für $\hat{\alpha}$} = 125.6 \pm 2.2 \cdot 13 = 125 \pm 28.6
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment