A.
Die ganze Geschichte mit den zwei Steigungen finde ich ziemlich kryptisch. Ich würde \(r^2\) etwas anders betracheten, nämlich als Verhältnis der erklärten Varianz zur Gesamtvarianz. [1]
Der beste Schätzwert für den Wert der abhängigen Variablen \(y\) an der Stelle \(x_i\) auf der Grundlage ihrer eigenen Verteilung ist ihr Mittelwert (\(\bar{y}\)).
Der beste Schätzwert für den Wert der abhängigen Variablen \(y\) an der Stelle \(x_i\) unter Berücksichtigung der unabhängigen Variablen \(x\) ist der y-Wert des Punktes auf der Regressionsgeraden, der sich an der Stelle der Stelle \(x_i\) befindet. Die Beziehung zwischen der Gesamtabweichung, der nicht erklärten Abweichung und der erklärten Abweichung des Punktes \(P(x_i|y_i)\) ist aus dem folgenden Diagamm zu ersehen:
Quelle: Benninghaus 1989:210
Für den y-Wert des Punktes \(P(x_i|y_i)\) gilt also, dass sich die Gesamtabweichung dieses y-Werts aus der Summe der erklärten und der nicht erklärten Abweichung ergibt. Das heißt, es gilt Gleichung (1):
$$\left(y_{i}-\bar{y}\right)=\left(y'_{i}-\bar{y}\right)+\left(y_{i}-y'_{i}\right) \tag{1}$$
Über eine Umformung, bei der die erste binomische Formel [2] eine Rolle spielt, lässt sich zeigen, dass auch der folgende Zusammenhang gilt:
$$\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)=\sum_{i=1}^{n}\left(y'_{i}-\bar{y}\right)+\sum_{i=1}^{n}\left(y_{i}-y'_{i}\right) \tag{2}$$
Das heißt, dass sich auch die Gesamtvariation aus der Summe der erklärten und der nicht erklärten Variation zusammensetzt. \(r^2\) ist jetzt definiert als das Verhältnis der erklärten Variation zur Gesamtvariation bzw., wenn alle drei Ausdrücke noch einmal durch die Fallzahl geteilt werden, der erklärten Varianz zur Gesamtvarianz.
B.
Die Formel zur Berechnung von Pearsons r (das ist der Korrelationskoeffizient) kann auch so geschrieben werden:
$$r=\frac{\mathrm{cov}(x,y)}{s_{x}\cdot s_{y}} \tag{3}$$
Dabei ist \(\mathrm{cov}(x,y)\) die Kovarianz von x und y. \(s_x\) und \(s_y\) sind die Standardabweichungen von \(x\) und \(y\). Diese drei Parameter können wie folgt berechnet werden:
$$\mathrm{cov}(x,y)=\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)\cdot\left(y_{1}-\bar{y}\right)}{n} \tag{4}$$
$$s_{x}=\sqrt{\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n}} \tag{5}$$
$$s_{y}=\sqrt{\frac{\sum\limits _{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}{n}} \tag{6}$$
Wie sich mit Papier und Bleistift nachvollziehen lässt, küzen sich die Fallzahlen weg, wenn die Formeln (4) bis (6) in die Formel (3) eingesetzt werden. Daraus ergibt sich dann Formel (7):
$$r=\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)\cdot\left(y_{i}-\bar{y}\right)}{\sqrt{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\cdot\sum\limits _{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} \tag{7}$$
Das ist, wie sich leicht fesstellen lässt, numerisch identisch mit der Formel, die Daniel Jung in seinem Video vorgestellt hat.
[1]
Das heißt Varianzaufklärung. Eine Anmerkung dazu: Die Varianz ist die Summe der Abweichungsquadrate geteilt durch die Fallzahl. Die Summe der Abweichungsquadrate wird auch Variation genannt. Wenn die erklärte Varianz durch die Gsamtvarianz geteilt wird, kürzt sich die Fallzahl weg. Was übrig bleibt ist die erklärte Variation geteilt durch die Gesamtvariation.
[2]
\((a+b)^2=a^2+2ab+b^2\)
Siehe dazu auch Benninghaus 1989:211
Literatur
Benninghaus, Hans, (6)1989: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten 22, Studienskripten zur Soziologie) Stuttgart: Teubner
Danke erstmal für die Antwort, aber anscheinend hab ich mich falsch ausgedrückt. Ich frage mich wieso die beiden Steigungen der Regressionsgeraden miteinander multipliziert den Korrelationskoeffezienten zum Quadrat ergeben. Also denn Sinn dahinter, die Rechnung an sich verstehe ich. :)
─ basti9 30.03.2019 um 14:01