理系学生日記

おまえはいつまで学生気分なのか

なぜ相関係数の絶対値は1以下なのか

前回、統計学:相関係数と線形回帰 - 理系学生日記で相関係数$r$の定義式を示しました。今回は、この$r$が$-1 \leq r \leq 1$の範囲にあることを証明します。

コーシー=シュワルツの不等式

証明には、wikipedia:コーシー=シュワルツの不等式である以下の不等式を使います。まずはこれを証明しましょう。

$$ \left( \sum_{i=0} ^n a_i ^2 \right) \left( \sum_{i=0} ^n b_i ^2 \right) \geq \left( \sum_{i=0} ^n a_i b_i \right) ^2 $$

関数 $f_i(x)=(a_ix-b_i) ^2$ と定義します。 この時、$\sum_{i=0}^n f_i(x)\geq 0$を展開すると以下のような式が導けます。

$$ \begin{eqnarray} \sum_{i=0}^n f_i(x) &=& \sum_{i=0}^n (a_ix-b_i) ^2 \newline &=& \sum_{i=0}^n \left(a_i ^2 x ^2 - 2 a_i b_ix+b_i ^2 \right) \newline &=& \left( \sum_{i=0} ^n a_i ^2 \right) x ^2-2 \left(\sum_{i=0} ^n a_i b_i \right) x+\sum_{i=0} ^n b_i ^2 \geq 0 \end{eqnarray} $$

これは$x$に関する二次方程式であり、また、非負の数になります。このため、当該方程式の判別式 $\frac{D}{4}$ について $\frac{D}{4} \leq 0$となります。 これを計算すると、以下の通りコーシー=シュワルツの不等式が導けます。

$$ \begin{eqnarray} \frac{D}{4} = \left( \sum_{i=0} ^n a_i b_i \right) ^2 - \left( \sum_{i=0} ^n a_i ^2 \right) \left( \sum_{i=0} ^n b_i ^2 \right) &\leq& 0 \newline \therefore \left( \sum_{i=0} ^n a_i ^2 \right) \left( \sum_{i=0} ^n b_i ^2 \right) &\geq& \left( \sum_{i=0} ^n a_i b_i \right) ^2 \end{eqnarray} $$

相関係数の範囲

上述のコーシー=シュワルツの不等式を変形してみましょう。

$$ \begin{eqnarray} & & \left(\sum_{i=0} ^n a_i b_i \right) ^2 \leq \left( \sum_{i=0}^n a_i ^2 \right) \left( \sum_{i=0} ^n b_i ^2 \right) \newline &\Leftrightarrow& 1 \geq \frac{ \left( \sum_{i=0} ^n a_i b_i \right) ^2 }{ \left( \sum_{i=0} ^n a_i ^2 \right) \left( \sum_{i=0} ^n b_i ^2\right) } \end{eqnarray} $$

ここで、$a_i=x_i-\bar{x}$、$b_i=y_i-\bar{y}$を代入します。

$$ \begin{eqnarray} & & 1 \geq \frac{ \left( \sum_{i=0} ^n a_i b_i \right) ^2 }{ \left( \sum_{i=0} ^n a_i ^2 \right) \left( \sum_{i=0} ^n b_i ^2\right) } \newline &\Leftrightarrow& 1 \geq \frac{ \left( \sum_{i=0} ^n (x_i - \bar{x} ) (y_i - \bar{y} ) \right) ^2 }{ \left( \sum_{i=0} ^n (x_i - \bar{x} ) ^2 \right) \left( \sum_{i=0} ^n (y_i - \bar{y} ) ^2\right) } \newline &\Leftrightarrow& 1 \geq \frac{ \left( \frac{1}{n} \sum_{i=0} ^n (x_i - \bar{x} ) (y_i - \bar{y} ) \right) ^2 }{ \left( \frac{1}{n} \sum_{i=0} ^n (x_i - \bar{x} ) ^2 \right) \left( \frac{1}{n} \sum_{i=0} ^n (y_i - \bar{y} ) ^2\right) } = \left( \frac{ s_{xy} }{ s_x s_y } \right) ^2 = r ^2 \newline &\Leftrightarrow& -1 \leq r \leq 1 \end{eqnarray} $$

上式の中で$s_{xy}$は$x$と$y$の共分散、$s_{x}, s_{y}$はそれぞれ$x$と$y$の標準偏差を意味します。上式の通り、相関係数$r$は$-1$から$1$の範囲をとります。