理系学生日記

おまえはいつまで学生気分なのか

残差平方和を最小にする回帰直線の決定係数は相関係数の2乗に等しい

平方和の分解

回帰直線 $\hat{y}=\hat{\alpha}+\hat{\beta} x$ に対して、応答変数$y$の変動の大きさを表す平方和を$S_T$とおく。

$$ \begin{eqnarray} S_T &=& \sum (y_i - \bar{y}) ^2 \newline &=& \sum \left( (y_i - \hat{y_i} ) + (\hat{y_i} - \bar{y} ) \right) ^2 \newline &=& \sum ( y_i - \hat{y_i} ) ^2 + 2 \sum (y_i - \hat{y_i} )(\hat{y_i} - \bar{y} ) + \sum (\hat{y_i} - \bar{y}) ^2 \end{eqnarray} $$

ここで線形回帰における残差と予測値の間の相関係数は0の議論から、以下のことが言える。

$$ s_{\hat{y} e}=\frac{1}{n} \sum (\hat{y_i}-\bar{y})e_i=\frac{1}{n}\sum (\hat{y_i}-\bar{y})(y_i - \hat{y_i} )=0 $$

故に$S_T$の式の第二項は$0$になる。

これを考慮すると、以下のように$S_T$は回帰による変動の大きさ$S_R=\sum (\hat{y_i} - \bar{y}) ^2$と残差平方和$S_e = \sum ( y_i - \hat{y_i} ) ^2$の和として表せる。これを平方和の分解という。

$$ \begin{eqnarray} S_T &=& \sum ( y_i - \hat{y_i} ) ^2 + \sum (\hat{y_i} - \bar{y}) ^2 \newline &=& S_e + S_R \end{eqnarray} $$

決定係数

$R ^2 = \frac{S_R}{S_T}$を決定係数と呼ぶ。 定義式の通り、決定係数は$y$の変動のうち回帰直線で説明できる変動がどのくらいかを示すものになる。

この式は以下のようにも表現できる。

$$ \begin{eqnarray} R ^2 &=& \frac{S_R}{S_T} \newline &=& \frac{S_T - S_e}{S_T} \newline &=& 1 - \frac{S_e}{S_T} \end{eqnarray} $$

決定係数と相関係数の関係

残差平方和を最小とする回帰直線を前提とする。$\hat{y_i}=\hat{\alpha}+\hat{\beta} x_i$、$\bar{y} = \hat{\alpha} + \hat{\beta} \bar{x}$を考慮すると、決定係数$R ^2$は以下のように表せる。

$$ \begin{eqnarray} R ^2 &=& \frac{S_R}{S_T} \newline &=& \frac{\sum (\hat{y_i} - \bar{y} ) ^2}{\sum (y_i - \bar{y} ) ^2} \newline &=& \frac{\frac{1}{n} \sum \left( (\hat{\alpha}+\hat{\beta} x_i ) - (\hat{\alpha} + \hat{\beta} \bar{x} ) \right) ^2 }{\frac{1}{n} \sum (y_i - \bar{y} ) ^2 } \newline &=& \frac{\beta ^2}{s_{yy}} \frac{1}{n}\sum (x_i - \bar{x}) ^2 \newline &=& \beta ^2 \frac{s_{xx}}{s_{yy}} \newline \end{eqnarray} $$

ここで $\beta = \frac{s_{xy} }{s_{xx}}$を代入する。

$$ \begin{eqnarray} R ^2 &=& \left( \frac{s_{xy} }{s_{xx}} \right) ^2 \frac{s_{xx}}{s_{yy}} \newline &=& \frac{s_{xy} ^2}{s_{xx}s_{yy}} \newline &=& \left ( \frac{s_{xy} }{s_{x}s_{y}} \right) ^2 = r ^2 \end{eqnarray} $$

これより、決定係数は相関係数の2乗に等しい。