線形回帰において、予測値$\hat{y_i}=\hat{\alpha}+\hat{\beta}x_i$と残差$e_i=y_i-\hat{y_i}$の相関係数は0(無相関)でとされています。今日はこれを証明してみましょう。
証明すべきもの
相関係数$r_{\hat{y}e}$は$\frac{s_{\hat{y} e}}{s_{\hat{y}} s_e}$で表現されます。これが$0$ということは、分子にある予測値$\hat{y_i}$と残差$e_i$の間の共分散$s_{\hat{y} e}$が0であることを証明すれば良いでしょう。
ここで、当該の共分散は以下の式で定義されます。
$$ s_{\hat{y} e}=\frac{1}{n}\sum (\hat{y_i}-\bar{\hat{y}})(e_i - \bar{e}) $$
予測値の平均
上式に出てくる、$\bar{\hat{y}}$を計算してみましょう。
$$ \begin{eqnarray} \bar{\hat{y}} &=& \frac{1}{n} \sum \hat{y_i} \newline &=& \frac{1}{n} \sum \left( \hat{\alpha}+\hat{\beta} x_i \right) \newline &=& \hat{\alpha} + \frac{\hat{\beta}}{n} \sum x_i \newline &=& \hat{\alpha} + \hat{\beta}\bar{x} = \bar{y} \end{eqnarray} $$
このように、予測値$\hat{y}$の平均$\bar{\hat{y}}$は、説明変数$y$の平均$\bar{y}$と同じであることが分かります。
残差の平均
同様に、残差の平均$\bar{e}$も計算してみましょう。
$$ \bar{e} = \frac{1}{n} \sum e_i = \frac{1}{n} \sum \left( y_i - \hat{y_i} \right) = \bar{y} - \bar{\hat{y}} = 0 $$
先ほどの議論の通り、予測値$\hat{y}$の平均$\bar{\hat{y}}$は説明変数$y$の平均$\bar{y}$と等しいため、結果として残差の平均$\bar{e}=0$であることもわかります。
共分散
これらを先ほどの共分散の式に代入してみましょう。
$$ \begin{eqnarray} s_{\hat{y} e} &=& \frac{1}{n}\sum (\hat{y_i}-\bar{\hat{y}})(e_i - \bar{e}) \newline &=& \frac{1}{n} \sum (\hat{y_i}-\bar{y})e_i \newline &=& \frac{1}{n} \sum (\hat{\alpha} + \hat{\beta} x_i - (\bar{\alpha}+\hat{\beta} \bar{x}))(y_i - \hat{y_i}) \newline &=& \frac{\bar{\beta}}{n} \sum (x_i-\bar{x})(y_i - (\hat{\alpha} + \hat{\beta}x_i)) \end{eqnarray} $$
ここで統計学:相関係数と線形回帰の議論から、回帰係数$\hat{\alpha}=\bar{y}-\hat{\beta}\bar{x}$の関係があります。これを代入します。
$$ \begin{eqnarray} s_{\hat{y} e} &=& \frac{\bar{\beta}}{n} \sum (x_i-\bar{x})(y_i - (\bar{y} - \hat{\beta}\bar{x} + \hat{\beta} x_i)) \newline &=& \bar{\beta}\left( \frac{1}{n} \sum (x_i - \bar{x} )( y_i - \bar{y} ) - \frac{\hat{\beta}}{n} \sum ( x_i - \bar{x}) ^ 2\right) \newline &=& \bar{\beta}( s_{xy} - \hat{\beta} s_{xx}) \end{eqnarray} $$
ここで回帰係数$\hat{\beta}=\frac{s_{xx}}{s_{xy}}$であり、これを代入すると$s_{\hat{y} e}=0$となります。
以上より、予測値$\hat{y_i} = \hat{\alpha}+\hat{\beta} x_i$と残差$e_i=y_i - \hat{y_i}$の相関係数は0であることが示せました。
この事実が意味するところ
残差を確認した結果その残差が一定のパターンを持つ場合、回帰モデルが何らかの情報・システマティックな情報を捉えられていないことを意味します。より踏み込むと、推定した回帰式が適切でない可能性もあるということです。