理系学生日記

おまえはいつまで学生気分なのか

統計学:相関係数と線形回帰

平均でだけ議論されるロジックを目にして違和感を感じていたものの、自分の知識がそれ以上に達せず、もやもやした思いをずっと抱えていました。今こそ統計学をやり直す時期です。 と言うわけで、基本的なところから学び直していきます。

とりあえず直近の目標としては統計検定2級に合格したい。

2変数データの記述

$x$と$y$のような2つの変数があるとき、これらの値の関係を2次元平面上に表したものが散布図(Scatter plot)。 散布図によって、相関関係が視覚的に表現できる。

  • どちらかが大きくなると、他方も大きくなるのが「正の相関」
  • どちらかが大きくなると、他方は小さくなるのが「負の相関」
  • どちらでもなく特別な関係のない場合「無相関」

散布図は一般に2つの変数間の関係を表現する一方、3番目のカテゴリ変数によってデータをグループ化した散布図が「層別した散布図」(Stratified scatter plot)。以下の層別した散布図の例は、What is Stratification? Stratified Analysis | ASQから引用したもの。

さらに、単に$x$と$y$のとる値をプロットするのではなく、それらをいくつかの階級に分けた集計表を、クロス集計表と呼ぶ。 クロス集計表は、名義尺度1あるいは順序尺度2のデータを表すのに優れている。

相関係数

変数間の相関の強さについて示すのが相関係数で、相関係数を求めるために必要なのが共分散。 共分散は、2つの変数の偏差(各データポイントとその変数の平均値との差)の積を平均したもの。$ n$を観測値の数としたとき、以下で定義される。

$$ s_{xy} \displaystyle =\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) $$

共分散により、2つの変数がどの程度同時に変動するか、および変数間の関係の方向性を理解できる。

一方で、共分散は単位によって大きさが変わるため扱いづらい。共分散を両変数の標準偏差で割ることにより単位に依存しなくなるとともに、-1から1までの値を取るようになり、扱いが容易になる。これが相関係数$r_{xy}$となる。

$$ r_{xy} \displaystyle =\frac{s_{xy}}{s_{x}s_{y}} $$

ここで、$s_{x}$、$s_{y}$はそれぞれ$x$と$y$の標準偏差を意味する。

一方で、相関係数が大きいからといって、因果関係が証明されるわけではない。統計学的に見て2つの変数間に相関関係が見られるものの、それらが実際には因果関係を持たない現象を擬相関 (Spurious correlation)と呼ぶ。例えば、ある地域でのアイスクリームの売上と溺死事故の数には相関が見られる場合もある。これは2つの変数以外の共通の原因(この場合、暑さ)によって説明され得る。

偏相関係数

3つ以上の変数がある場合に、2つの変数間の直接的な関係をより正確に理解するのに役立つのか偏相関 (Partial correlation)。

例えば、年齢($x$)、教育レベル($y$)、収入($z$)という3つの変数を考るとき。教育レベルと収入は一般的に相関がある。また、年齢と収入、年齢と教育レベルにも相関がある可能性もあり得る。つまり、教育レベルと収入の間の相関は、部分的には年齢という共通の因子による可能性がある。

この場合、年齢の影響を除いた上で、教育レベルと収入の相関を評価したい場合に偏相関$r_{(yz\dot x)}$が用いられる。偏相関係数の定義は以下となり、-1から1の値を取る。

$$ r_{(yz\dot x)} \displaystyle =\frac{r_{yz}-r_{xy}r_{xz}}{\sqrt{1-r^2_{xy}}\sqrt{1-r^2_{xz}}} $$

偏相関係数は、擬相関を探るための1つのツールとなる。

回帰

変数間の関係を探索し予測するためのツールが回帰。1つの独立変数(説明変数)と1つの従属変数(目的変数)間の関係をモデル化するのが単回帰分析で、2つ以上の独立変数と1つの従属変数間の関係をモデル化するのが重回帰分析。

独立変数と従属変数の関係を直線としてモデル化する回帰が線形回帰であり、非線形関数でモデル化するのが非線形回帰となる。

線形回帰

例えば独立変数$x$と$y$の間に、$y=\alpha + \beta x$と言う直線関係があると考えた時、この直線を回帰直線と呼ぶ。そして$\alpha$、$\beta$を回帰変数と呼ぶ。 観測値$y_i$と回帰直線からの予測値$\hat{y_i}$との差$e_i=y_i-\hat{y_i}$を残差と呼ぶ。

$n$個の観測値に対する残差平方和$S(\hat{\alpha},\hat{\beta})=\sum_{i=1}^{n} e_{i}^2$を最小化するような回帰係数を求めれば、良質な予測を可能とする回帰直線が得られる。

回帰係数の導出

では、回帰係数を導出してみる。

$S(\hat{\alpha},\hat{\beta})$は$\hat{\alpha}$、$\hat{\beta}$それぞれに対する二次関数であるので、最小値は存在する。以後、$S(\hat{\alpha},\hat{\beta})$を$S$と表現するとして、$S$の最小値をもたらす$\hat{\alpha}$、$\hat{\beta}$は以下を満足する。

$$ \begin{eqnarray} \frac{\partial{S}}{\partial \hat{\alpha}} &=& 0 \tag{1} \label{a} \newline \frac{\partial{S}}{\partial \hat{\beta}} &=& 0 \tag{2} \label{b} \end{eqnarray} $$

まずは$\eqref{a}$式を解く。

$$ \begin{eqnarray} \displaystyle \frac{\partial{S}}{\partial \hat{\alpha}} &=& \sum 2(y_i-\hat{\alpha}-\hat{\beta x_i})(-1) \newline &=& -2\sum \left(y_i-\hat{\alpha}-\hat{\beta}x_i \right) = 0 \end{eqnarray} $$

これを整理すると、以下のように$\alpha$と$X, Y$の期待値との関係式が導ける。

$$ \begin{eqnarray} \displaystyle \sum y_i-n\hat{\alpha}-\hat{\beta}x_i &=& 0 \newline \therefore \hat{\alpha} &=& \frac{\sum y_i-\hat{\beta}\sum x_i}{n} = E(Y)-\hat{\beta} E(X) \tag{3} \label{c} \end{eqnarray} $$

次に$\eqref{b}$式を解く。

$$ \begin{eqnarray} \frac{\partial S}{\partial \hat{\beta}} &=& \sum 2(y_i-\hat{\alpha}-\hat{\beta x_i})(- x_i) \newline &=& -2\sum (x_i y_i - \hat{\alpha} x_i - \hat{\beta} x_{i}^{2} ) = 0 \end{eqnarray} $$

この式を整理すると、以下のようになる。

$$ \sum x_i y_i -\hat{\alpha} \sum x_i - \hat{\beta}\sum x_{i}^{2} = 0 $$

ここで、$\eqref{c}$式を代入する。

$$ \sum x_i y_i -(E(Y)-\hat{\beta}E(X))\sum x_i - \hat{\beta}\sum x_{i}^{2} = 0 $$

これを$\hat{\beta}$について整理する。

$$ \begin{eqnarray} \therefore \hat{\beta} &=& \frac{\sum x_{i} y_{i} - E(Y)\sum x_{i}}{\sum x_{i}^{2} - E(X)\sum x_{i}}\newline &=& \frac{\frac{1}{n}\sum x_i y_i - E(Y)\frac{1}{n}\sum x_i}{\frac{1}{n}\sum x_i^2 - E(X)\frac{1}{n}\sum x_i} \newline &=& \frac{E(XY)-E(X)E(Y)}{E(X^{2})-E(X)^{2}} \tag{4} \label{d} \end{eqnarray} $$

ここで期待値の線形性を自明のものとすると、分散$\text{Var}(X)$、共分散$\text{Cov}(X,Y)$は以下のように表現できる。

$$ \begin{eqnarray} \text{Var}(X) &=& E\left( (X-E(X))^2 \right) \newline &=& E\left( X^2-2XE(X)+E(X)^2 \right) \newline &=& E(X^2) - 2E(X)^2 + E(X)^2 \newline &=& E(X^2) - E(X)^2 \tag{5} \label{e} \end{eqnarray} $$

$$ \begin{eqnarray} \text{Cov}(X,Y) &=& E\left( (X-E(X))(Y-E(Y)) \right) \newline &=& E(XY)-E(X)E(Y)-E(X)E(Y) + E(X)E(Y) \newline &=& E(XY)-E(X)E(Y) \tag{6} \label{f} \end{eqnarray} $$

$\eqref{d}$式に対し、$\eqref{e}$および$\eqref{f}$式を代入すると$\hat{\beta}$の値は以下のように表現できる。

$$ \hat{\beta}=\frac{\text{Cov}(XY)}{\text{Var}(X)} $$

よって、残差平方和$S(\hat{\alpha},\hat{\beta})$を最小にする回帰係数は以下のようになる。

$$ \begin{eqnarray} \hat{\alpha} &=& E(Y)-\hat{\beta} E(X) \newline \hat{\beta} &=& \frac{E(XY)-E(X)E(Y)}{E(X^{2})-E(X)^{2}} = \frac{\text{Cov}(XY)}{\text{Var}(X)} \end{eqnarray} $$

$\hat{\beta}$はもう少し整理すると$X,Y$の対称形で表現できるけど、また後日。


  1. 名義尺度は、データがカテゴリーやグループに分けられるが、これらのカテゴリ間には順序や階級が存在しない場合に使用される。例えば、人々の血液型(A型、B型、O型、AB型)、男性と女性の性別、居住地(都市名や州名など)などが名義尺度の例。
  2. 順序尺度は、データがカテゴリに分けられ、かつそれらのカテゴリが明確な順序や階級を持つ場合に使用される。しかし、カテゴリ間の距離は等しくないか、またはその距離を測定できない。例えば、製品やサービスへの満足度(「非常に満足」「満足」「普通」「不満」「非常に不満」)、教育レベル(「小学校卒業」「中学校卒業」「高校卒業」「大学卒業」)などが順序尺度の例。