理系学生日記

おまえはいつまで学生気分なのか

確率変数の共分散と相関係数

今日は、2つの離散的確率変数$X$と$Y$の和$X+Y$について考えます。 一部は独立な確率変数の和が従う確率分布と、正規分布の再生性 - 理系学生日記で行ったことですが改めて。

期待値

ここでは、2つの確率変数$X$と$Y$がとる値とその確率との対応を示す$P(X = x_i, Y = y_j) = f(x_i, y_j)$を$X$と$Y$の同時確率関数とします。

そうすると次の関数が定義でき、これをそれぞれ$X$と$Y$の周辺確率関数と呼びます。

$$ \begin{cases} f_x (x_i) \equiv P(X = x_i) = \sum _j f(x_i, y_j) \newline f_y (y_j) \equiv P(Y = y_j) = \sum _i f(x_i, y_j) \newline \end{cases} $$

これら同時確率密度関数および$X$と$Y$それぞれの周辺確率関数を用いると、 $X+Y$の期待値は$X$の期待値 $\mu_x$ と$Y$の期待値 $\mu_y$ の和であることがわかります。

$$ \begin{eqnarray} E[X+Y] &=& \sum _i \sum _j (x_i + y_j)f(x_i, y_j) \newline &=& \sum _i \sum _j x_i f(x_i, y_j) + \sum _i \sum _j y_j f(x_i, y_j) \newline &=& \sum _i \left( x_i \left(\sum _j f(x_i, y_j) \right) \right)+ \sum _j \left( y_j \left( \sum _i f(x_i, y_j) \right) \right) \newline &=& \sum _i x_i f_x (x_i) + \sum _j y_j f_y (y_j) \newline &=& E[X] + E[Y] = \mu _x + \mu _y \end{eqnarray} $$

$X$と$Y$の相関に依らず、加法性が成り立っていますね。

分散

では分散はどうでしょうか。$X$、$Y$のそれぞれの分散を$\sigma _x ^2$、$\sigma _y ^2$として、定義から計算してみます。

$$ \begin{eqnarray} V[X+Y] &=& E[ \left( (X+Y) - E[X+Y] \right) ^2 ] \newline &=& E[ \left( (X+Y) - (\mu _x + \mu _y ) \right) ^2 ] \newline &=& E[ (X+Y) ^2 - 2 (X+Y)(\mu _ x + \mu _y) ^2 + (\mu _x + \mu _y ) ^2] \newline &=& E[ X ^2 + 2 XY + Y ^2 - 2X\mu _x - 2X \mu _y - 2Y \mu _x - 2Y \mu _y + \mu _x ^ 2 + 2 \mu _x \mu _y + \mu _y ^ 2] \newline &=& E[ (X - \mu _x ^2) + (Y - \mu _y ^2) + 2(X - \mu _x)(Y - \mu _y)] \newline &=& E[(X - \mu _x ^2)] + E[(Y - \mu _y ^2)] + 2E[(X - \mu _x)(Y - \mu _y)] \newline &=& V[X] + V[Y] + 2E[(X - \mu _x)(Y - \mu _y)] \end{eqnarray} $$

第3項はまさに$X$と$Y$の共分散です。

$$ \text{Cov}[X, Y] \equiv E[(X - \mu _x)(Y - \mu _y)] $$

従って、確率変数$X$と$Y$の和$X+Y$の分散は、共分散を用いて次のように表せます。

$$ V[X+Y] = V[X] + V[Y] + 2\cdot \text{Cov}[X, Y] $$

ここで$X$と$Y$の相関係数は$\rho _{xy}$を次のように定義されます。

$$ \rho _{xy} = \frac{\text{Cov}[X, Y]}{\sqrt{V[X] V[Y]}} $$

この相関係数$\rho _{xy}$を用いると、$X+Y$の分散はさらに次の式としても表現できますね。

$$ V[X+Y] = V[X] + V[Y] + \text{Cov}[X, Y] \newline = \sigma _x ^2 + \sigma _y ^2 + 2 \rho _{xy} \sigma _x \sigma _y $$

これらの式が表現しているのは、分散の加法性は第三項が0でなければ成立しないということです。 この条件を満たすためには、相関係数が0、あるいは、$X$あるいは$Y$いずれかの標準偏差が0でなければならないですね。