理系学生日記

おまえはいつまで学生気分なのか

多変量正規分布の確率密度関数の導出

標準正規分布に関する同時確率密度関数

まず、標準正規分布に従う、互いに独立な確率変数$Z_i \sim N(0, 1)$を考えます。 この時、これら$Z_i$に関する同時確率密度関数は次の式になります。

$$ \begin{eqnarray} f(z_1, z_2, \cdots, z_n) &=& \prod _{i=1} ^n \frac{1}{\sqrt{2 \pi}} e ^{-\frac{z _i ^2}{2}} \newline &=& \frac{1}{ (2 \pi) ^{\frac{n}{2}} } \exp{ \left( -\frac{\sum _{i=1} ^ n z _i ^2}{2} \right) } \end{eqnarray} $$

ここで列ベクトル$\mathbf{z}=[z_1, z_2, \cdots, z_n ] ^T$を考えると、上の式は次のように記述できます。これが、多次元へと拡張した標準正規分布の同時確率密度関数ということですね。

$$ f(\mathbf{z}) = \frac{1}{ (2 \pi) ^{\frac{n}{2}} } \exp{ \left( -\frac{\mathbf{z} ^T \mathbf{z}}{2} \right) } $$

標準正規分布からの一般化

上の式はあくまで「標準正規分布に従う」という前提をおいていました。これでは一般性がありませんので、次のようなアフィン変換を考え、一般的な正規分布に拡張していきます。

$$ \begin{cases} \mathbf{z} = A ^{-1}(X - \mathbf{\mu}) \newline Y = Y \end{cases} $$

この時のヤコビアン$|J|$は次のように計算できます。

$$ |J| = \begin{vmatrix} \frac{\partial \mathbf{z}}{\partial X} & \frac{\partial \mathbf{z}}{\partial Y} \newline \frac{\partial Y}{\partial X} & \frac{\partial Y}{\partial Y} \end{vmatrix} = \begin{vmatrix} A ^{-1} & O \newline O & I \end{vmatrix} = | A ^{-1} | = \frac{1}{|A|} $$

列ベクトル$X$に関し、$f(\mathbf{z})$を$g(X)$へ変換しましょう。この時、$g(X) = f(\mathbf{z})|J|$となるため、次のように変形していくことができます。

$$ \begin{eqnarray} g(X) &=& f(\mathbf{z})|J| \newline &=& \frac{1}{|A|} \cdot \frac{1}{ (2 \pi) ^{\frac{n}{2}} } \exp{ \left( -\frac{\left( A ^{-1} (X - \mathbf{\mu})\right) ^T (A ^{-1} (X - \mu))}{2} \right) } \newline &=& \frac{1}{ (2 \pi) ^{\frac{n}{2}}|A|} \exp{ \left( -\frac{ (X - \mathbf{\mu} ) ^T (A ^ {-1}) ^{T} A ^{-1} (X - \mu)}{2} \right) } \end{eqnarray} $$

ここで$(A ^ {-1}) ^{T} A ^{-1}$は次のように整理しておきます。

$$ (A ^ {-1}) ^{T} A ^{-1} = (A ^{T}) ^{-1} A ^{-1} = (A A ^{T}) ^{-1} $$

なお、$z_i \in \mathbf{z}$は互いに独立という前提を置いていましたが、アフィン変換により、$x_i \in X$については独立性は失われています。

$AA ^{T}$の意味

ここで$\mathbf{z}$の分散を計算してみましょう。 $\mathbf{z}$の各要素$z_i$は標準正規分布$N(0,1)$に従いますから、この値は単位行列になります。

$$ \begin{eqnarray} V[\mathbf{z}] &=& E[(\mathbf{z} - O)(\mathbf{z} - O) ^{T}] \newline &=& E[\mathbf{z} \mathbf{z} ^{T}] = I \end{eqnarray} $$

また、$X$の分散も計算してみます。ここで$X = A\mathbf{z} + \mathbf{\mu}$であることに注意しましょう。

$$ \begin{eqnarray} V[X] &=& E[ (X - \mathbf{\mu})(X - \mathbf{\mu}) ^{T}] \newline &=& E[ (A\mathbf{z}) (A\mathbf{z}) ^{T}] \newline &=& E[ A \mathbf{z} \mathbf{z} ^{T} A ^{T}] \newline &=& A E[\mathbf{z} \mathbf{z} ^{T}] A ^{T}\newline &=& A A ^{T} \end{eqnarray} $$

つまり、$A A ^{T}$は$X$に関するwikipedia:分散共分散行列を示しているわけですね。この分散共分散行列を$\Sigma$と表現することにします。

$$ V[X] \equiv \Sigma $$

また、$A A ^{T}=\Sigma$であることを使えば、$|A|$の形も変形できます。

$$ |A| = \sqrt{ |A A ^{T} |} = \sqrt{ |\Sigma |} $$

多変量正規分布の確率密度関数

そうすると、$g(X)$は次のようになります。

$$ \begin{eqnarray} g(X) &=& \frac{1}{ (2 \pi) ^{\frac{n}{2}}|A|} \exp{ \left( -\frac{ (X - \mathbf{\mu} ) ^T (A ^{T} A) ^{-1} (X - \mu)}{2} \right) } \newline &=& \frac{1}{(2 \pi) ^{ \frac{n}{2}}\sqrt{|\Sigma|}} \exp{ \left( -\frac{ (X - \mathbf{\mu} ) ^T \Sigma ^{-1} (X - \mu)}{2} \right) } \end{eqnarray} $$

これが、多変量正規分布の確率密度関数の式ですね。