statistics
大数の弱法則の次は中心極限定理です。 中心極限定理は非常によく知られた定理ですが、高専・大学とこの辺りは「そういうものだ」して、しっかりした証明を学ぶことはなかったように記憶しています。今回せっかく統計を学ぶのならと中心極限定理の証明を理解…
チェビシェフの不等式 期待値$\mu$、分散$\sigma ^{2}$を持つ確率分布に従う確率変数$X$があるとします。 このとき任意の実数$k > 0$をとり、分散$\sigma ^{2}$の定義式から不等式を導いていくと、次のような不等式が導けます。これをチェビシェフの不等式と…
独立に$\chi ^{2} (m _{1}), \chi ^{2} (m _{2})$に従う2つの確率変数 $W _{1}, W _{2}$があるとき、それぞれをその自由度で割って比をとった $$ F = \frac{\frac{ W _{1}}{ m _{1}}}{ \frac{W _{2}}{ m _{2}}} $$ が従う分布を、自由度$(m _{1}, m _{2})$の…
今日は$t$分布の期待値と分散を求めます。 期待値 分散 積分項を求める 分散を求める 自由度が$m$である$t$分布の確率密度関数は次の式でした。 $$ f _{m} (t) = \frac{\Gamma \left( \frac{m+1}{2} \right)}{\sqrt{\pi m} \cdot \Gamma \left( \frac{m}{2} …
統計学では、$t$分布と呼ばれる分布もよく現れます。 この$t$分布は、独立な2つの確率変数$Z \sim N(0,1)$、$W \sim \chi ^{2} (m)$の従うときに、次の$t$が従う分布とされます。 $$ t = \frac{Z}{\sqrt{\frac{W}{m}}} $$ この$t$分布の確率密度関数は次のよ…
自由度$n$のカイ二乗分布の期待値と分散を求めてみましょう。 前提として、自由度$n$のカイ二乗分布の確率密度関数は次の式で表せました。 $$ f _{n}(x) = \frac{1}{2 ^{\frac{n}{2}}\Gamma \left(\frac{n}{2}\right)} x ^{\frac{n}{2}-1} e ^{-\frac{x}{2}}…
統計学では$\chi ^2$分布に関して次のことが言えるとされています。 確率変数$Z _{1}, Z _{2}, \cdots, Z _{n}$が互いに独立に標準正規分布$N(0,1)$にしたがうとき、$W=\sum _{i=1} ^{n} Z _{i} ^{2}$の従う分布を自由度$n$の$\chi ^{2}$分布と呼び、$\chi ^…
前回のエントリで導出した2変量正規分布に関する確率密度関数は次の式でした。 $$ f(X) = \frac{1}{2\pi \sqrt{\sigma _{x} ^{2} \sigma _{y} ^{2} (1 - \rho ^{2})}} \exp{\left( -\frac{1}{2(1 - \rho ^{2})} \left( \left( \frac{x - \mu _{x}}{\sigma _{…
昨日のエントリにて、多変量の場合の確率密度関数の形を求めました。 $$ f(X) = \frac{1}{(2 \pi) ^{ \frac{n}{2}}\sqrt{|\Sigma|}} \exp{ \left( -\frac{ (X - \mathbf{\mu} ) ^T \Sigma ^{-1} (X - \mu)}{2} \right) } $$ ここで$X$は多変量であるような確…
標準正規分布に関する同時確率密度関数 標準正規分布からの一般化 $AA ^{T}$の意味 多変量正規分布の確率密度関数 標準正規分布に関する同時確率密度関数 まず、標準正規分布に従う、互いに独立な確率変数$Z_i \sim N(0, 1)$を考えます。 この時、これら$Z_i…
ポアソン分布は、単位時間あたり平均$\lambda$回発生する事象について、ある時間中に発生する回数$X$が従う確率分布でした。 この「ある事象」が初めて発生するまでの待ち時間$W$が従う確率分布を「指数分布」と呼びます。今日は、この指数分布の確率密度関…
$X \sim N(\mu_1, \sigma_1 ^2)$、$Y \sim N(\mu_2, \sigma_2 ^2)$なる、互いに独立な2つの確率変数$X,Y$があったときを考えます。その和$X+Y$はどのような確率分布に従うでしょうか。 結論としては$X+Y \sim N(\mu_1+\mu_2, \sigma_1 ^2 + \sigma_2 ^2)$と…
よく知られているように、期待値$\mu$、分散$\sigma ^2$である正規分布$N(\mu,\sigma ^2)$に従う確率密度関数は以下の式で表現されます。 $$ f(x)=\frac{1}{\sqrt{ 2\pi \sigma ^2} } e ^{ - \frac{(x - \mu) ^2}{2\sigma ^2}} $$ これまでずっと、この式を…
今日は幾何分布です。 幾何分布 成功の確率が$p$であるベルヌーイ試行を繰り返したとき、初めて成功するまでの試行回数$X$が従う確率分布を幾何分布と言います。 ベルヌーイ試行については二項分布の期待値と分散 - 理系学生日記の通り、以下のような試行の…
ポアソン分布は、単位時間あたり平均$\lambda$回発生する事象のある時間中に発生する回数$X$が従う確率分布になります。 身近な例としては以下のようなものがあるでしょうか。 1ページあたり平均2個のタイプミスがある本で、ある1ページに何個のタイプミスが…
今日は懐かしの二項分布です。 ベルヌーイ分布 ベルヌーイ試行 ベルヌーイ分布 ベルヌーイ分布の期待値、分散 二項分布 二項分布の期待値・分散 二項分布を学ぶ上では、まずベルヌーイ分布を押さえておかなければなりません。 ベルヌーイ分布 ベルヌーイ試行…
確率の公理 確率論にはwikipedia:確率の公理と呼ばれる公理があります。簡単に言えば以下を成立させる$P(\cdot)$を確率として定義すると言うものです。 任意の事象$A$に関して、$0\leq P(A) \leq 1$ 全事象$\Omega$に対して$P(\Omega)=1$ 違いに排反な事象$A…
指数とは何か 時系列データの解析において、ある時点を基準として時系列間の値の大きさを揃えることを指数化と呼びます。 前年比や前月比のように観察する時点とその直前の時点の値の比率をとったものが「連環指数」です。一方で、観察しようとするすべての…
往々にして、時系列データには周期性があります。例えばスーパーの売り上げの周期は年になることが想定されるし、野球の月別観客動員数も同様でしょう。 ではこの周期が必ずしも自明でないときに、どのようにしてその周期を求めれば良いのでしょうか。 自己…
横軸が時間となるような時系列データは、以下の3つに分解できるという考え方があります。 種類 略 意味 傾向変動 (循環変動を含む) TC (Trend-cycle variation) 基本的な長期にわたる動きを表す変動 季節変動 S (Seasonal variation) 一年を周期として循環を…
指数化 ある時点$t$における値$y_t$と、次の時点$t+1$における値$y_{t+1}$を比較することは多く行われます。例えばMAUが前年度に対してどれだけ伸びた、四半期の売り上げがどれだけ伸びた、というようなケースですね。 こういったときの比較として、単純な差…
これまでstatisticsカテゴリで記述してきた統計学の知識は、およそ高校・大学の範囲で学んだものでした。 しかし、今日の「オッズ比」は初めて学ぶものだったので、色々と面白かったです。 オッズ比を具体例で考える オッズ比の定義は、ある事象が起きる確率…
平方和の分解 回帰直線 $\hat{y}=\hat{\alpha}+\hat{\beta} x$ に対して、応答変数$y$の変動の大きさを表す平方和を$S_T$とおく。 $$ \begin{eqnarray} S_T &=& \sum (y_i - \bar{y}) ^2 \newline &=& \sum \left( (y_i - \hat{y_i} ) + (\hat{y_i} - \bar{y…
線形回帰において、予測値$\hat{y_i}=\hat{\alpha}+\hat{\beta}x_i$と残差$e_i=y_i-\hat{y_i}$の相関係数は0(無相関)でとされています。今日はこれを証明してみましょう。 証明すべきもの 予測値の平均 残差の平均 共分散 この事実が意味するところ 証明す…
前回、統計学:相関係数と線形回帰 - 理系学生日記で相関係数$r$の定義式を示しました。今回は、この$r$が$-1 \leq r \leq 1$の範囲にあることを証明します。 コーシー=シュワルツの不等式 証明には、wikipedia:コーシー=シュワルツの不等式である以下の不…
平均でだけ議論されるロジックを目にして違和感を感じていたものの、自分の知識がそれ以上に達せず、もやもやした思いをずっと抱えていました。今こそ統計学をやり直す時期です。 と言うわけで、基本的なところから学び直していきます。 とりあえず直近の目…