理系学生日記

おまえはいつまで学生気分なのか

t分布の確率密度関数を導出する

統計学では、$t$分布と呼ばれる分布もよく現れます。 この$t$分布は、独立な2つの確率変数$Z \sim N(0,1)$、$W \sim \chi ^{2} (m)$の従うときに、次の$t$が従う分布とされます。 $$ t = \frac{Z}{\sqrt{\frac{W}{m}}} $$ この$t$分布の確率密度関数は次のよ…

2023年にCygwinについてまとめる

WSL2が使えない Windows PCでは諸事情でVPNを張っているんですが、これまた諸事情でVPNを張るとWindows上で動くVMからインターネットに出ることができません。 これで課題になるのがWSL2の利用です。WSL2ではVMの中でLinuxカーネルを動かす形態を取るので、…

カイ二乗分布の期待値と分散

自由度$n$のカイ二乗分布の期待値と分散を求めてみましょう。 前提として、自由度$n$のカイ二乗分布の確率密度関数は次の式で表せました。 $$ f _{n}(x) = \frac{1}{2 ^{\frac{n}{2}}\Gamma \left(\frac{n}{2}\right)} x ^{\frac{n}{2}-1} e ^{-\frac{x}{2}}…

標準正規分布に従う$n$個の確率変数の二乗和が、自由度$n$のカイ二乗分布に従うことの証明

今日はいよいよ、以下の命題の証明です。 なぜ標準正規分布に従う確率変数の二乗和が$\chi ^{2}$分布に従うのか。学生時代からモヤモヤしていた事柄が、長い年月を経てようやくわかります。 確率変数$Z _{1}, Z _{2}, \cdots, Z _{N}$が互いに独立に標準正規…

ベータ関数とガンマ関数の関係

統計学では$\chi ^2$分布に関して次のことが言えるとされています。 確率変数$Z _{1}, Z _{2}, \cdots, Z _{n}$が互いに独立に標準正規分布$N(0,1)$にしたがうとき、$W=\sum _{i=1} ^{n} Z _{i} ^{2}$の従う分布を自由度$n$の$\chi ^{2}$分布と呼び、$\chi ^…

ガンマ関数の性質

$Z \sim \chi ^2 (n)$を証明するために 統計学では$\chi ^2$分布という確率分布を学びます。この分布は、次のような文脈であらわれます。 確率変数$Z _{1}, Z _{2}, \cdots, Z _{n}$が互いに独立に標準正規分布$N(0,1)$にしたがうとき、$W=\sum _{i=1} ^{n} …

Cookieによる情報取得同意の要否と改正個人情報保護法

Cookieによる情報取得に関して同意を求めるポップアップが、多くのページで実装されるようになりました。 (GDPRではなく)改正個人情報保護法の観点で、Cookieの扱いに関して調べたことをまとめます。正しいのかは確信がないけれど。 私の中の結論としては…

2変量正規分布に関する条件付き分布の確率密度関数、期待値と分散

前回のエントリで導出した2変量正規分布に関する確率密度関数は次の式でした。 $$ f(X) = \frac{1}{2\pi \sqrt{\sigma _{x} ^{2} \sigma _{y} ^{2} (1 - \rho ^{2})}} \exp{\left( -\frac{1}{2(1 - \rho ^{2})} \left( \left( \frac{x - \mu _{x}}{\sigma _{…

2変量正規分布の確率密度関数を導出する

昨日のエントリにて、多変量の場合の確率密度関数の形を求めました。 $$ f(X) = \frac{1}{(2 \pi) ^{ \frac{n}{2}}\sqrt{|\Sigma|}} \exp{ \left( -\frac{ (X - \mathbf{\mu} ) ^T \Sigma ^{-1} (X - \mu)}{2} \right) } $$ ここで$X$は多変量であるような確…

多変量正規分布の確率密度関数の導出

標準正規分布に関する同時確率密度関数 標準正規分布からの一般化 $AA ^{T}$の意味 多変量正規分布の確率密度関数 標準正規分布に関する同時確率密度関数 まず、標準正規分布に従う、互いに独立な確率変数$Z_i \sim N(0, 1)$を考えます。 この時、これら$Z_i…

確率変数の共分散と相関係数

今日は、2つの離散的確率変数$X$と$Y$の和$X+Y$について考えます。 一部は独立な確率変数の和が従う確率分布と、正規分布の再生性 - 理系学生日記で行ったことですが改めて。 期待値 ここでは、2つの確率変数$X$と$Y$がとる値とその確率との対応を示す$P(X =…

指数分布の導出、その期待値と分散

ポアソン分布は、単位時間あたり平均$\lambda$回発生する事象について、ある時間中に発生する回数$X$が従う確率分布でした。 この「ある事象」が初めて発生するまでの待ち時間$W$が従う確率分布を「指数分布」と呼びます。今日は、この指数分布の確率密度関…

独立な確率変数の和が従う確率分布と、正規分布の再生性

$X \sim N(\mu_1, \sigma_1 ^2)$、$Y \sim N(\mu_2, \sigma_2 ^2)$なる、互いに独立な2つの確率変数$X,Y$があったときを考えます。その和$X+Y$はどのような確率分布に従うでしょうか。 結論としては$X+Y \sim N(\mu_1+\mu_2, \sigma_1 ^2 + \sigma_2 ^2)$と…

正規分布の標準化

確率変数$X$が正規分布$N(\mu,\sigma ^2)$に従うとき、$X$の一次関数$aX+b$は正規分布$N(a\mu + b, a ^2 \sigma ^2)$に従うと言う性質があります。 今日はまずこれを証明し、その上で$Z=\frac{X-\mu}{\sigma}$と言う変換が$N(0,1)$の標準正規分布に従うとい…

正規分布の確率密度関数を導出する

よく知られているように、期待値$\mu$、分散$\sigma ^2$である正規分布$N(\mu,\sigma ^2)$に従う確率密度関数は以下の式で表現されます。 $$ f(x)=\frac{1}{\sqrt{ 2\pi \sigma ^2} } e ^{ - \frac{(x - \mu) ^2}{2\sigma ^2}} $$ これまでずっと、この式を…

幾何分布の導出、期待値と分散

今日は幾何分布です。 幾何分布 成功の確率が$p$であるベルヌーイ試行を繰り返したとき、初めて成功するまでの試行回数$X$が従う確率分布を幾何分布と言います。 ベルヌーイ試行については二項分布の期待値と分散 - 理系学生日記の通り、以下のような試行の…

ポアソン分布の確率関数を導出する

ポアソン分布は、単位時間あたり平均$\lambda$回発生する事象のある時間中に発生する回数$X$が従う確率分布になります。 身近な例としては以下のようなものがあるでしょうか。 1ページあたり平均2個のタイプミスがある本で、ある1ページに何個のタイプミスが…

二項分布の期待値と分散

今日は懐かしの二項分布です。 ベルヌーイ分布 ベルヌーイ試行 ベルヌーイ分布 ベルヌーイ分布の期待値、分散 二項分布 二項分布の期待値・分散 二項分布を学ぶ上では、まずベルヌーイ分布を押さえておかなければなりません。 ベルヌーイ分布 ベルヌーイ試行…

確率分布の基礎

確率の公理 確率論にはwikipedia:確率の公理と呼ばれる公理があります。簡単に言えば以下を成立させる$P(\cdot)$を確率として定義すると言うものです。 任意の事象$A$に関して、$0\leq P(A) \leq 1$ 全事象$\Omega$に対して$P(\Omega)=1$ 違いに排反な事象$A…

ラスパイレス式とパーシェ式

指数とは何か 時系列データの解析において、ある時点を基準として時系列間の値の大きさを揃えることを指数化と呼びます。 前年比や前月比のように観察する時点とその直前の時点の値の比率をとったものが「連環指数」です。一方で、観察しようとするすべての…

時系列データにおける周期の求め方

往々にして、時系列データには周期性があります。例えばスーパーの売り上げの周期は年になることが想定されるし、野球の月別観客動員数も同様でしょう。 ではこの周期が必ずしも自明でないときに、どのようにしてその周期を求めれば良いのでしょうか。 自己…

時系列解析

横軸が時間となるような時系列データは、以下の3つに分解できるという考え方があります。 種類 略 意味 傾向変動 (循環変動を含む) TC (Trend-cycle variation) 基本的な長期にわたる動きを表す変動 季節変動 S (Seasonal variation) 一年を周期として循環を…

はてなブログのMarkdownモードでMathJaxを使うときの困りごと

勉強中の統計学の話を本ブログに垂れ流し始めた関係上、エントリ内に数式を記述することが増えてきました。数式は綺麗に表示して欲しいので、当然ながら$\TeX$記法で書きたいわけです。 Tex記法で書く はてな記法のうちのtex記法で書く 直接MathJaxで書く Ma…

伸び率に対する平均は算術平均ではなく幾何平均を使うべき

指数化 ある時点$t$における値$y_t$と、次の時点$t+1$における値$y_{t+1}$を比較することは多く行われます。例えばMAUが前年度に対してどれだけ伸びた、四半期の売り上げがどれだけ伸びた、というようなケースですね。 こういったときの比較として、単純な差…

オッズ比を理解する

これまでstatisticsカテゴリで記述してきた統計学の知識は、およそ高校・大学の範囲で学んだものでした。 しかし、今日の「オッズ比」は初めて学ぶものだったので、色々と面白かったです。 オッズ比を具体例で考える オッズ比の定義は、ある事象が起きる確率…

npm auditのaudit-levelとCVSSの関係

npm auditにはaudit-levelオプションがありますが、このオプションで渡せるSeverityとCVSSにはどのような関係があるのでしょうか。 この興味が湧いたのは、運用設計においてどの程度のCVSS値を持つ脆弱性から真剣に対応するかを定めようとしているからです。…

残差平方和を最小にする回帰直線の決定係数は相関係数の2乗に等しい

平方和の分解 回帰直線 $\hat{y}=\hat{\alpha}+\hat{\beta} x$ に対して、応答変数$y$の変動の大きさを表す平方和を$S_T$とおく。 $$ \begin{eqnarray} S_T &=& \sum (y_i - \bar{y}) ^2 \newline &=& \sum \left( (y_i - \hat{y_i} ) + (\hat{y_i} - \bar{y…

線形回帰における残差と予測値の間の相関係数は0

線形回帰において、予測値$\hat{y_i}=\hat{\alpha}+\hat{\beta}x_i$と残差$e_i=y_i-\hat{y_i}$の相関係数は0(無相関)でとされています。今日はこれを証明してみましょう。 証明すべきもの 予測値の平均 残差の平均 共分散 この事実が意味するところ 証明す…

なぜ相関係数の絶対値は1以下なのか

前回、統計学:相関係数と線形回帰 - 理系学生日記で相関係数$r$の定義式を示しました。今回は、この$r$が$-1 \leq r \leq 1$の範囲にあることを証明します。 コーシー=シュワルツの不等式 証明には、wikipedia:コーシー=シュワルツの不等式である以下の不…

ブランチ戦略の中でGitLab Flowを使っている理由

ブランチ戦略 チームの中で何度も話したりする内容をなんとか整理したいです。 ブランチ戦略 ブランチ戦略とは何か ブランチ戦略の種類 ぼくのコンテキスト なぜ複数の環境面が存在するのか 複数の環境面を前提とした時のブランチ戦略 Git-Flowは一般的なWeb…