理系学生日記

おまえはいつまで学生気分なのか

RAGとFine-Tuning:LLMが持っていない独自の知識を使うには

ai

最近はどこもかしこもGenerative AIの情報で溢れるようになってきています。その中でもよく聞くのが、LLMが未学習である情報(例えば、企業等の組織内のデータ)を学習させ、それを元にした利用がしたいという話です。 LLMが未学習の知識を利用したい RAG (…

チェビシェフの不等式と大数の弱法則

チェビシェフの不等式 期待値$\mu$、分散$\sigma ^{2}$を持つ確率分布に従う確率変数$X$があるとします。 このとき任意の実数$k > 0$をとり、分散$\sigma ^{2}$の定義式から不等式を導いていくと、次のような不等式が導けます。これをチェビシェフの不等式と…

自由度$(m _{1}, m _{2})$であるF分布の確率密度関数を導出する

独立に$\chi ^{2} (m _{1}), \chi ^{2} (m _{2})$に従う2つの確率変数 $W _{1}, W _{2}$があるとき、それぞれをその自由度で割って比をとった $$ F = \frac{\frac{ W _{1}}{ m _{1}}}{ \frac{W _{2}}{ m _{2}}} $$ が従う分布を、自由度$(m _{1}, m _{2})$の…

VSCodeでNerd Fontsを表示させる

Nerd Fontsとは何か Nerd Fontsは、著名なプログラミング用フォントにグリフをまとめて追加したものです。 GitHub - FortAwesome/Font-Awesome: The iconic SVG, font, and CSS toolkitやGitHub - primer/octicons: A scalable set of icons handcrafted wit…

$t$分布の期待値と分散

今日は$t$分布の期待値と分散を求めます。 期待値 分散 積分項を求める 分散を求める 自由度が$m$である$t$分布の確率密度関数は次の式でした。 $$ f _{m} (t) = \frac{\Gamma \left( \frac{m+1}{2} \right)}{\sqrt{\pi m} \cdot \Gamma \left( \frac{m}{2} …

Starshipを使ってシェルプロンプトをカスタマイズする

重い腰を上げてWindowsマシンでCygwin環境を構築することにしたとき、やはり気になるのがシェル環境です。 As-is Starship プリセット プロンプト設定の何が嬉しいのか 設定 As-is 僕のメインPCであるMacでは、以下のようなプロンプトを使っていました。 Pow…

t分布の確率密度関数を導出する

統計学では、$t$分布と呼ばれる分布もよく現れます。 この$t$分布は、独立な2つの確率変数$Z \sim N(0,1)$、$W \sim \chi ^{2} (m)$の従うときに、次の$t$が従う分布とされます。 $$ t = \frac{Z}{\sqrt{\frac{W}{m}}} $$ この$t$分布の確率密度関数は次のよ…

2023年にCygwinについてまとめる

WSL2が使えない Windows PCでは諸事情でVPNを張っているんですが、これまた諸事情でVPNを張るとWindows上で動くVMからインターネットに出ることができません。 これで課題になるのがWSL2の利用です。WSL2ではVMの中でLinuxカーネルを動かす形態を取るので、…

カイ二乗分布の期待値と分散

自由度$n$のカイ二乗分布の期待値と分散を求めてみましょう。 前提として、自由度$n$のカイ二乗分布の確率密度関数は次の式で表せました。 $$ f _{n}(x) = \frac{1}{2 ^{\frac{n}{2}}\Gamma \left(\frac{n}{2}\right)} x ^{\frac{n}{2}-1} e ^{-\frac{x}{2}}…

標準正規分布に従う$n$個の確率変数の二乗和が、自由度$n$のカイ二乗分布に従うことの証明

今日はいよいよ、以下の命題の証明です。 なぜ標準正規分布に従う確率変数の二乗和が$\chi ^{2}$分布に従うのか。学生時代からモヤモヤしていた事柄が、長い年月を経てようやくわかります。 確率変数$Z _{1}, Z _{2}, \cdots, Z _{N}$が互いに独立に標準正規…

ベータ関数とガンマ関数の関係

統計学では$\chi ^2$分布に関して次のことが言えるとされています。 確率変数$Z _{1}, Z _{2}, \cdots, Z _{n}$が互いに独立に標準正規分布$N(0,1)$にしたがうとき、$W=\sum _{i=1} ^{n} Z _{i} ^{2}$の従う分布を自由度$n$の$\chi ^{2}$分布と呼び、$\chi ^…

ガンマ関数の性質

$Z \sim \chi ^2 (n)$を証明するために 統計学では$\chi ^2$分布という確率分布を学びます。この分布は、次のような文脈であらわれます。 確率変数$Z _{1}, Z _{2}, \cdots, Z _{n}$が互いに独立に標準正規分布$N(0,1)$にしたがうとき、$W=\sum _{i=1} ^{n} …

Cookieによる情報取得同意の要否と改正個人情報保護法

Cookieによる情報取得に関して同意を求めるポップアップが、多くのページで実装されるようになりました。 (GDPRではなく)改正個人情報保護法の観点で、Cookieの扱いに関して調べたことをまとめます。正しいのかは確信がないけれど。 私の中の結論としては…

2変量正規分布に関する条件付き分布の確率密度関数、期待値と分散

前回のエントリで導出した2変量正規分布に関する確率密度関数は次の式でした。 $$ f(X) = \frac{1}{2\pi \sqrt{\sigma _{x} ^{2} \sigma _{y} ^{2} (1 - \rho ^{2})}} \exp{\left( -\frac{1}{2(1 - \rho ^{2})} \left( \left( \frac{x - \mu _{x}}{\sigma _{…

2変量正規分布の確率密度関数を導出する

昨日のエントリにて、多変量の場合の確率密度関数の形を求めました。 $$ f(X) = \frac{1}{(2 \pi) ^{ \frac{n}{2}}\sqrt{|\Sigma|}} \exp{ \left( -\frac{ (X - \mathbf{\mu} ) ^T \Sigma ^{-1} (X - \mu)}{2} \right) } $$ ここで$X$は多変量であるような確…

多変量正規分布の確率密度関数の導出

標準正規分布に関する同時確率密度関数 標準正規分布からの一般化 $AA ^{T}$の意味 多変量正規分布の確率密度関数 標準正規分布に関する同時確率密度関数 まず、標準正規分布に従う、互いに独立な確率変数$Z_i \sim N(0, 1)$を考えます。 この時、これら$Z_i…

確率変数の共分散と相関係数

今日は、2つの離散的確率変数$X$と$Y$の和$X+Y$について考えます。 一部は独立な確率変数の和が従う確率分布と、正規分布の再生性 - 理系学生日記で行ったことですが改めて。 期待値 ここでは、2つの確率変数$X$と$Y$がとる値とその確率との対応を示す$P(X =…

指数分布の導出、その期待値と分散

ポアソン分布は、単位時間あたり平均$\lambda$回発生する事象について、ある時間中に発生する回数$X$が従う確率分布でした。 この「ある事象」が初めて発生するまでの待ち時間$W$が従う確率分布を「指数分布」と呼びます。今日は、この指数分布の確率密度関…

独立な確率変数の和が従う確率分布と、正規分布の再生性

$X \sim N(\mu_1, \sigma_1 ^2)$、$Y \sim N(\mu_2, \sigma_2 ^2)$なる、互いに独立な2つの確率変数$X,Y$があったときを考えます。その和$X+Y$はどのような確率分布に従うでしょうか。 結論としては$X+Y \sim N(\mu_1+\mu_2, \sigma_1 ^2 + \sigma_2 ^2)$と…

正規分布の標準化

確率変数$X$が正規分布$N(\mu,\sigma ^2)$に従うとき、$X$の一次関数$aX+b$は正規分布$N(a\mu + b, a ^2 \sigma ^2)$に従うと言う性質があります。 今日はまずこれを証明し、その上で$Z=\frac{X-\mu}{\sigma}$と言う変換が$N(0,1)$の標準正規分布に従うとい…

正規分布の確率密度関数を導出する

よく知られているように、期待値$\mu$、分散$\sigma ^2$である正規分布$N(\mu,\sigma ^2)$に従う確率密度関数は以下の式で表現されます。 $$ f(x)=\frac{1}{\sqrt{ 2\pi \sigma ^2} } e ^{ - \frac{(x - \mu) ^2}{2\sigma ^2}} $$ これまでずっと、この式を…

幾何分布の導出、期待値と分散

今日は幾何分布です。 幾何分布 成功の確率が$p$であるベルヌーイ試行を繰り返したとき、初めて成功するまでの試行回数$X$が従う確率分布を幾何分布と言います。 ベルヌーイ試行については二項分布の期待値と分散 - 理系学生日記の通り、以下のような試行の…

ポアソン分布の確率関数を導出する

ポアソン分布は、単位時間あたり平均$\lambda$回発生する事象のある時間中に発生する回数$X$が従う確率分布になります。 身近な例としては以下のようなものがあるでしょうか。 1ページあたり平均2個のタイプミスがある本で、ある1ページに何個のタイプミスが…

二項分布の期待値と分散

今日は懐かしの二項分布です。 ベルヌーイ分布 ベルヌーイ試行 ベルヌーイ分布 ベルヌーイ分布の期待値、分散 二項分布 二項分布の期待値・分散 二項分布を学ぶ上では、まずベルヌーイ分布を押さえておかなければなりません。 ベルヌーイ分布 ベルヌーイ試行…

確率分布の基礎

確率の公理 確率論にはwikipedia:確率の公理と呼ばれる公理があります。簡単に言えば以下を成立させる$P(\cdot)$を確率として定義すると言うものです。 任意の事象$A$に関して、$0\leq P(A) \leq 1$ 全事象$\Omega$に対して$P(\Omega)=1$ 違いに排反な事象$A…

ラスパイレス式とパーシェ式

指数とは何か 時系列データの解析において、ある時点を基準として時系列間の値の大きさを揃えることを指数化と呼びます。 前年比や前月比のように観察する時点とその直前の時点の値の比率をとったものが「連環指数」です。一方で、観察しようとするすべての…

時系列データにおける周期の求め方

往々にして、時系列データには周期性があります。例えばスーパーの売り上げの周期は年になることが想定されるし、野球の月別観客動員数も同様でしょう。 ではこの周期が必ずしも自明でないときに、どのようにしてその周期を求めれば良いのでしょうか。 自己…

時系列解析

横軸が時間となるような時系列データは、以下の3つに分解できるという考え方があります。 種類 略 意味 傾向変動 (循環変動を含む) TC (Trend-cycle variation) 基本的な長期にわたる動きを表す変動 季節変動 S (Seasonal variation) 一年を周期として循環を…

はてなブログのMarkdownモードでMathJaxを使うときの困りごと

勉強中の統計学の話を本ブログに垂れ流し始めた関係上、エントリ内に数式を記述することが増えてきました。数式は綺麗に表示して欲しいので、当然ながら$\TeX$記法で書きたいわけです。 Tex記法で書く はてな記法のうちのtex記法で書く 直接MathJaxで書く Ma…

伸び率に対する平均は算術平均ではなく幾何平均を使うべき

指数化 ある時点$t$における値$y_t$と、次の時点$t+1$における値$y_{t+1}$を比較することは多く行われます。例えばMAUが前年度に対してどれだけ伸びた、四半期の売り上げがどれだけ伸びた、というようなケースですね。 こういったときの比較として、単純な差…