理系学生日記

おまえはいつまで学生気分なのか

2023-01-01から1年間の記事一覧

正規分布の確率密度関数を導出する

よく知られているように、期待値$\mu$、分散$\sigma ^2$である正規分布$N(\mu,\sigma ^2)$に従う確率密度関数は以下の式で表現されます。 $$ f(x)=\frac{1}{\sqrt{ 2\pi \sigma ^2} } e ^{ - \frac{(x - \mu) ^2}{2\sigma ^2}} $$ これまでずっと、この式を…

幾何分布の導出、期待値と分散

今日は幾何分布です。 幾何分布 成功の確率が$p$であるベルヌーイ試行を繰り返したとき、初めて成功するまでの試行回数$X$が従う確率分布を幾何分布と言います。 ベルヌーイ試行については二項分布の期待値と分散 - 理系学生日記の通り、以下のような試行の…

ポアソン分布の確率関数を導出する

ポアソン分布は、単位時間あたり平均$\lambda$回発生する事象のある時間中に発生する回数$X$が従う確率分布になります。 身近な例としては以下のようなものがあるでしょうか。 1ページあたり平均2個のタイプミスがある本で、ある1ページに何個のタイプミスが…

二項分布の期待値と分散

今日は懐かしの二項分布です。 ベルヌーイ分布 ベルヌーイ試行 ベルヌーイ分布 ベルヌーイ分布の期待値、分散 二項分布 二項分布の期待値・分散 二項分布を学ぶ上では、まずベルヌーイ分布を押さえておかなければなりません。 ベルヌーイ分布 ベルヌーイ試行…

確率分布の基礎

確率の公理 確率論にはwikipedia:確率の公理と呼ばれる公理があります。簡単に言えば以下を成立させる$P(\cdot)$を確率として定義すると言うものです。 任意の事象$A$に関して、$0\leq P(A) \leq 1$ 全事象$\Omega$に対して$P(\Omega)=1$ 違いに排反な事象$A…

ラスパイレス式とパーシェ式

指数とは何か 時系列データの解析において、ある時点を基準として時系列間の値の大きさを揃えることを指数化と呼びます。 前年比や前月比のように観察する時点とその直前の時点の値の比率をとったものが「連環指数」です。一方で、観察しようとするすべての…

時系列データにおける周期の求め方

往々にして、時系列データには周期性があります。例えばスーパーの売り上げの周期は年になることが想定されるし、野球の月別観客動員数も同様でしょう。 ではこの周期が必ずしも自明でないときに、どのようにしてその周期を求めれば良いのでしょうか。 自己…

時系列解析

横軸が時間となるような時系列データは、以下の3つに分解できるという考え方があります。 種類 略 意味 傾向変動 (循環変動を含む) TC (Trend-cycle variation) 基本的な長期にわたる動きを表す変動 季節変動 S (Seasonal variation) 一年を周期として循環を…

はてなブログのMarkdownモードでMathJaxを使うときの困りごと

勉強中の統計学の話を本ブログに垂れ流し始めた関係上、エントリ内に数式を記述することが増えてきました。数式は綺麗に表示して欲しいので、当然ながら$\TeX$記法で書きたいわけです。 Tex記法で書く はてな記法のうちのtex記法で書く 直接MathJaxで書く Ma…

伸び率に対する平均は算術平均ではなく幾何平均を使うべき

指数化 ある時点$t$における値$y_t$と、次の時点$t+1$における値$y_{t+1}$を比較することは多く行われます。例えばMAUが前年度に対してどれだけ伸びた、四半期の売り上げがどれだけ伸びた、というようなケースですね。 こういったときの比較として、単純な差…

オッズ比を理解する

これまでstatisticsカテゴリで記述してきた統計学の知識は、およそ高校・大学の範囲で学んだものでした。 しかし、今日の「オッズ比」は初めて学ぶものだったので、色々と面白かったです。 オッズ比を具体例で考える オッズ比の定義は、ある事象が起きる確率…

npm auditのaudit-levelとCVSSの関係

npm auditにはaudit-levelオプションがありますが、このオプションで渡せるSeverityとCVSSにはどのような関係があるのでしょうか。 この興味が湧いたのは、運用設計においてどの程度のCVSS値を持つ脆弱性から真剣に対応するかを定めようとしているからです。…

残差平方和を最小にする回帰直線の決定係数は相関係数の2乗に等しい

平方和の分解 回帰直線 $\hat{y}=\hat{\alpha}+\hat{\beta} x$ に対して、応答変数$y$の変動の大きさを表す平方和を$S_T$とおく。 $$ \begin{eqnarray} S_T &=& \sum (y_i - \bar{y}) ^2 \newline &=& \sum \left( (y_i - \hat{y_i} ) + (\hat{y_i} - \bar{y…

線形回帰における残差と予測値の間の相関係数は0

線形回帰において、予測値$\hat{y_i}=\hat{\alpha}+\hat{\beta}x_i$と残差$e_i=y_i-\hat{y_i}$の相関係数は0(無相関)でとされています。今日はこれを証明してみましょう。 証明すべきもの 予測値の平均 残差の平均 共分散 この事実が意味するところ 証明す…

なぜ相関係数の絶対値は1以下なのか

前回、統計学:相関係数と線形回帰 - 理系学生日記で相関係数$r$の定義式を示しました。今回は、この$r$が$-1 \leq r \leq 1$の範囲にあることを証明します。 コーシー=シュワルツの不等式 証明には、wikipedia:コーシー=シュワルツの不等式である以下の不…

ブランチ戦略の中でGitLab Flowを使っている理由

ブランチ戦略 チームの中で何度も話したりする内容をなんとか整理したいです。 ブランチ戦略 ブランチ戦略とは何か ブランチ戦略の種類 ぼくのコンテキスト なぜ複数の環境面が存在するのか 複数の環境面を前提とした時のブランチ戦略 Git-Flowは一般的なWeb…

有効期限のあるPostgreSQLユーザを動的に作成する効率的な方法を考える

データベースは機密情報が格納される場所であり、その重要性からできるだけ限定されたユーザだけがアクセスできるようにしたいと考えるのは当然です。一歩進めて、理想的にはデータベースへのアクセスに必要なユーザを静的に設定するのではなく、都度必要に…

統計学:相関係数と線形回帰

平均でだけ議論されるロジックを目にして違和感を感じていたものの、自分の知識がそれ以上に達せず、もやもやした思いをずっと抱えていました。今こそ統計学をやり直す時期です。 と言うわけで、基本的なところから学び直していきます。 とりあえず直近の目…

OpenAI(GPT)のEmbeddingsを利用して原始的なChatBotを作る

会社の中の雑談で、Embeddings APIを使ってChatBot作れるよね、という話をしていました。 僕はこのあたり初心者なのですが、まずは動かすもの作ったらイメージが沸くだろうと、とりあえず実装してみます。 Embeddingsとは何か Embeddings API コスト 入力ト…

初めてのGPTのAPI(OpenAI API):コストの理解とTypeScriptでの呼び出し

TL;DR 初めてOpenAI APIを使ってみました。 まず、OpenAIのHTTP APIとNode.jsライブラリopenai-nodeの使用方法について学び、その上でTypeScriptを使ってAPIを実際に呼び出してみました。その過程でAPIの使用料金と、それがどのようにモデルや入出力トークン…

GeoToolsを使って地図上に座標点・連結線を表示する

GeoToolsで扱う地図上の要素 今日はGeoToolsを使って地図上に点や線を引いてみます。 最初に結果を示しておくと、以下のようになります。 これは、札幌時計台、大通公園、さっぽろテレビ塔を順に直線で結んだものですね。 GeoToolsで扱う地図上の要素 基礎知…

GISを学びながらOpenStreetMapの地図をJavaで描画してみる

最近は地図と向き合う業務も出てきており、色々と学ばないといけません。 基礎知識 GIS 測地系 ITRF系 JGD2011 WGS系 OpenStreetMap OpenStreetMapのデータを使って地図をJavaで描画してみる タイルサーバの利用 地図の描画 地図の絞り込み まとめ 基礎知識 …

PostgreSQLにおけるCOLLATIONとソート

PostgreSQLを使っているとき、日本語がうまくソートできない。これはいわゆるCOLLATION (照合順序)の設定によります。 色々とこの順番を設定できるため、今回その設定を試してみました。 基礎知識 Postgresqlでは、それぞれのデータタイプはcollationを持っ…

ノートPCスタンドの導入による肩こりの解消

ぼくは元々相当な肩こり持ちだったのですが、2月にノートPCスタンドを導入してから、肩こりに悩まされる頻度が相当減りました。 ぼくが使っているのはBoYataのこちらです。 BoYata タブレットスタンド ipad スタンド ipad proスタンド ipad air スタンド ノ…

なぜプライバシーポリシーを公開しなければならないのか

law

事業を立ち上げる上で、プライバシーポリシーを公開しろという話を聞きます。 この根拠が何なのか、不勉強にして知らなかったので、その辺りを調べてみました。 ちなみに、私は専門家ではないし、一時間くらいググっただけです。 「プライバシーポリシー」公…

機密情報を参照させないPostgreSQLのカラムレベル権限設定

本番環境のシステム運用を考えたとき、データベースの中身を参照せざるを得ないことは多くあります。 データは貴重な情報資産であるため、運用者に対してすら、そのデータ参照を厳しく制限せねばなりません。 例えば要配慮個人情報を運用者に対して簡単に参…

JMeterまわりの設定について

このゴールディンウィークに何をしていたのかというと、ずっとJMeterを勉強しています。 自分が参画しているプロジェクトにおいて性能テストを計画した際、もともとはabを使ってシステムをいじめてしまえば良いと考えていました。一方で、計画作業をしている…

Route 53で取得したドメインを別のAWSアカウントに移管する

Route 53で登録した自分のドメインを、別のAWSアカウントへ移管する必要が生じました。 この方法については、異なる AWS アカウントへのドメインの移管で紹介されています。 今回は、AWS CLIを利用して移管を実施しました。マネジメントコンソールからは実行…

トラックボールをMX ERGOに変えた

MX570は名機として有名なトラックボールです。 僕自身も初めて使ったトラックボールで最初こそはボール操作に戸惑ったものの、2-3日で手に馴染み、手を移動させないで良いということの素晴らしさに気づかせてくれました。 そういうわけで、業務・プライベー…

タイムマネジメントによって人生をコントロールする試みは必然的に失敗する/「限りある時間の使い方」を読みました

「限りある時間の使い方」を読みました。 限りある時間の使い方作者:オリバー・バークマンかんき出版Amazon タイムマネジメントによって人生をコントロールしようとする試みは必然的に失敗する 「今」を大事にする 読んでから この本を知ったのは、生産性を…