これまでstatisticsカテゴリで記述してきた統計学の知識は、およそ高校・大学の範囲で学んだものでした。 しかし、今日の「オッズ比」は初めて学ぶものだったので、色々と面白かったです。
オッズ比を具体例で考える
オッズ比の定義は、ある事象が起きる確率$p$の、その事象が起きない確率$(1-p)$に対する比を指します。この使い慣れない定義がどこでよく使われるかというと、医療統計です。
正直なかなかイメージがつきにくいので、具体的な例で考えましょう。 下記のようなクロス集計表を考えます。
喫煙者 | 非喫煙者 | |
---|---|---|
癌発症 | $a$ | $b$ |
癌発症せず | $c$ | $d$ |
リスク比
このとき、喫煙することによる癌発症リスクは$\frac{a}{a+c}$、喫煙しないことによる癌発症リスクは$\frac{b}{b+d}$になります。結果として、喫煙しないことに比べて喫煙することがどれだけ癌発症リスクを引き上げるかというと、以下の形になりますね。これをリスク比と言います。
$$ \frac{\frac{a}{a+c}}{\frac{b}{b+d}}=\frac{a(b+d)}{b(a+c)} $$
リスク比はわかりやすい概念なのですが、医療統計上問題があります。それは、$a+b$や$c+d$の値、すなわち集めた研究データの数によって、値が異なってしまう点です。研究者Aと研究者Bが同じ研究を行なっていても、被験者の数が異なっていればその結果も異なる公算が大きい。
オッズ比
ここでオッズ比を考えます。喫煙者が癌を発症する確率は$p=\frac{a}{a+c}$ですから、そのオッズは以下のように計算できます。
$$ \frac{p}{1-p}=\frac{\frac{a}{a+c}}{\frac{c}{a+c}}=\frac{a}{c} $$
同様に、非喫煙者が癌を発症した確率は$\frac{b}{d}$となります。結果として、喫煙しないことに対する喫煙することのオッズ比は以下の式となります。
$$ \frac{\frac{a}{c}}{\frac{b}{d}}=\frac{ad}{bc} $$
ここの式には被験者の合計数は関係しないため、いわゆる後ろ向き研究(ケースコントロール研究とも呼ばれるようです)ではこのオッズ比が使われます。
オッズ比の使われ方
このオッズ比がなぜ統計で使われるのかというと、「何が」結果に強く関連しているのかを考える時に定量的な知見をもたらしてくれるためです。
先の例では、「癌になる」という結果に対して、喫煙という行為がどう影響するのかをオッズ比として示せました。では「質の良い睡眠」は「癌になる」という結果に対してどう作用するのかを同様にオッズ比として示せれば、喫煙と睡眠はどちらが強く影響するのかを定量的に比較できます。
僕の文脈だと、A/Bテストを複数行った時にどの施策が最も有効そうなのか、といった判断に用いることができそうです。
なぜ「オッズ」と呼ばれるのか
$\frac{p}{1-p}$がなぜオッズと呼ばれるのか。
賭け事を考えた時、以下のように諸元を置きます。
- 敗北確率を$p$
- 胴元に払う掛け金を$m$
- 勝った時に得られる金を$M$ (掛け金を考慮に入れた額とします)
このとき、イカサマのない賭け事では全体の期待値は$0$になるはずなので、以下の等式が成立します。
$$ (1-p)M-pm=0 $$ これを変形すると以下の式になります。左辺はオッズ、右辺は勝った時に掛け金を何倍にできるのかを示す値で、これでオッズの定義と賭け事が繋がりますね。
$$ \frac{p}{1-p}=\frac{M}{m} $$