バカと思われるかもしれませんが
ふと思ったのだけれど、中央値と平均値ってどうやって使い分けたらいいんだろうなーとか思いました。じつはぼく、よくわかっていない。
なんとなく中央値のほうが便利ぽい気もする
データの一般的な傾向とやらを見るのに使うものには(算術)平均値だとか中央値だとか最頻値だとかある。でもこんがらがるから最頻値は無視しよう。いっちゃんよく使われるのはもちろん平均値で、総務省統計局とかいうよく分からないところにいくと、こんな資料がおいてあったりする。この中には平均という言葉しか見えない感じなので、平均値が一番偉いみたいな印象。
でも、これはよくいわれていることっぽいけど、平均はへんな値が出ると弱い。たとえば、資産の平均とりますーとか言って、ぼくとぼくの同級生が3人、そしてビル・ゲイツがサンプルとして選ばれたりするともうたいへんで、たとえばぼくたちの資産が格差社会な感じを出して0円、10万円、10万円、20万円として、ビル・ゲイツの資産がとりあえず1兆とすると、ぼくたちの資産の平均は2000億8万円です!!!みたいなことになる。これではぼくも、ぼくの同級生も平均からあまりに離れていて、社会の厳しさに泣いてしまいます。これは相当極端な例だけども、実際資産を超持ってる人が平均を超つり上げて、ほとんどの人は平均以下の資産しかもってないよ >< みたいなのはよく見られる感じです。
でも中央値使うと、ビル・ゲイツとかの資産にほとんど影響されないので、あーぼくは日本国民の真ん中くらいの資産を持ってるんだーとか、個人的に分かりやすい気がしたりする。平均値って総和とサンプル数あれば出るじゃん。でも中央値は全データが提示されないと計算できないので、その意味でも中央値出すのは意味がありそうな気もする。
でも、シミュレーション結果の中央値は変な気がする
でもちょっと考えてみて、シミュレーション結果の中央値というのはちょっとおかしい気がするなーとかも思いました。これは直感的なもので特に根拠があるわけじゃない。でもやっぱ、論文とかで「100回のシミュレーション結果の中央値を示します!」とか神々しくいわれても、やっぱりなんか違和感があるのです。。
標本平均は不偏統計量だからって話もあるかな、とかも思ったのだけれど、標本平均は母平均の不偏統計量なわけで、結局平均が最初から良い、という話になって堂々巡りな感じもする。ていうか試行回数を大きくすると、中央値は平均値に近づくんじゃね?近づかないかな。
結論
よくわからない。