正規分布の特殊性

 正規分布はもっともよく知られ使われる統計分布である。それは間違いない。
ではあるけど、どこまで普遍的か=なんにでも当てはまるかというと「?」だ。

以下素人談義であることをお断りしておく。

正規分布の式はこうだ。

ここで、平均値μ 標準偏差σ。

典型的な曲線は釣鐘状になる、ベルカーブと呼ばれる由縁である。


 その始まりはガウスの誤差曲線である。天体観測の誤差にまつわる法則性をガウスが抽出してみせた。そのロジックは微小な誤差要因がランダムに積み上がる時にどんな性質をもつかを数理的に示している。
すでにラプラスの定理をそのなかに含んでいた。*1
 それを一般化したのが中心極限定理であろう。これが普遍性の根拠の一つとなる。
正規分布を統計分布の主神に祭り上げたのがラプラスであろう。

やがてベルギー人ケトレが現れる。この学者は正規分布を駆使してあらゆる社会法則を読み解けると考え、それを唱導した。
 意外な反響者が物理学に現れる。マックスウェルだ。彼の気体分子運動論は実にその的確な応用であった。分子なればこそ微細で無限に近い粒子の運動を統計的に表現する価値があるというものだ。*2 

 一方、統計を生物学とくに優生学に応用する学者がイギリスに出現する。ゴルトンやピアソンなどである。ここにくると正規分布は一つの分布曲線にすぎなくなる傾向となるようだ。
 しかし、心理学者は自分たちの道具として正規分布を用い出す。

 ハナシがバラバラになりすぎたけれど、生物学や心理学での適用にまでくると正規分布は万能性を喪失してくる。
パレート分布やZipfの法則などは社会の至る所に顔を出すが正規分布とは特性が異なる。次の図は日本の都市人口を横軸順位−縦軸人口を示した。主要都市1045を人口順に並べてプロットしたのである。
 これはZipfの法則に従う。



 本来、正規分布は「微細な独立的な無数の要因」が影響するある理想状態に当てはまる分布なのだ。それは誤差曲線の導出を振り返ってもうなづける。
 
 一般にはキュムラント展開に見られるように分布曲線は多くの係数(平均値μ 標準偏差σ以外の係数)を必要とする。
 平均値μ 標準偏差σだけで統計分布の記述は不足するのだ。
 それ故に平均値と標準偏差でもってすべてを語ったつもりでいると、とんだ心得違いをすることがあることをお覚えておいて欲しい。

偶然を飼いならす―統計学と第二次科学革命

偶然を飼いならす―統計学と第二次科学革命

*1:二項分布でnが無限になると正規分布に近づくというヤツ

*2:ハッキングの『確率を飼い慣らす』