ベンフォードの分布は不正検知に使われる。
そもそもベンフォード分布自体、興味深いものだ。
なんでもいいから数表をとってきてみよう。
よく分かっている数列をとろう。フィボナッチ数列だ。添付は100項までの計算結果だ。
fivonach.xhtml
ベンフォード分布の理論値は下記のようになる。右はフィボナッチの最初の100項の比率だ。かなりのあてはまりの良さだ。
最初の桁 頻度 フィボナッチ数
1 0.30103 0.30
2 0.17609 0.17
3 0.12494 0.13
4 0.09691 0.10
5 0.07918 0.07
6 0.06695 0.07
7 0.05799 0.06
8 0.05115 0.05
9 0.04576 0.05
メルセンヌ素数をとって当て嵌めてみよう。
Mn=2^n − 1が素数となるものをメルセンヌ素数というが、現在47まで判明している。ちなみにnは素数だ。今後も増えるかもしれないが、Mnが47個が分かっている集合だ。
その始まりの数字が「1」となるものは「13」個ある、「2」で始まるのは
「7」個、「3」は「5」個、「4」は「7」個だ。「4」が7個と多いのは跳びがあるからではないだおるか。あいだが空いているメルセンヌ数は未発見のものがあるそうだ。
nはどうか。「1」では「11」個、「2」では「8」個、「3」では「7」個、「4」では「5」個だ。
どちらも始まりが「1」の比率が13/47、もしくは11/47で近似的に同じである。
かなり分布とズレがある。このズレからメルセンヌ素数が人為的探索されているのが理解できる。
新しいメルセンヌ素数を検出するのに役に立つだろう。
つまり、自然に生成された数の始まりの数字は一定の分布となる。それがこの分布なのだ。これを逆手にとると財務諸表における作為が摘出できるというのが、「ベンフォード分析」なのである。
やり方はシンプルだ。算出された金額の最初の数字をカウントするだけでいい。「1」がなんこ、「2」がなんこ...「9」は何個。
ベンフォード分布からのはずれをχ二乗で検定すればいい。望むらくは多数の金額が提示されているほうが不正検出の精度が高まる。
犯罪と戦う数学の好例といえよう。