人工知能

統計学の基礎理論-確率分布

確率変数と確率分布

コインを投げたとき、起こりうる事象は表が出るか裏が出るの2通りであり、それぞれの確率は1/2です。
ここで事象をXとし、表:1、裏:0で表現します。
事象Xのとる値と、その起こる確率P(X)を表すと次のようになります。

X P(X)
0 P(X=0)=1/2
1 P(X=1)=1/2
合計 1

Xを確率変数 random variable、P(X)の分布状況を確率分布 probability distributionといいます。

離散確率分布、連続確率分布

コインの表裏のように、Xのとりうる値が0,1などとある値に決まっている確率分布を、離散確率分布 discrete probability distributionといいます。
一方、円周中に0から360の目盛りが振られたルーレットの止まる位置のように連続した値をとる確率分布を、連続確率分布 c
ontinuous probability distributionといいます。

連続確率分布のグラフは、曲線y=f(x)で表すことができますが、f(x)を確率密度関数 probability density functionといいます。その名の通り、確率密度を表すものですので、あるxの値の確率を得ようとしても0になってしまいます。
確率は、確率密度関数をある範囲で積分することによって得られます。

確率変数の平均、分散

確率変数Xの平均をE(X)、分散をV(X)とすると、相対度数分布の平均E(X)、分散V(X)と同様に、次のような関係が成り立ちます。

  • E(X+a)=E(X)+a
  • E(bX)=bE(X)
  • V(X+a)=V(X)
  • V(bX)=b^2V(X)

これらをまとめておきます。

二項分布 binomial distribution

二項分布とは

二項分布 binomial distributionとは、ある確率で発生する事象が起こる回数の分布です。

コインを3回投げる場合について考えると、組み合わせは8パターンあり、いずれも発生する確率は1/8です。

1回目 2回目 3回目 表の数 確率
3 1/8
2 1/8
2 1/8
1 1/8
2 1/8
1 1/8
1 1/8
0 1/8
合計 1

確率分布表は次のようになります。

X P(X)
0 P(X=0)=1/8
1 P(X=1)=3/8
2 P(X=2)=3/8
3 P(X=3)=1/8
合計 1

この確率分布は、試行回数n=3、表が出る確率P=0.5の二項分布になります。

二項係数 Binomial coefficient

上記の確率分布P(X)の分子を見ると、3個の中から、それぞれ0個、1個、2個、3個を取り出すときの組み合わの数を示しており、二項係数 Binomial coefficientと呼ばれます。
二項係数は、n個からr個取り出すときの組み合わせ、コンビネーションCで表わされます。

\begin{eqnarray} {}_n \mathrm{ C }_k = \frac{n!}{r!(n-r)!} \end{eqnarray}

\begin{eqnarray} {}_3 \mathrm{ C }_0 = \frac{3!}{0!(3-0)!} = 1,
{}_3 \mathrm{ C }_1 = \frac{3!}{1!(3-1)!} = 3,
{}_3 \mathrm{ C }_2 = \frac{3!}{2!(3-2)!} = 3,
{}_3 \mathrm{ C }_3 = \frac{3!}{3!(3-3)!} = 1 \end{eqnarray}

二項分布の式、平均と分散

ある事象の起こる確率をP、この事象の試行回数をn、r回起こる確率をP(X)とすると、P(X)は次のようになります。
\begin{eqnarray} P(X) = {}_n \mathrm{ C }_x p^x(1-p)^{n-x} \end{eqnarray}
ただし、x=0,1,2,…,n

この式によって計算される確率分布のことを二項分布と言い、B(n,p)という記号で表わされます。

二項分布の平均値E(X)=np
二項分布の分散V(X)=np(1-p)

二項分布の試行回数nを無限大にする(極限状態にする)と正規分布になります。この定理のことを、ラプラスの定理といい、母比率の推定検定や適合度検定に応用されています。

ポアソン分布 poisson distribution

ポアソン分布 poisson distribution は、1ヶ月間の交通事故の発生件数など、ある一定の期間や範囲における事象の発生回数の分布を示します。

ある期間または範囲における事象の発生回数の平均をmとすると、その事象がX回発生する確率をP(X)は次のようになります。
\begin{eqnarray} P(X) = e^{-m} \frac{m^X}{X!} \end{eqnarray}
ただし、eは自然対数の底で、e=2.71828…

例えば、交通事故の発生件数が1日平均1.5件であったとき、ある日の交通事故件数が0件である確率は、次のようになります。

\begin{eqnarray} P(0) = e^{-1.5} \frac{1.5^0}{0!} = 2.71828^{-1.5} = 0.223 \end{eqnarray}

正規分布 normal distribution

二項分布B(n,p)の試行回数nを無限大に増やすと、正規分布に至ります。

正規分布 normal distributionは、左右対称の釣り鐘型の分布になります。統計学では非常に重要な分布で、正規分布になる事象が多くあります。

ある連続した量的変数の平均をm、標準偏差をsとすると、測定値がxである確率P(x)は次の式で表されます。
\begin{eqnarray} P(x) = \frac{1}{\sqrt{2π}s} e^{-\frac{(x-m)^2}{2s^2}} \end{eqnarray}
ただし、eは自然対数の底で、e=2.71828…、πは円周率でπ=3.14159

この式は正規分布の曲線の式で、N(m,s^2)という記号で表わされます。
たとえば、正規分布に従う身長の平均値がm=170cm、標準偏差がs=5cmのとき、N(170, 5^2)となります。

なぜ、突然、円周率πが登場するのか疑問を持たれるかもしれませんが、座標変換を利用して積分してこの式を導けばπが登場することがわかります。

標準正規分布 standard normal distribution

正規分布に従うデータについて、個々のデータから平均値を引き、標準偏差で割ると、平均0、標準偏差1のデータになります。
これを、標準正規分布 standard normal distributionといいます。N(0, 1^2)で表されます。

式で表すと次のようになります。
\begin{eqnarray} P(x) = \frac{1}{\sqrt{2π}} e^{-\frac{z^2}{2}} \end{eqnarray}
ただし、eは自然対数の底で、e=2.71828…、πは円周率でπ=3.14159

標準正規分布の特徴

標準正規分布には様々な特徴があります。

  • 左右対称で、x=0のときyが最大になります。
  • x=±1のとき、曲線の曲がり方が変わります。→ x=±1のとき、y=f(x)を2回微分した値が0
  • 横軸で挟まれた部分の面積は1になります。

標準正規分布表より、各値の範囲の面積が求まります。

  • -σ≦x≦σの範囲の面積は全体の約68.3%(σ:標準偏差)
  • -2σ≦x≦2σの範囲の面積は全体の約95.4%
  • -3σ≦x≦3σの範囲の面積は全体の約99.7%

標準正規分布に従うデータ例

世の中には、標準正規分布に従うデータが多く存在します。

  • ある国の成人男子の身長データ
  • たばこの葉の長さを調べたデータ
  • 工場で製造しているねじの長さを測ったデータ

正規分布の再生性

二つの正規分布N(u1, σ1^2)と、N(u2, σ2^2)にそれぞれ従う資料A、Bがあるとします。Aから1個、Bから1個データを取り出してその和を記録して度数分布表を作成すると、その度数分布を正規分布N(u1+u2, σ1^2+σ2^2)に従います。
正規分布は2つを重ね合わせても、分布の形が保存されます。これを正規分布の再生性といいます。

中心極限定理

正規分布でないある資料Xからサンプルをn個取り出し、その平均mを記録することを繰り返し、mの相対度数分布グラフを描きます。
サンプル数nが小さいときは、mの相対度数分布グラフは元の資料Xの相対度数分布に従いますが、サンプル数nが大きくなると、mの相対度数分布グラフは正規分布グラフに近づいていきます。これを中心極限定理といいます。

中心極限定理は、もとの資料の分布の形によらず、十分な個数のサンプルの平均の相対度数分布は正規分布に従うという定理です。