人工知能

統計学の基礎理論-一変量解析

一変量解析 Univariate analysis

1つの変数(変量)に対する分析。

基本統計量

例)ある学校のクラス20人の英語のテストの点数の度数分布表 frequecy table

階級 階級値 度数 具体データ
40以上50未満 45 2 43, 47
50以上60未満 55 3 52, 52, 54
60以上70未満 65 5 61, 67, 67, 68, 69
70以上80未満 75 6 70, 71, 71, 73. 76, 78
80以上90未満 85 3 82, 84, 84
90以上100未満 95 1 91
20 代表値

代表値

例)ある会社のセールスマンの1ヶ月間の商品販売台数

名前 販売台数
A 5
B 3
C 4
D 7
E 6

算術平均(相加平均) arithmetic average

データ合計/データ個数

合計=5+3+4+7+6=25
算術平均=25÷5=5

幾何平均(相乗平均) geometric mean

データを掛け合わせ、N乗根をとった値。
伸び率などの割合や比率の計算に利用されます。

例)ある商品の価格改定の推移と値上げ率

価格(円) 値上げ率
70
第1回 90 1.286
第2回 120 1.333
第3回 140 1.167

\begin{eqnarray} 幾何平均=\sqrt[3]{ 1.286×1.333×1.167 }=1.260 \end{eqnarray}

調和平均 harmonic mean

各データの逆数の算術平均を計算し、その逆数をとったもの。
速度など単位当たりの変化量の平均の計算に利用されます。

例)各区間の平均時速と所要時間

 区間 時速 所要時間
最初の60km 30km/h 2時間 (=60km÷30km/h)
中間の60km 15km/h 4時間(=60km÷15km/h)
最後の60km 20km/h 3時間(=60km÷20km/h)

時速の調和平均=1/((1/30+1/15+1/20)/3)=20.0km/h

中央値 median

データを数値の小さい順番に並べたとき、ちょうど真ん中の順位の値。
データの個数が偶数の場合は、真ん中の2個の値の平均をとる。
データに外れ値があるときや正規分布しないときは、中央値のほうが代表値として適切な場合があります。

例)
データ:2, 3, 4, 5, 6, 9
中央値:(4+5)÷2=4.5

最頻値 mode

度数の最も多い値。

例)
データ:2, 2, 3, 3, 3, 4, 4, 5, 9
最頻値:3

第1四分位数 the first quartile

データ全体を4等分に区切ったときの最も小さい区切りの値。

第3四分位数 the third quartile

データ全体を4等分に区切ったときの最も大きい区切りの値。

例)
データ:3, 5, 8, 8, 10, 12, 18, 25, 32, 40, 50, 60
第1四分位数:(8+8)÷2=8
第3四分位数:(32+40)÷2=36

一般的な代表値=平均値
特別な事情がない限り、まず一般的には平均値が代表値として利用されます。データに外れ値(他のデータ値から極端に離れた値)がある場合などは中央値が用いられることもありますが、圧倒的に平均値のほうが利用されます。平均値のほうが、分散や標準偏差などの計算に利用しやすく分析がしやすいというメリットもあります。
最頻値が利用されることはほとんどありません。ただし、質的変数については、平均値、中央値が利用できませんので、最頻値が代表値として利用されます。

散布度

偏差 deviation

個々のデータから平均値を引いた値。個々のデータの平均値からの距離を表します。

偏差平方和 sum of squares

個々のデータの偏差の2乗を合計した値。データのばらつきの大きさを表します。

例)ある会社のセールスマンの1ヶ月間の商品販売台数

名前 販売台数 偏差 偏差の平方
A 5 0 0
B 3 -2 4
C 4 -1 1
D 7 2 4
E 6 1 1
合計 25 0 10
平均 5

分散 variance

標本分散 sample variance:データ個数Nのとき、分散をNで割った値。こちらを母分散と呼ぶこともあります。
不偏分散 unbiased variance:データ個数Nのとき、分散をN-1で割った値。こちらを標本分散と呼ぶこともあります。

母集団 population から選び出したN個の標本 sample の標本分散を計算すると、母分散 population varianceよりもやや小さくなります。その補正のため、分散をN-1で割った不偏分散を計算します。通常の統計処理では、不偏分散を利用します。

データ数が多くなれば標本分散も不偏分散もほぼ同じ値となります。

標本分散が実際の分散よりも小さくなる理由
標本の平均は母集団の平均よりもずれており、そのずれた平均を基に分散を計算すると、母集団の分散よりも過少評価されます。
これを補正するために不偏分散を利用します。

分散と平均の関係の公式

\begin{eqnarray} s^2 = \overline{x^2} – (\overline{x})^2 \end{eqnarray}
\begin{eqnarray} \overline{x^2} :資料の値の2乗平均、\overline{x}:平均 \end{eqnarray}

標準偏差 standard devition

分散の平方根をとった値。分散の単位は2乗のため、これの平方根をとって単位を戻します。
個々のデータの平均値からの距離を表します。

レンジ(範囲) range

データの最大値から最小値を引いた値。データのばらつきの大きさを表します。

例)ある会社のセールスマンの1ヶ月間の商品販売台数

名前 販売台数 偏差 偏差の平方
A 5 0 0
B 3 -2 4
C 4 -1 1
D 7 2 4
E 6 1 1
合計 25 0 10
平均 5
レンジ 4
分散 2.5
標準偏差 1.6

分散=10÷(5-1)=2.5
標準偏差=√2.5≒1.6
レンジ=7-3=4

パーセンタイル percentile、四分位偏差 quartile deviation

データに外れ値があるときや正規分布しないときは、標準偏差にも歪みが生じるため、四分位偏差でばらつきを見ることがあります。
データを小さい順に並べたときに、任意の%の順番に位置するデータの値で、25%点、75%点をそれぞれ第1四分位点、第3四分位点といいます。50%点は中央値です。
最小値、25%点、中央値、75%点、最大値の5つの統計量にデータを要約することを5数要約といいます。

\begin{eqnarray} p\%点A = (1-r)D_{q} + rD_{q+1} \end{eqnarray}
\begin{eqnarray} ただし、rは (n+1)×\frac{p}{100} の少数部、 D_{q}、D_{q+1}は(n+1)×\frac{p}{100} \end{eqnarray}
の整数部をqとしたとき、データを小さい順に並べたときのq番目、q+1番目のデータの値。

例)
データ(N=10):3, 5, 8, 8, 10, 15, 16, 19, 20, 25

(n+1)×p/100 q r D{q} D{q+1} A
第1四分位点 (10+1)×25/100=2.75 2 0.75 5 8 7.25
中央値 (10+1)×50/100=5.5 5 0.5 10 15 12.5
第3四分位点 (10+1)×75/100=8.25 8 0.25 19 20 19.25

四分位偏差=(19.25-7.25)÷2=6

分布の形状

尖度 kurtosis

\begin{eqnarray} H = \frac{N(N+1)}{(N-1)(N-2)(N-3)} \sum (\frac{x_{i}-m}{s})^4 – 3\frac{(N-1)^2}{(N-2)(N-3)} \end{eqnarray}

歪度 skewness

\begin{eqnarray} H = \frac{N}{(N-1)(N-2)} \sum (\frac{x_{i}-m}{s})^3 \end{eqnarray}

尖度は分布の尖り具合を示し、歪度は分布の歪み具合を示します。
データが正規分布に従うとき、尖度と歪度はどちらも0になります。

相対度数分布グラフ histgram

例)ある学校のクラス20人の英語のテストの点数の度数分布表 frequecy table

階級 階級値 度数 相対度数 累積相対度数
40以上50未満 45 2 0.1 0.1
50以上60未満 55 3 0.15 0.25
60以上70未満 65 5 0.25 0.5
70以上80未満 75 6 0.3 0.8
80以上90未満 85 3 0.15 0.95
90以上100未満 95 1 0.05 1
20 1
  • サイズ size:調査対象の個数、上記例では20個。
  • 変量:資料の各値、上記例ではテストの点数。
  • 階級 class interval:資料の区切り。上記例では、「40以上50未満」など
  • 階級値 midpoint:階級の真ん中の値。上記例では、階級が「40以上50未満」なら45
  • 度数 frequency:階級ごとの資料の数。上記例では人数。
  • 相対度数 relative frequecy:資料全体に対する度数の割合。
  • 累積相対度数 cumulative relative frequecy:相対度数を足し合わせた値。
  • ヒストグラム histgram:度数分布表を柱状グラフに表現したもの。

相対度数分布グラフの、各階級に対応する柱(長方形)の面積=度数
相対度数分布グラフの面積合計=1

サンプルXの相対度数分布グラフ

ある資料の相対度数分布グラフと、その資料からN個のサンプルを取り出したXの相対度数分布グラフは、Nが大きくなればなるほど、ほぼ同じ形に近づきます。

あるデータを取り出して元に戻さない方法を非復元抽出、取り出したデータを元に戻す方法を復元抽出といいます。どちらでも、サンプルXの相対度数分布グラフは、元の資料の相対度数分布グラフにほぼ等しくなります。

個々のデータの位置

基準値 normalize score

基準値=(データ-平均値)÷標準偏差
次元や値のオーダが異なる2つの資料について、ばらつきを考慮した個々のデータの相対的な位置を知ることができます。

例)あるクラスの国語と数学の点数

No. 国語 数学
1 90 93
2 57 90
3 56 80
4 54 63
5 53 55
6 52 45
7 50 40
8 45 27
9 40 20
10 33 17
平均値 53.0 53.0
標準偏差 15.0 28.1

基準化した値

No. 国語 数学
1 2.46 1.42
2 0.27 1.32
3 0.20 0.96
4 0.07 0.36
5 0.00 0.07
6 -0.07 -0.28
7 -0.20 -0.46
8 -0.53 -0.93
9 -0.86 -1.18
10 -1.33 -1.28
平均値 0.00 53.0
標準偏差 1.00 28.1

基準化した値の平均値は0、標準偏差は1になります。

No.1国語90点とNo.2数学90点は同点ですが、正規化した値では、No.1国語:(90-53)÷15.0=2.46、No.2数学:(90-53)÷28.1=1.42となり、No.1国語90点のほうが相対的な位置が高いといえます。

偏差値 deviation score

母集団の平均をu、標準偏差をσとします。
\begin{eqnarray} 偏差値 = 50 + 10 × Z_{i} (Z_{i}はi番目のデータの基準値 \frac{X_{i} – u}{σ} \end{eqnarray}
基準値を10倍して50を足した値。一般の100点満点のテストの点数のスケールに近いため、受験では偏差値がよく利用されています。

例)英語の点数

No. 点数 基準値 偏差値
1 30 -1.34 36.58
2 50 -0.45 45.53
3 60 0.00 50.00
4 70 0.45 54.47
5 90 1.34 63.42
平均値 60 0.0 50.0
標準偏差 22.4 1.0 10.0