人工知能

統計学の基礎理論-二変量解析

二変量解析 Bivariate analysis

複数の変数の関係を分析するものを多変量解析 Multivariate analysisといいます。
このうち、2つの変数に絞ったものを、二変量解析 Bivariate analysisといいます。

変数の種類 統計料 方法 分析例
量的×量的 単相関係数 散布図 体重×身長
質的×量的 相関比 カテゴリ別平均、誤差グラフ 性別×血圧
質的×質的 連関係数 カテゴリ別割合、構成化グラフ 居住地×PC保有数

量的変数×量的変数

相関図、散布図 Scatter Plot, Scattergram

2つの量的変数xとyの関係は、散布図にプロットすることができます。
2つの変数に因果関係(原因と結果)または時間的前後関係があるときは、結果および後の時間に該当する変数を縦軸に、原因および前の時間に該当する変数を横軸に配置します。

単相関係数 Single correlation coefficient

単相関係数:2つの変数の相関関係の強さを示します。記号rがよく利用されます。

範囲:-1≦r≦1
負の相関があるとき:-1≦r<0、相関図における点の分布は右下がり。
正の相関があるとき:0<r≦1、相関図における点の分布は右上がり。
絶対値が1に近ければ、相関図における点の分布は直線に近い。
絶対値が0に近ければ、相関図における点の分布は一様に広がる。

相関係数r

\begin{eqnarray} r = \frac{ S_{xy} }{ \sqrt{ S_{xx}S_{yy} } }  (-1≦r≦1) \end{eqnarray}
\begin{eqnarray} S{xx}:変数xの偏差平方和、S{yy}:変数yの偏差平方和、S{xy}:変数xと変数yの積和 \end{eqnarray}

相関の強さの目安
r>0.7:強い相関
0.3≦r≦0.7:相関あり
r<0.3:弱い相関

例)身長と体重の相関

No. 身長x 体重y xの
偏差
yの
偏差
xの
偏差2乗
yの
偏差2乗
偏差の積
A 146 45 -4 -5 16 25 20
B 145 46 -5 -4 25 16 20
C 147 47 -3 -3 9 9 9
D 149 49 -1 -1 1 1 1
E 151 48 1 -2 1 4 -2
F 149 51 -1 1 1 1 -1
G 151 52 1 2 1 4 2
H 154 53 4 3 16 9 12
I 153 54 3 4 9 16 12
J 155 55 5 5 25 25 25
平均値 150 50
合計 104 110 98

S{xx}=104, S{yy}=110, S{xy}=98
r=98/√(104×110)=0.916(小数点第4位以下切り捨て)

分散共分散行列

偏差平方和と積和の組み合わせを、偏差平方和・積和行列といいます。

\begin{eqnarray} \begin{bmatrix} s_{xx} & s_{xy} \\ s_{xy} & s_{yy} \end{bmatrix} = \begin{bmatrix} 104 & 98 \\ 98 & 110 \end{bmatrix} \end{eqnarray}

偏差平方和をn-1で割った値は分散ですが、積和をn-1で割った値を共分散といい、分散と共分散の組み合わせを、分散共分散行列といいます。

\begin{eqnarray} \begin{bmatrix} v_{xx} & v_{xy} \\ v_{xy} & v_{yy} \end{bmatrix} =  \frac{1}{n-1} \begin{bmatrix} s_{xx} & s_{xy} \\ s_{xy} & s_{yy} \end{bmatrix} = \frac{1}{9} \begin{bmatrix} 104 & 98 \\ 98 & 110 \end{bmatrix} = \begin{bmatrix} 12.2 & 10.9 \\ 10.9 & 11.6 \end{bmatrix}  \end{eqnarray}

量的変数×質的変数

カテゴリ別平均

カテゴリ別に集計した平均値をカテゴリ別平均といい、カテゴリ別平均に差があるとき、変数間に関係があると解釈します。
誤差グラフにプロットして図示します。

相関比 Correlation ratio

相関比:量的変数と質的変数の関係の強さを示す。記号ηの2乗で表されます。
カテゴリー別平均の差がグループ内のばらつきに対して大きいほど値が大きくなります。

相関比η^2

\begin{eqnarray} η^2 = \frac{ S_{B} }{  S_{T} }  (0≦η^2≦1) \end{eqnarray}
\begin{eqnarray} S_{B}:グループ間平方和、S_{T}:偏差平方和  \end{eqnarray}
\begin{eqnarray} \sum n_{i} ( \overline{x_i} – \overline{x} )^2  \end{eqnarray}
\begin{eqnarray} n_i:第iカテゴリーに含まれるデータ数、\overline{x_i}:第iカテゴリーの平均値、 \overline{x}:全体の平均値 \end{eqnarray}

関係の強さの目安
η^2>0.25:強い関係
0.1≦η^2≦0.25:関係あり
η^2<0.1:弱い関係

質的変数×質的変数

クロス集計

カテゴリ別割合を比較し分析します。
クロス集計表と呼ばれるマトリックスを作成します。

クロス集計表の左側を表側、上側を表頭といいます。
表側には、原因または時間的に前の変数を、表頭には結果または時間的に後の変数を配置します。

連関係数 Continuous correlation coefficient

連関係数:質的変数と質的変数の関係の強さを示す。記号CVで表されます。クラメルの連関係数とも呼ばれます。

連関係数CV

\begin{eqnarray} CV = \sqrt{ \frac{ χ^2 }{  n(k-1) } }  (0≦CV≦1) \end{eqnarray}
n:データ数、k:表側と表頭のカテゴリ数の小さいほうの数
\begin{eqnarray} χ^2 = \sum (実測度数-期待度数)^2÷期待度数、期待度数 = \frac{n_i×n_j}{n} \end{eqnarray}
実測度数=クロス集計表のセルの度数
n{i}とn{j}は、クロス集計表のi行の合計とj列の合計で、期待度数は2変数が無関係のときの各セルの度数

関係の強さの目安
CV>0.25:強い関係
0.1≦η^2≦0.25:関係あり
CV<0.1:弱い関係

単回帰分析 Simple linear regression analysis

説明変数x(予測に使う変数)と目的変数y(予測される変数)は線形1次式 y=ax+b で表されます。
この式のことを単回帰式 Single regression equationあるいは 単回帰直線 Single regression line といい、この式を導きだす方法を単回帰分析 Simple linear regression analysisといいます。

\begin{eqnarray} 単回帰式:\hat{y} = ax + b (\hat{y}は予測値) \end{eqnarray}
\begin{eqnarray} a = \frac{S_{xy}}{S_{xx}},  b = \overline{y}-a\overline{x} \end{eqnarray}
\begin{eqnarray} S_{xx}:変数xの偏差平方和、S_{xy}:変数xと変数yの積和、\overline{y}:変数yの平均値、\overline{x}:変数xの平均値 \end{eqnarray}

回帰直線の傾きaと切片bの算出方法はここでは省略しますが、y座標の差の2乗和を最小とするように式を解くことで求まります(最小2乗法)。

決定係数 The coefficient of determination

決定係数:予測精度の高さを示します。相関係数rに対して、r^2で表されます。

\begin{eqnarray} 決定係数r^2 = 1 – \frac{S_{e}}{S_{T}} (0≦r^2≦1) \end{eqnarray}
\begin{eqnarray} S_{T}:目的変数yの偏差平方和、S_{e}:残差平方和 \end{eqnarray}

カテゴリー