統計

統計学の基礎理論-統計的推定と統計的仮説検定

このページは、一部の内容を簡単にまとめているのみです。

記述統計と推測統計

  • 全数調査:集団全体を対象とする調査→国勢調査など
  • 標本調査:サンプルを対象とする調査→選挙の投票結果、製品の合格検査

 

全数調査 標本調査
サイズ 母集団サイズN サンプルサイズn
平均 母平均m 標本平均x
標準偏差 母標準偏差σ 標本標準偏差s
比率 母比率P 標本比率p

統計的推定と統計的仮説検定

  • 統計的推定:母集団の一部(サンプル)にアンケート調査や実験を行い、観察データの基本統計量から母集団の平均値や割合を推定すること。
  • 統計的仮説検定:母集団から抽出された標本に対する統計量が正しいかを統計学的に検証すること。

推定

推定

母平均の推定 z推定、t推定 母平均=標本平均±E=標本平均±定数×s/√(n)
母比率の推定 z推定、F推定 母平均=標本平均±E=標本平均±定数×√(p(1-p))/√(n)
母分散の推定 カイ2乗推定
有限母集団の推定 有限母集団補正項(√((N-n/(N-1)))をかける(サンプルサイズnが100,000未満のとき)

母平均の推定

母標準偏差 母集団の分布 サンプルサイズn 種類
既知 分布は何でもよい いくつでもよい z推定
未知 正規分布 30以上
未知 正規分布 30未満 t推定
不明 30以上

検定

検定

種類 内容 検定の方法
母平均の検定 1つの母平均と比較値が異なるかを検定 z検定、t検定
母平均の差の検定 2つの母平均が異なるかを検定 z検定、t検定
母比率の検定 1つの母割合と比較値が異なるかを検定 z検定
母比率の差の検定 2つの母割合が異なるかを検定 z検定
母分散の比の検定 2つの母分散が異なるかを検定 F検定
正規性の検定 母集団が正規分布であるかを検定 カイ2乗検定
単相関係数の無相関検定 散布点の直線性の検定 t検定
相関比の無相関検定 カテゴリー別平均の同等性の検定 F検定
クラメール連関係数の無相関検定 クロス集計関連性の検定 カイ2乗検定

母平均の検定

母標準偏差 母集団の分布 サンプルサイズn 種類
既知 分布は何でもよい いくつでもよい z検定
未知 正規分布 30以上
未知 正規分布 30未満 t検定
不明 30以上

母標準偏差未知、母集団の正規性不明、サンプルサイズn<30の場合の検定:ノンパラメトリック検定

タイプ 母集団数 対応有無 パラメトリック検定 ノンパラメトリック検定
数量 1つ母集団 母平均の検定 コルモゴロフ・スミルノフ検定
2つ母集団 対応なし t検定 ウイルコクソンの順位和検定(U検定)
対応あり 対応のあるt検定 サインランク検定(ウイルコクソンの符号順位和検定)
カテゴリー 1つ母集団 母比率の検定
2つ母集団 対応なし 母比率の差の検定
対応あり マクネマー検定

検定の方法

棄却限界値(有意水準5%)

種類 Excel式 Excel式の例
z検定(両側) =NORMSINV(1-0.025) =NORMSINV(1-0.025) 1.960
z検定(片側) =NORMSINV(1-0.05) =NORMSINV(1-0.05) 1.645
t検定(両側) =TINV(0.05, 自由度) =TINV(0.05, 50) 2.009
t検定(片側) =TINV(0.10, 自由度) =TINV(0.10, 50) 1.676
カイ2乗検定 =CHIINV(0.05, 自由度) =CHIINV(0.05, 50) 67.505
F検定(両側) =TINV(0.025, 自由度1, 自由度2) =FINV(0.025, 24, 23) 2.299
F検定(片側) =TINV(0.05, 自由度1, 自由度2) =FINV(0.05, 24, 23) 2.005

p値

種類 Excel式 Excel式の例
z検定(両側) =2*(1-NORMSDIST(T値)) =2*(1-NORMSDIST(1.96)) 0.050
z検定(片側) =1-NORMSDIST(T値) =1-NORMSDIST(1.645) 0.050
t検定(両側) =2*TDIST(T値, 自由度, 1)
‘=TDIST(T値, 自由度, 2)
=2*TDIST(2.01, 50, 1)
‘=TDIST(2.01, 50, 2)
0.050
t検定(片側) =TDIST(T値, 自由度, 1) =TDIST(1.676, 50, 1) 0.050
カイ2乗検定 =CHIDIST(T値, 自由度) =CHIDIST(67.505, 30) 0.000
F検定(両側) =2*FDIST(T値, 自由度1, 自由度2) =2*FDIST(2.299, 24, 23) 0.050
F検定(片側) =FDIST(T値, 自由度1, 自由度2) =FDIST(2.005, 24, 23) 0.050

有意差判定の方法

方法 判定 結果
T値による有意差判定 T値≧棄却限界値 帰無仮説を棄却し対立仮説を採択
有意差があるといえる
T値<棄却限界値 帰無仮説を棄却できず対立仮説を採択できない
有意差があるといえない
p値による有意差判定 p値≦有意水準 帰無仮説を棄却し対立仮説を採択
有意差があるといえる
p値>有意水準 帰無仮説を棄却できず対立仮説を採択できない
有意差があるといえない
信頼区間による判定 下限値と上限値の符号が同じ
(または、信頼区間は0をまたがらない)
帰無仮説を棄却し対立仮説を採択
有意差があるといえる
(標本平均-比較値)±棄却限界値×SE 下限値と上限値の符号は異なる
(または、信頼区間は0をまたがる)
帰無仮説を棄却できず対立仮説を採択できない
有意差があるといえない

各値の計算式

種類 区分 標本誤差SEの式 T値の式 自由度fの式
母平均の検定 =s/SQRT(n) =(x-比較値)/SE =n-1
母平均の差の検定 対応あり =s/SQRT(n) =差分の標本平均/SE =n-1
対応なし、母分散が等しい =SQRT(s^2/n1+s^2/n2)
s^2=((n1-1)*s1^2+(n2-1)*s2^2)/(n1+n2-2)
=(x1-x2)/SE =n1+n2-2
対応なし、母分散が異なる =SQRT(s1^2/n1+s2^2/n2) =(x1-x2)/SE =(s1^2/n1+s2^2/n2)^2+(s1^4/(n1^2*(n1-1))+s2^4/(n2^2*(n2-1)))
母比率の検定 =SQRT(比較値*(1-比較値))/SQRT(n) =(標本比率-比較値)/SE
母比率の差の検定 対応あり
対応なし =SQRT(p*(1-p)*(1/n1+1/n2))
p=(n1*p1+n2*p2)/(n1+n2)
=(p1-p2)/SE
母分散の比の検定

n:サンプルサイズ
x, x1, x2:標本平均
s:標本の標準偏差
p, p1, p2:割合

その他

2つの誤りのトレードオフ

真実
帰無仮説が正しい 対立仮説が正しい
検定の結果 帰無仮説を棄却しない
(対立仮説が正しいとは言えない)
正しい 第2種の誤り(β)
帰無仮説を棄却する
(対立仮説が正しい)
第1種の誤り(α) 正しい(1‐β)

真実
本当は無罪 本当は有罪
検定の結果 無罪と判決
(対立仮説が正しいとは言えない)
正しい 第2種の誤り(β)
有罪と判決
(対立仮説が正しい)
第1種の誤り(α) 正しい(1‐β)

第1種の誤り(α)(危険率)と第2種の誤り(β)はトレードオフの関係にある。

  • 第1種の誤り→慌てものの誤り:本当は問題がないのに問題があると勘違いして先走って不必要な対策をしてしまう。
  • 第2種の誤り→ぼんやりものの誤り:本当は問題があるのに問題があると気づかずに対策をしない。

どちらも問題であるが、どちらのリスクが大きいかを考える。

  • 帰無仮説 2つの薬剤の効能は等しい。
  • 対立仮説 2つの薬剤の効能は等しくない。

この場合、第1種の誤りは、仮に犯しても、2つの薬剤の効能は等しいので患者に影響はないが、第2種の誤りは、間違って処方することになり、患者に生命の危険を及ぼす可能性がある。

参考

A/Bテスト信頼度判定ツール
対応のない母比率の差の検定
数値を入力するだけで検定結果を表示する。

カテゴリー