人工知能

統計学の基礎理論-統計解析

統計解析の基礎

記述統計 Descriptive statisticsと推測統計 Inferential statistics

多くのデータから何らかの有用な情報を引き出す方法が統計解析ですが、大きく2つに分けることができます。

  • 記述統計:測定したデータから対象の集団の特徴や傾向を明らかにする方法を総称して記述統計 Descriptive statisticsといいます。
    たとえば、1,000人のサラリーマンの年収を調査して、そのデータから、平均的な年収や年収の変動などを解析します。さらに変数をプラスして、年齢別/性別/地域別/業種別の年収の特徴などを解析することも可能です。
  • 推測統計:集団の一部のデータから集団全体を推測する方法を総称して推測統計 Inferential statisticsといいます。
    たとえば、1,000人のサラリーマンの年収を調査して、そのデータから、全国のサラリーマンの平均年収やばらつきを予測します。

実際に統計解析の実務では、この2つのどちらかだけを行うというよりも、両方を併用して行います。
まず、記述統計で標本の状況を調査した後、推測統計で全体の状況を推測するという流れで行われます。

一変量解析・二変量解析・多変量解析

統計解析のために調査してデータを収集する必要があります。たとえばある商品の売上金額に関係する販売個数、広告費、販売員の人数などの測定項目のことを変数(変量)といいます。

多数の変数がありますが、これら変数の1つずつに注目して解析することを一変量解析 Univariate analysisといいます。各データの平均値や分散値を計算したり相関を計算したりするなど最も基本的な内容です。

実際の売上は一つの変数だけでなく複数の変数が複雑に絡み合っています。たとえば、販売個数と広告費の2つの変数と売上との関係を解析することを二変量解析 Bivariate analysisといいます。さらに、販売員の人数を含めるなど、3つ以上の変数と売上との関係を解析することを、多変量解析 Multivariate analysisといいます。

量的変数・質的変数

変数はその性質に応じて分類されます。

  • 量的変数 Quantitative variable:販売個数、広告費などのように数値で測定される変数です。
  • 質的変数 Qualitative variable:血液型、地域などのようにカテゴリ区別で測定される変数です。

質的変数はさらに次のように分けられます。

  • 名義変数 Nominal variables:血液型のように順序性がないもの。
  • 順序変数 Ordinal variables:成績評価の「優」「良」「可」などのように順序性のあるもの。優を3、良を2、可を1と仮定することにより、量的変数として分析することも可能です。

目的変数と説明変数

原因と結果のどちらかに応じて変数の種類が分類されます。

  • 目的変数 Response variable:結果の側に該当する変数、たとえば売上金額。
    別の呼び方として、結果変数 Outcome variable、従属変数 Dependent variable、基準変数 Criterion variableなど。
  • 説明変数 Explanatory variable:原因の側に該当する変数、たとえば販売個数、広告費など。
    別の呼び方として、予測変数 Predictor variable、独立変数 Independent variableなど。

 

カテゴリー