コンテンツにスキップ

第1章 記述統計


統計学の役割

  • データを収集し要約して解釈する
  • 推測統計につながる基礎

記述統計と推測統計

  • 記述統計: 与えられたデータをまとめる
  • 推測統計: 標本から母集団を推定

データの種類

  • 量的データ: 離散型と連続型
  • 質的データ: 名義尺度と順序尺度

測定尺度

  • 名義尺度: 分類のみ
  • 順序尺度: 順番の情報を含む
  • 間隔尺度と比例尺度の違い

平均値の計算

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i \]
  • 外れ値の影響に注意

中央値と最頻値

  • 中央値: 並べた中央の値
  • 最頻値: 最も頻繁に出る値

分散と標準偏差

\[ s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \]
\[ s = \sqrt{s^2} \]
  • データのばらつきを表す

四分位範囲

  • 第3四分位数と第1四分位数の差
  • 外れ値検出に利用

ヒストグラム

  • データの分布を棒で表現
  • 階級幅の設定が重要

箱ひげ図

  • 最小値から最大値までを視覚化
  • 中央値と四分位数を表示

散布図

  • 二変量データの関係を視覚化
  • 相関の有無を判断

相関係数

\[ r = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}} \]
  • -1から1の範囲で関係の強さを表す

相関と因果

  • 高い相関は必ずしも因果関係を意味しない
  • 背景要因の検討が必要

単回帰分析

\[ y = a + bx \]
  • 最小二乗法で係数を推定

回帰係数の解釈

  • 傾き: xが1増えるときのyの変化量
  • 切片: x=0のときの予測値

決定係数

\[ R^2 = 1 - \frac{\sum (y_i-\hat{y}_i)^2}{\sum (y_i-\bar{y})^2} \]
  • 回帰式の当てはまり具合

外れ値の影響

  • 平均や回帰線を大きく変える場合がある
  • 箱ひげ図などで確認

標本と母集団

  • 標本: 観測されたデータ集合
  • 母集団: 標本が抽出される全体

標本平均と母平均

  • 標本平均は母平均の推定量
  • 標本数が増えると精度向上

標本分散と母分散

  • 標本分散は母分散の推定量
  • 不偏分散を使うことも多い

データ収集方法

  • 無作為抽出で代表性を高める
  • バイアスに注意

観測誤差

  • 測定誤差や記録ミス
  • 解析前のデータ確認が重要

実例: アンケート分析

  • 平均や割合を計算
  • グラフで傾向を把握

実例: 回帰による予測

  • 広告費と売上の関係
  • 決定係数でモデルを評価

練習問題へのリンク


標準化

  • zスコア: \(z = \frac{x-\bar{x}}{s}\)
  • 異なる尺度のデータを比較

データの正規性確認

  • QQプロットなどを利用
  • 歪度や尖度のチェック

まとめ

  • 記述統計はデータ理解の第一歩
  • 詳しくはCh1-problems.mdで練習