第1章 記述統計
統計学の役割
- データを収集し要約して解釈する
- 推測統計につながる基礎
記述統計と推測統計
- 記述統計: 与えられたデータをまとめる
- 推測統計: 標本から母集団を推定
データの種類
- 量的データ: 離散型と連続型
- 質的データ: 名義尺度と順序尺度
測定尺度
- 名義尺度: 分類のみ
- 順序尺度: 順番の情報を含む
- 間隔尺度と比例尺度の違い
平均値の計算
\[
\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i
\]
- 外れ値の影響に注意
中央値と最頻値
- 中央値: 並べた中央の値
- 最頻値: 最も頻繁に出る値
分散と標準偏差
\[
s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2
\]
\[
s = \sqrt{s^2}
\]
- データのばらつきを表す
四分位範囲
- 第3四分位数と第1四分位数の差
- 外れ値検出に利用
ヒストグラム
- データの分布を棒で表現
- 階級幅の設定が重要
箱ひげ図
- 最小値から最大値までを視覚化
- 中央値と四分位数を表示
散布図
- 二変量データの関係を視覚化
- 相関の有無を判断
相関係数
\[
r = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}}
\]
- -1から1の範囲で関係の強さを表す
相関と因果
- 高い相関は必ずしも因果関係を意味しない
- 背景要因の検討が必要
単回帰分析
\[
y = a + bx
\]
- 最小二乗法で係数を推定
回帰係数の解釈
- 傾き: xが1増えるときのyの変化量
- 切片: x=0のときの予測値
決定係数
\[
R^2 = 1 - \frac{\sum (y_i-\hat{y}_i)^2}{\sum (y_i-\bar{y})^2}
\]
- 回帰式の当てはまり具合
外れ値の影響
- 平均や回帰線を大きく変える場合がある
- 箱ひげ図などで確認
標本と母集団
- 標本: 観測されたデータ集合
- 母集団: 標本が抽出される全体
標本平均と母平均
- 標本平均は母平均の推定量
- 標本数が増えると精度向上
標本分散と母分散
- 標本分散は母分散の推定量
- 不偏分散を使うことも多い
データ収集方法
- 無作為抽出で代表性を高める
- バイアスに注意
観測誤差
- 測定誤差や記録ミス
- 解析前のデータ確認が重要
実例: アンケート分析
- 平均や割合を計算
- グラフで傾向を把握
実例: 回帰による予測
- 広告費と売上の関係
- 決定係数でモデルを評価
練習問題へのリンク
- 詳しい計算はCh1-problems.md参照
標準化
- zスコア: \(z = \frac{x-\bar{x}}{s}\)
- 異なる尺度のデータを比較
データの正規性確認
- QQプロットなどを利用
- 歪度や尖度のチェック
まとめ
- 記述統計はデータ理解の第一歩
- 詳しくはCh1-problems.mdで練習