コンテンツにスキップ

Probability and Statistics

スライド

第1章記述統計

統計学の役割

データを収集し要約して解釈する
推測統計につながる基礎

記述統計と推測統計

記述統計: 与えられたデータをまとめる
推測統計: 標本から母集団を推定

データの種類

量的データ: 離散型と連続型
質的データ: 名義尺度と順序尺度

測定尺度

名義尺度: 分類のみ
順序尺度: 順番の情報を含む
間隔尺度と比例尺度の違い

平均値の計算

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i \]

外れ値の影響に注意

中央値と最頻値

中央値: 並べた中央の値
最頻値: 最も頻繁に出る値

分散と標準偏差

\[ s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \]

\[ s = \sqrt{s^2} \]

データのばらつきを表す

四分位範囲

第3四分位数と第1四分位数の差
外れ値検出に利用

ヒストグラム

データの分布を棒で表現
階級幅の設定が重要

箱ひげ図

最小値から最大値までを視覚化
中央値と四分位数を表示

散布図

二変量データの関係を視覚化
相関の有無を判断

相関係数

\[ r = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}} \]

-1から1の範囲で関係の強さを表す

相関と因果

高い相関は必ずしも因果関係を意味しない
背景要因の検討が必要

単回帰分析

\[ y = a + bx \]

最小二乗法で係数を推定

回帰係数の解釈

傾き: xが1増えるときのyの変化量
切片: x=0のときの予測値

決定係数

\[ R^2 = 1 - \frac{\sum (y_i-\hat{y}_i)^2}{\sum (y_i-\bar{y})^2} \]

回帰式の当てはまり具合

外れ値の影響

平均や回帰線を大きく変える場合がある
箱ひげ図などで確認

標本と母集団

標本: 観測されたデータ集合
母集団: 標本が抽出される全体

標本平均と母平均

標本平均は母平均の推定量
標本数が増えると精度向上

標本分散と母分散

標本分散は母分散の推定量
不偏分散を使うことも多い

データ収集方法

無作為抽出で代表性を高める
バイアスに注意

観測誤差

測定誤差や記録ミス
解析前のデータ確認が重要

実例: アンケート分析

平均や割合を計算
グラフで傾向を把握

実例: 回帰による予測

広告費と売上の関係
決定係数でモデルを評価

練習問題へのリンク

詳しい計算はCh1-problems.md参照

標準化

zスコア: \(z = \frac{x-\bar{x}}{s}\)
異なる尺度のデータを比較

データの正規性確認

QQプロットなどを利用
歪度や尖度のチェック

まとめ

記述統計はデータ理解の第一歩
詳しくはCh1-problems.mdで練習