1. 記述統計学の基礎

1.1 確率統計学入門

統計学の役割と応用分野

統計学は、データを収集・分析・解釈するための体系的な方法論です：

記述統計学：データの特徴を要約・記述
データの要約（代表値、散布度）
データの可視化（グラフ、図表）
実例：アンケート結果の集計
推測統計学：標本から母集団の性質を推測
区間推定
仮説検定
実例：世論調査の結果分析

記述統計と推測統計の違い

記述統計の特徴
与えられたデータの特徴を記述
可視化による直感的な理解
実例：クラスのテスト結果の分析
推測統計の特徴
標本から母集団の性質を推測
不確実性の定量化
実例：全国調査からの傾向分析

データの種類と尺度水準

量的データ
離散型：整数値（例：人数、回数）
連続型：実数値（例：身長、体重）
実例：テストの点数、身長データ
質的データ
名義尺度：分類のみ（例：性別、血液型）
順序尺度：順序関係あり（例：満足度、成績）
実例：アンケートの選択肢

1.2 1次元データの分析

代表値（平均、中央値、最頻値）

平均値

\[ \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \]

計算例： 10人の学生のテスト結果：85, 92, 78, 96, 83, 88, 91, 79, 87, 94

$$ \bar{x} = \frac{85+92+78+96+83+88+91+79+87+94}{10} = \frac{873}{10} = 87.3 $$

特徴と注意点： - 全てのデータを考慮に入れた代表値 - 外れ値の影響を受けやすい - 実例：上記データに外れ値20を追加すると平均は81.2に低下

中央値 計算例： 同じ10人のテスト結果を昇順に並べると：78, 79, 83, 85, 87, 88, 91, 92, 94, 96

データ数が偶数（n=10）なので、中央値は5番目と6番目の値の平均： $$ \text{中央値} = \frac{87 + 88}{2} = 87.5 $$

特徴： - 外れ値の影響を受けにくい - 実例：所得分布では平均より中央値の方が適切な代表値となることが多い

最頻値 計算例： 成績データ：A, B, B, C, B, A, C, B, A, B

各値の出現回数：A(3回), B(5回), C(2回) 最頻値は B（最も頻繁に現れる）

特徴： - 質的データにも適用可能 - 分布の形状によっては複数存在することもある

散布度（分散、標準偏差、四分位範囲）

分散と標準偏差

\[ s^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2, \quad s = \sqrt{s^2} \]

計算例： 先ほどの10人のテストデータ（平均87.3）を使用

各データの平均からの偏差： $(85-87.3)^2 = 5.29$, $(92-87.3)^2 = 22.09$, $(78-87.3)^2 = 86.49$, ...

$$ s^2 = \frac{5.29 + 22.09 + 86.49 + 75.69 + 18.49 + 0.49 + 13.69 + 68.89 + 0.09 + 44.89}{10} = \frac{336.1}{10} = 33.61 $$

$$ s = \sqrt{33.61} = 5.8 $$

解釈： - 分散：データの散らばりの程度を表す（単位は元データの2乗） - 標準偏差：元データと同じ単位で散らばりを表現 - この例では平均点87.3から標準偏差5.8点程度のばらつきがある

四分位範囲 計算例： 昇順データ：78, 79, 83, 85, 87, 88, 91, 92, 94, 96
第1四分位数（Q1）：下位25%点 = 83（2.5番目の値）
第3四分位数（Q3）：上位25%点 = 92（7.5番目の値）
四分位範囲（IQR）= Q3 - Q1 = 92 - 83 = 9

解釈： - データの中央50%の範囲 - 外れ値の影響を受けにくい散布度の指標 - 箱ひげ図の作成に利用される

データの可視化（ヒストグラム、箱ひげ図）

ヒストグラム
データの分布を視覚化
階級幅の選択が重要
実例：身長データの分布
箱ひげ図
最小値、第1四分位数、中央値、第3四分位数、最大値を表示
外れ値の検出に有用
実例：テスト結果の比較

1.3 2次元データの分析

散布図と相関関係

散布図
2変数の関係を視覚化
相関の方向と強さを把握
実例：身長と体重の関係
相関係数

\[ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2}\sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} \]

計算例： 5人の学生の勉強時間（x）とテスト結果（y）： | 学生 | 勉強時間(h) | テスト点数 | |------|-------------|------------| | A | 2 | 65 | | B | 4 | 75 | | C | 6 | 85 | | D | 8 | 90 | | E | 5 | 80 |

計算手順： - $\bar{x} = 5$, $\bar{y} = 79$ - 分子：$(2-5)(65-79) + (4-5)(75-79) + ... = 42 + 4 + 6 + 11 + (-3) = 60$ - 分母：$\sqrt{14} \times \sqrt{230} = 56.7$ - $r = \frac{60}{56.7} = 0.91$

解釈： - 強い正の相関（r=0.91） - 相関と因果の違い：相関があっても因果関係があるとは限らない

単回帰分析の基礎

回帰直線

\[ y = a + bx \]

最小二乗法による推定
傾きと切片の解釈
実例：広告費と売上の関係
決定係数

\[ R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2} \]

説明力の指標
解釈の注意点
実例：モデルの当てはまりの評価

演習問題

以下の$\text{(a)}$, $\text{(b)}$, $\text{(c)}$を答えよ：

事象 $A$, $B$ について $\mathbb{P}(A) + \mathbb{P}(B) - \mathbb{P}(A \cup B) = \mathbb{P}(\text{(a)})$ である。
線形回帰において、外れ値の影響で $R^2$ の取りうる全ての値について最小値 $\text{(b)}$ から最大値 1 となる。
2次元のデータが共に標本平均 0、標本偏差 1 であるとき、相関係数 r と回帰直線の傾き a、切片 b との間に $\text{(c)}$ が成立する。