初学者のための統計学超入門

初学者のための統計学超入門～データの見方から推測まで～

はじめに：なぜ統計学を学ぶの？

「統計学」と聞くと、「数学ばっかりで難しそう…」「計算が苦手だから無理…」と思ってしまうかもしれませんね。でも、ちょっと待ってください！統計学は、実は私たちの身の回りにあふれている、とても身近で役立つ考え方なんです。

ニュースで見る「内閣支持率○％」
天気予報の「降水確率△％」
スポーツ選手の「打率」や「防御率」
健康診断の結果に出てくる「平均値」や「基準値」
商品のレビューの「★の数」の平均

これらはすべて、統計学の考え方に基づいています。統計学を学ぶことで、世の中にあふれる様々なデータ（情報）を正しく読み解き、状況を客観的に判断したり、未来を予測したりする力が身につきます。

このテキストは、数学が苦手な方でも統計学の基本的な考え方を理解できるように、難しい数式はできるだけ使わず、身近な例をたくさん使って、ゆっくり丁寧に解説していきます。「計算が苦手…」という方も心配いりません。大切なのは計算テクニックではなく、「データから何がわかるか？」「どう考えればいいか？」という、ものの見方・考え方です。

さあ、一緒に統計学の世界を探検してみましょう！きっと、世の中を見る目が少し変わるはずです。

第1部：データを上手にまとめて、特徴をつかもう！（記述統計学）

たくさんの数字の集まり（データ）を目の前にしたとき、ただ眺めているだけでは、そのデータが何を表しているのか、どんな特徴があるのかよくわかりませんよね。この章では、集めたデータを分かりやすく整理し、その「顔」とも言える特徴を掴むための方法（記述統計学）を学びます。

第1章：データって何？～数字だけじゃない、いろんな情報～

まず、「データ」にはどんな種類があるのか見てみましょう。（詳しくは統計学入門 (基礎統計学Ⅰ) 第1章 1.2節参照）

量的データ: 数字で測れるデータのことです。
- 離散（りさん）データ: 個数のように、とびとびの値しかとらないもの。例：部屋にある椅子の数（3脚、4脚… 3.5脚はない）、サイコロの目（1, 2, ..., 6）
- 連続データ: 長さや重さのように、連続的な値をとる可能性があるもの。例：身長（165.2cm、165.25cm… 理論上はもっと細かく測れる）、温度（25.3℃）
質的データ: 「男/女」や「好き/嫌い」のように、カテゴリー（種類）で分けられるデータのことです。数字ではありませんが、これも立派なデータです。例：血液型（A, B, O, AB）、アンケートの満足度（満足、普通、不満）

統計学では、どちらのタイプのデータも扱います。

第2章：グラフで見てみよう！～データの見た目を整える～

データがたくさんあると、数字の羅列だけではピンときません。そんなときは、グラフにしてみると、データ全体の様子がパッと見てわかるようになります。（詳しくは統計学入門 (基礎統計学Ⅰ) 第2章 2.1節参照）

2.1 ヒストグラム：データの山の形を見る

たくさんの量的データがあるとき、それをいくつかの区間（階級といいます）に区切って、それぞれの区間にデータがいくつ入っているか（これを度数といいます）を数えます。これを元にして作る柱状のグラフがヒストグラムです。

例：クラス30人のテストの点数 点数を10点ごとの階級に分けてみましょう。

点数（階級）	人数（度数）
0点～10点未満	1人
10点～20点未満	2人
20点～30点未満	3人
30点～40点未満	5人
40点～50点未満	7人
50点～60点未満	6人
60点～70点未満	4人
70点～80点未満	1人
80点～90点未満	1人
90点～100点	0人
合計	30人

これをヒストグラムにすると、下のようなグラフになります。

（ここに、上記の表に対応するヒストグラムの図を挿入するイメージ。40-50点の柱が一番高く、左右になだらかに低くなる山の形）

ヒストグラムからわかること

分布の形: データがどのあたりに集中しているか（山のてっぺんはどこか）、左右対称か、どちらかに偏っている（歪んでいる）か、などがわかります。
外れ値: 他のデータから極端に離れた値がないかどうかも見つけやすくなります。

ヒストグラムを作るコツ

階級の幅: 幅が広すぎると大雑把になりすぎ、狭すぎるとギザギザしすぎて全体の形が見えにくくなります。適切な幅を見つけるのがコツです（スタージェスの公式などが参考になりますが、まずは見やすい幅を探してみましょう）。
階級の数: 多すぎず少なすぎず。通常5～15個くらいが目安です。

2.2 その他のグラフ

質的データの場合は、棒グラフや円グラフがよく使われます。

棒グラフ: カテゴリーごとの量（度数）を棒の長さで表します。比較しやすいのが特徴です。
円グラフ: 全体に対する各カテゴリーの割合を、円を扇形に分割して示します。構成比を見たいときに便利です。

第3章：データの特徴を数字で表す～平均だけじゃない！～

グラフで全体の形をつかんだら、次はデータの特徴を具体的な数字で表してみましょう。

3.1 代表値：データの「真ん中」はどこ？ (統計学入門 (基礎統計学Ⅰ) 第2章 2.2節参照)

データ全体を代表するような「真ん中」あたりの値のことを代表値といいます。

平均（へいきん）値 (Mean) 一番おなじみの代表値ですね。すべてのデータの値を合計して、データの個数で割ったものです。 計算式: (データの合計) ÷ (データの個数) 例: 5人のテストの点数が 50, 60, 70, 80, 90 点なら、平均は (50+60+70+80+90) ÷ 5 = 70点。 注意点: 平均値は計算が簡単ですが、一つだけ極端に大きい（または小さい）値（外れ値といいます）があると、それに大きく引っ張られてしまうことがあります。例: 5人の年収が 300万, 350万, 400万, 450万, 2000万 の場合、平均は約700万円になりますが、多くの人(4人)の実感とはかけ離れてしまいますね。
中央値（ちゅうおうち） (Median) データを小さい順（または大きい順）に並べたときに、ちょうど真ん中に来る値のことです。 見つけ方:
1. データを小さい順に並べる。
2. データの個数が奇数なら、ど真ん中の値が中央値。例：10, 20, 50, 60, 90 → 中央値は50
3. データの個数が偶数なら、真ん中の2つの値の平均（足して2で割る）が中央値。例：10, 20, 50, 60, 90, 100 → 中央値は (50+60)÷2 = 55 特徴: 中央値は、平均値と違って外れ値の影響を受けにくい、という頑丈な（頑健といいます）性質があります。先の年収の例では、中央値は400万円となり、より実感に近い値になります。
最頻値（さいひんち） (Mode) データの中で、最もたくさん出てくる値（最も度数が多い値）のことです。例: 10, 20, 50, 50, 50, 60, 90 → 最頻値は50 特徴: ヒストグラムでいうと、一番高い山のてっぺんに相当します。質的データ（例：一番人気のある色）にも使えます。ただし、最頻値が複数あったり、一つもなかったりする場合もあります。

どの代表値を使う？ どの代表値が適しているかは、データの性質や知りたいことによります。 * データが左右対称に近い分布なら、平均値、中央値、最頻値はだいたい同じ値になります。 * データに偏り（歪み）があったり、外れ値があったりする場合は、中央値の方がデータの「真ん中」をうまく表していることが多いです。

3.2 散布度：データの「ばらつき」はどれくらい？ (統計学入門 (基礎統計学Ⅰ) 第2章 2.3節参照)

代表値だけでは、データの様子を十分に捉えられません。例えば、次の2つのクラスのテストの点数を見てください。

Aクラス： 65, 70, 70, 70, 75 点（平均70点）
Bクラス： 10, 50, 70, 100, 120 点（平均70点）

どちらのクラスも平均点は70点ですが、点数の散らばり具合は全然違いますね。Aクラスは平均点あたりに固まっていますが、Bクラスは広く散らばっています。このデータの散らばりの度合いを表す指標を散布度といいます。

範囲（はんい） (Range) 最も簡単な散布度で、データの最大値と最小値の差です。 計算式: 最大値 - 最小値例: Aクラスの範囲は 75 - 65 = 10点。Bクラスの範囲は 120 - 10 = 110点。 注意点: 計算は簡単ですが、最大値と最小値という2つの値しか使わないので、外れ値の影響を非常に受けやすく、データ全体のばらつきを正確に表せないことがあります。
分散（ぶんさん） (Variance) データのばらつきを表す最も代表的な指標です。各データが平均値からどれだけ離れているか（この離れ具合を偏差といいます）を見て、その偏差を2乗したものの平均（に近い値）を計算します。2乗するのは、プラスの偏差とマイナスの偏差が打ち消しあうのを防ぐためです。 計算の考え方:
1. 各データの偏差（データ値 - 平均値）を計算する。
2. 各偏差を2乗する。
3. 2乗した偏差をすべて合計する。
4. 合計値を「データの個数 - 1」で割る。（なぜ「-1」するかは、後の推測統計学で重要になりますが、ここでは「おまじない」だと思ってください。こうすると都合が良い性質が得られます。） 計算式: $s^2 = \frac{\sum (データ値 - 平均値)^2}{データの個数 - 1}$ （Σ は「すべて合計する」という意味の記号です）特徴: 分散が大きいほど、データが平均値から広く散らばっていることを意味します。
標準偏差（ひょうじゅんへんさ） (Standard Deviation) 分散は偏差を2乗しているので、元のデータと単位が異なります（例：点数なら「点数の2乗」になる）。これを元の単位に戻すために、分散の正の平方根をとったものが標準偏差です。記号は $s$ で表します。 計算式: $s = \sqrt{分散}$ 特徴: 標準偏差も、値が大きいほどばらつきが大きいことを意味します。平均値±標準偏差の範囲にどれくらいのデータが入るか、など、データの散らつき具合を解釈する上でよく使われます (特に正規分布の場合)。

例：AクラスとBクラスの分散・標準偏差 （計算は少し大変なので省略しますが、結果は以下のようになります） * Aクラス：分散 $s^2 = 12.5$, 標準偏差 $s \approx 3.54$ 点 * Bクラス：分散 $s^2 = 2050$, 標準偏差 $s \approx 45.28$ 点やはり、Bクラスの方が分散・標準偏差が非常に大きいことがわかります。

3.3 標準得点（Z得点）：比べにくいものを比べる

テストの点数のように、平均点や点数の散らばり具合（標準偏差）が異なるものを比べたいときがあります。例えば、数学で80点と国語で70点は、どちらが良い成績と言えるでしょうか？数学の平均が90点で国語の平均が50点だったら？

こんなとき、標準得点（Z得点）を使うと便利です。これは、各データの値を「平均値から標準偏差いくつ分離れているか」という尺度に変換するものです。 計算式: $Z得点 = \frac{データ値 - 平均値}{標準偏差}$ 特徴: * Z得点の平均は必ず0になります。 * Z得点の標準偏差は必ず1になります。 * 単位がなくなるので、平均や標準偏差が異なるデータ同士でも、その相対的な位置を比較できます。

先の例で、もし数学の平均が90点、標準偏差が10点なら、80点のZ得点は (80-90)/10 = -1.0 です。一方、国語の平均が50点、標準偏差が15点なら、70点のZ得点は (70-50)/15 $\approx$ 1.33 です。この場合、国語の70点の方が相対的に良い成績だと言えます。

第4章：2つのデータの関係を探る～身長と体重は関係ある？～

これまでは一つのデータ（例えば身長だけ）の特徴を見てきましたが、今度は2種類のデータ（例えば身長と体重）の関係を見てみましょう。（詳しくは統計学入門 (基礎統計学Ⅰ) 第3章参照）

4.1 散布図：目で見るデータの関係

2種類の量的データ（$x$ と $y$ とします）の組がたくさんあるとき、横軸に $x$、縦軸に $y$ をとって、データの点をプロットしたグラフを散布図といいます。

例：身長(x)と体重(y)のデータ （ここに、右肩上がりに点が分布する散布図のイメージを挿入）

散布図からわかること

相関の有無: 点が全体として右上がりなら正の相関（一方が増えると他方も増える傾向）、右下がりなら負の相関（一方が増えると他方は減る傾向）、ばらばらなら無相関（特別な関係は見られない）といいます。
関係の強さ: 点が直線に近い形で並んでいれば「強い相関」、ばらけていれば「弱い相関」があるといえます。
関係の形: 関係は直線的か、それとも曲線的か。外れ値はないか。

散布図を描くことは、2つのデータの関係を分析する第一歩として非常に重要です。

4.2 相関係数：関係の強さを数字で表す

散布図で見た関係の強さや向きを、一つの数字で表したものが（ピアソンの）相関係数です。記号は $r$ で表します。 計算式: （少し複雑なのでここでは省略しますが、各データがそれぞれの平均からどれだけ離れているかの積（共分散）を、それぞれの標準偏差で基準化したものです。） $$ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} $$

相関係数 $r$ の特徴

範囲: 必ず -1 から +1 までの値をとります（$-1 \le r \le +1$）。
符号:
- $r > 0$ なら正の相関（右上がりの傾向）
- $r < 0$ なら負の相関（右下がりの傾向）
- $r = 0$ なら無相関（直線的な関係はない）
強さ:
- $|r|$ が 1 に近いほど、強い直線的な関係があります。
- $r = +1$ または $r = -1$ のとき、データは完全に一直線上に並びます。
- $|r|$ が 0 に近いほど、直線的な関係は弱い、または無いことを意味します。

注意点

直線関係: 相関係数は、あくまで直線的な関係の強さを見る指標です。データが曲線的な関係を持っていても、$r$ が0に近くなることがあります。
外れ値: 相関係数も外れ値の影響を受けることがあります。
相関 ≠ 因果: 「相関関係がある」ことと、「一方が原因で他方が結果である」という因果関係があることは全く別の問題です！例えば、「アイスクリームの売上」と「水難事故件数」には夏に両方増えるという正の相関がありますが、アイスクリームが水難事故の原因ではありません（共通の原因として「気温」があります）。これを混同しないように注意が必要です（このような見せかけの相関を疑似相関といいます）。

4.3 回帰直線：関係を予測する線

2つのデータ $x$ と $y$ の間に直線的な関係がありそうなとき、$x$ の値から $y$ の値を予測するための直線を引きたくなることがあります。データに最もよく当てはまる直線を引く方法の一つが最小二乗法です。

これは、各データ点と直線との縦方向のズレ（残差といいます）の2乗の合計が最小になるように直線の傾きと切片を決める方法です。 回帰直線の方程式: $\hat{y} = a + bx$ （$a$が切片、$b$が傾き。計算式は統計学入門 (基礎統計学Ⅰ) の (13.5) を参照してください。$b = r (s_y/s_x)$ とも書けます。） $\hat{y}$ は、$x$ の値から予測される $y$ の値（予測値）を表します。

決定係数 $R^2$ この回帰直線が、元のデータ $y$ のばらつきをどれくらい上手く説明できているかを示す指標が決定係数です（$r^2$ と書くことも多い）。 計算式: $R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}$ （残差平方和 / 全変動）特徴: * $0 \le R^2 \le 1$ です。 * $R^2$ が 1 に近いほど、回帰直線がデータによく当てはまっている（説明力が高い）ことを意味します。 * $R^2$ が 0 に近いほど、回帰直線は $y$ のばらつきをほとんど説明できていないことを意味します。 * 単純な直線関係（単回帰）の場合、$R^2$ は相関係数 $r$ の2乗に等しくなります ($R^2 = r^2$)。

回帰直線と決定係数を使うことで、変数間の関係をより深く分析したり、予測したりすることが可能になります。

第2部：偶然を扱うルール～確率はギャンブルだけじゃない！～

世の中には、結果が前もってピタリとはわからない「偶然」に左右される出来事がたくさんあります。コイン投げの結果、明日の天気、事故の発生…。一見、予測不可能なこれらの現象にも、実は一定のルールや法則性があります。この章では、その「偶然」を数学的に扱うための道具である確率の基本的な考え方を学びます。

第5章：偶然と確率の基本～サイコロの目はどう出る？～

（詳しくは統計学入門 (基礎統計学Ⅰ) 第4章 4.1-4.3節参照）

試行（しこう）: コイン投げやサイコロ投げのように、結果が偶然によって決まる実験や観察のこと。
標本空間（ひょうほんくうかん） $\Omega$: 試行によって起こりうるすべての結果を集めたもの。例：サイコロ1回投げなら $\Omega = \{1, 2, 3, 4, 5, 6\}$
事象（じしょう）: 試行の結果として起こる事がら。標本空間の部分集合。例：サイコロで「偶数の目が出る」という事象 $A=\{2, 4, 6\}$
根元事象（こんげんじしょう）: それ以上分解できない基本的な結果。例：サイコロで「1の目が出る」$\{1\}$

確率とは？ ある事象が起こる「確からしさ」の度合いを 0 から 1 の間の数値で表したものです。0 なら絶対に起こらない、1 なら必ず起こる、0.5 なら起こる確率と起こらない確率が半々、という意味です。

確率の決め方（ラプラスの定義） 最も基本的な考え方は、「同様に確からしい」結果に基づくものです。もし、起こりうるすべての根元事象が同じ確率で起こる（同様に確からしい）と仮定できるなら、 $$ P(事象A) = \frac{事象Aに含まれる根元事象の数}{標本空間全体の根元事象の数} $$ と計算できます。 例：イカサマでないサイコロを1回投げる * 標本空間は $\Omega = \{1, 2, 3, 4, 5, 6\}$ で、根元事象は6個。それぞれ起こる確率は等しく 1/6。 * 事象「偶数の目が出る」$A=\{2, 4, 6\}$ に含まれる根元事象は3個。 * よって、$P(A) = 3 / 6 = 1/2$。

確率の基本的なルール（公理） どんな確率 $P(A)$ も、次の3つの基本的なルールを満たします。 1. どんな事象 $A$ でも、$P(A) \ge 0$ （確率はマイナスにならない）。 2. $P(\Omega) = 1$ （必ず何かの結果が起こる）。 3. 互いに同時には起こらない（排反な）事象 $A, B$ について、$P(AまたはB) = P(A) + P(B)$ （確率を足し算できる）。

第6章：確率の計算ルール～足したり引いたり～

（詳しくは統計学入門 (基礎統計学Ⅰ) 第4章 4.4, 4.5節参照）

補事象の確率: 事象 $A$ が起こらない確率 $P(A^c)$ は、$P(A^c) = 1 - P(A)$。例：「偶数が出ない」確率 = 1 - 「偶数が出る」確率 = 1 - 1/2 = 1/2。
加法定理: 2つの事象 $A, B$ のどちらか一方または両方が起こる確率 $P(A \cup B)$ は、 $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ （$P(A \cap B)$ は $A$ と $B$ が両方とも起こる確率）。なぜ引き算が必要かというと、$P(A)$ と $P(B)$ を単純に足すと、$A$ と $B$ の両方に含まれる部分（積事象 $A \cap B$）を2回数えてしまうからです。例：トランプから1枚引く。「ハートが出る」事象を $H$、「絵札(J,Q,K)が出る」事象を $E$ とする。 $P(H)=13/52$, $P(E)=12/52$。「ハートの絵札が出る」事象 $H \cap E$ は3枚あるので $P(H \cap E)=3/52$。「ハートまたは絵札が出る」確率 $P(H \cup E) = P(H) + P(E) - P(H \cap E) = 13/52 + 12/52 - 3/52 = 22/52$。
条件付き確率: 事象 $B$ が起こったという条件のもとで、事象 $A$ が起こる確率 $P(A|B)$。 計算式: $P(A|B) = \frac{P(A \cap B)}{P(B)}$ （ただし $P(B)>0$）例：サイコロで「出た目は偶数だった($B$)」という条件のもとで、「4の目である($A$)」確率。 $A \cap B$ は「偶数かつ4の目」なので $\{4\}$。$P(A \cap B)=1/6$。 $B=\{2, 4, 6\}$ なので $P(B)=3/6$。 $P(A|B) = (1/6) / (3/6) = 1/3$。 (偶数 $\{2, 4, 6\}$ の中で4が出る確率なので直感的にも正しいですね)
乗法定理: $A$ と $B$ が両方とも起こる確率 $P(A \cap B)$ は、 $P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)$ 例：袋の中に赤玉3個、白玉2個。2回玉を取り出す（戻さない）。1回目赤($A$)、2回目白($B$)の確率は？ $P(A)=3/5$。 1回目に赤が出た条件の下で、2回目に白が出る確率 $P(B|A)=2/4$。 $P(A \cap B) = P(B|A)P(A) = (2/4) \times (3/5) = 6/20 = 3/10$。
独立な事象: 2つの事象 $A, B$ が独立であるとは、一方の発生が他方の発生確率に影響を与えないこと。数学的には、 $P(A \cap B) = P(A)P(B)$ が成り立つこと。これは $P(A|B)=P(A)$ や $P(B|A)=P(B)$ と同じ意味です。例：コインを2回投げる。1回目に表が出る事象 $A$ と2回目に表が出る事象 $B$ は独立。$P(A \cap B) = P(A)P(B) = (1/2) \times (1/2) = 1/4$。

第3部：偶然を数式でモデル化しよう！（確率変数と確率分布）

偶然に起こる現象の結果を数値で表し（確率変数）、その数値がどのような確率で現れるか（確率分布）を見ていきます。これにより、現象を数学的に扱う準備が整います。

第7章：偶然の結果を数字で表す～確率変数ってなに？～

（詳しくは統計学入門 (基礎統計学Ⅰ) 第5章 5.1節参照）

サイコロを投げたときの「出る目」や、コインを投げたときの「表が出た回数」のように、試行の結果によって値が確率的に決まる変数を確率変数 (Random Variable) といいます。通常、大文字の $X, Y, Z$ などで表します。

確率変数には、離散型と連続型があります。

離散型確率変数: とびとびの値をとる確率変数。例：サイコロの目 $X$（値は 1, 2, 3, 4, 5, 6）例：コインを3回投げたときの表の回数 $Y$（値は 0, 1, 2, 3）離散型確率変数が特定の値 $x$ をとる確率 $P(X=x)$ を確率質量関数 (PMF) といい、$p(x)$ などで表します。すべての可能な $x$ について $p(x) \ge 0$ であり、$\sum p(x) = 1$ となります。
連続型確率変数: ある範囲内の任意の実数値をとる確率変数。例：ランダムに選んだ人の身長 $X$ 例：電球の寿命 $T$ 連続型確率変数が特定の値ピッタリをとる確率 $P(X=c)$ は 0 になります（身長が正確に170.000...cmの確率は0）。そのため、ある範囲に入る確率を考えます。これを記述するのが確率密度関数 (PDF) $f(x)$ です。特徴:
1. $f(x) \ge 0$ （マイナスにはならない）
2. 曲線 $y=f(x)$ と横軸で囲まれた全面積は 1 になる ($\int f(x)dx = 1$)。
3. $a \le X \le b$ となる確率は、曲線 $y=f(x)$ の $x=a$ から $x=b$ までの間の面積に等しい ($P(a \le X \le b) = \int_a^b f(x)dx$)。 $f(x)$ 自体は確率ではありませんが、$f(x)$ が大きい場所ほど、確率変数がその近くの値をとる「密度」が高いことを意味します。

累積分布関数 (CDF) 確率変数 $X$ がある値 $x$ 以下である確率 $F(x) = P(X \le x)$ を累積分布関数といいます。これは、離散型・連続型どちらの確率変数に対しても定義でき、確率分布の情報を完全に持っています。グラフは必ず右上がり（または水平）で、0から1に達します。

第8章：期待値と分散～確率変数の「平均」と「ばらつき」～

（詳しくは統計学入門 (基礎統計学Ⅰ) 第5章 5.2節参照）

確率変数が「平均してどのくらいの値をとるか」や「その平均値の周りにどれくらいばらつくか」を知ることは非常に重要です。

期待値（きたいち） (Expected Value) 確率変数 $X$ が「平均して」とるであろう値のこと。記号は $E(X)$ または $\mu$ で表します。確率を重みとした加重平均のようなものです。 計算の考え方:
- 離散型: (とる値) × (その値をとる確率) を、すべての可能な値について合計する。 $E(X) = \sum x P(X=x)$ 例：サイコロの目 $X$ の期待値 $E(X) = 1\times(1/6) + 2\times(1/6) + \dots + 6\times(1/6) = 3.5$。
- 連続型: (とる値 $x$) × (確率密度 $f(x)$) を、すべての可能な範囲で積分する。 $E(X) = \int x f(x) dx$ 意味: 確率分布の「重心」の位置を表します。
分散 (Variance) 確率変数 $X$ がその期待値 $\mu$ の周りにどれだけばらついているかを示す指標。記号は $V(X)$ または $\sigma^2$ で表します。期待値からのズレ $(X-\mu)$ の2乗の期待値です。 計算式: $V(X) = E[(X-\mu)^2]$ 便利な計算式: $V(X) = E(X^2) - \{E(X)\}^2 = E(X^2) - \mu^2$ （$X$の2乗の期待値から、期待値の2乗を引く）意味: 分散が大きいほど、期待値から離れた値をとる可能性が高い（ばらつきが大きい）。
標準偏差 (Standard Deviation) 分散の正の平方根 $\sigma = \sqrt{V(X)}$。単位が元の確率変数 $X$ と同じになるので、ばらつきの大きさを解釈しやすい。

期待値と分散の性質 （$a, b$ は定数、 $X, Y$ は確率変数） * $E(aX+b) = aE(X) + b$ * $V(aX+b) = a^2 V(X)$ （定数を足してもばらつきは変わらない！） * $E(X+Y) = E(X) + E(Y)$ * もし $X$ と $Y$ が独立なら、$V(X+Y) = V(X) + V(Y)$ （独立でない場合は共分散の項が必要）

第9章：世の中にあふれる確率分布～よく使われるモデルたち～

（詳しくは統計学入門 (基礎統計学Ⅰ) 第6章参照）特定の状況によく当てはまる、名前のついた確率分布がたくさんあります。ここでは特に重要なものをいくつか紹介します。

二項分布 (Binomial Distribution)
- 状況：「成功」か「失敗」のどちらかの結果になる試行（ベルヌーイ試行）を、独立に $n$ 回繰り返したときの、成功回数 $X$ の分布。
- 例：コインを10回投げて表が出る回数、製品を100個検査して不良品が出る個数。
- 母数（パラメータ）：試行回数 $n$、成功確率 $p$。記号 $Bi(n, p)$。
- 期待値 $np$、分散 $np(1-p)$。
ポアソン分布 (Poisson Distribution)
- 状況：ある一定期間や一定空間内で、「まれに」起こる事象の発生回数 $X$ の分布。
- 例：1時間にかかってくる電話の回数、1ページあたりの誤字の数、1年間の大きな交通事故の件数。
- 母数：平均発生回数 $\lambda$（ラムダ）。記号 $Po(\lambda)$。
- 期待値 $\lambda$、分散 $\lambda$（期待値と分散が等しいのが特徴！）。
- 二項分布で $n$ が非常に大きく $p$ が非常に小さい場合、$np \approx \lambda$ としてポアソン分布で近似できます。
正規分布 (Normal Distribution)
- 状況：統計学で最も重要な連続型の分布。多くの自然現象や社会現象（身長、測定誤差など）がこの分布に（近似的に）従うとされる。釣鐘型（ベル型）の左右対称な形。
- 母数：平均 $\mu$、分散 $\sigma^2$。記号 $N(\mu, \sigma^2)$。
- 期待値 $\mu$、分散 $\sigma^2$。
- 標準正規分布: 平均 0, 分散 1 ($N(0,1)$) の正規分布。任意の正規分布 $N(\mu, \sigma^2)$ は、$Z = (X-\mu)/\sigma$ という標準化によって $N(0,1)$ に変換できる。この $Z$ の値に対する確率（面積）は正規分布表（教科書の巻末などにある）で調べられる。
- 中心極限定理（後述）により、多くの統計量の分布が（標本サイズが大きいとき）正規分布で近似できるため、非常に応用範囲が広い。
指数分布 (Exponential Distribution)
- 状況：ポアソン分布に従うような「まれな」事象が、次に起こるまでの待ち時間 $T$ の分布。
- 例：機械が故障するまでの時間、地震が起きてから次の地震が起きるまでの時間（発生がランダムな場合）。
- 母数：平均発生率 $\lambda$（ポアソン分布と同じ）。記号 $Ex(\lambda)$。
- 期待値 $1/\lambda$、分散 $1/\lambda^2$。
- 「待てば待つほど、これから待つ時間は変わらない」という無記憶性を持つのが特徴。

これらの他にも多くの重要な分布（一様分布、ガンマ分布、t分布、カイ二乗分布、F分布など）がありますが、まずはこれらの代表的な分布のイメージを掴んでおきましょう。

第4部：一部から全体を知る技（推測統計学入門）

実験や調査で得られるデータは、あくまで全体の一部（標本）です。しかし、私たちが本当に知りたいのは、その背後にある全体（母集団）のことです。この章では、手元にある標本データから、未知の母集団の姿を推測するための基本的な考え方と方法（推測統計学）を学びます。

第10章：全体と部分の関係～母集団と標本～

（詳しくは統計学入門 (基礎統計学Ⅰ) 第9章 9.1, 9.2節参照）

母集団 (Population): 関心の対象となるすべてのデータの集まり。例：日本の全有権者の内閣支持率、ある工場で作られた全製品の強度。
標本 (Sample): 母集団から調査・測定のために選び出された一部のデータ。例：無作為に選ばれた1000人の有権者の内閣支持率、抜き取り検査された10個の製品の強度。
母数（ぼすう） (Parameter): 母集団の特性を表す値。通常、未知であり、私たちが知りたい対象。ギリシャ文字（$\mu, \sigma^2, p$ など）で表すことが多い。例：母平均 $\mu$（母集団全体の平均）、母分散 $\sigma^2$（母集団全体の分散）、母比率 $p$（母集団全体である特性を持つ割合）。
統計量（とうけいりょう） (Statistic): 標本データだけから計算される量。母数を推測するために使う。アルファベット（$\bar{X}, s^2, \hat{p}$ など）で表すことが多い。例：標本平均 $\bar{X}$、標本（不偏）分散 $s^2$、標本比率 $\hat{p}$。

なぜ標本を使うの？ 母集団全体を調べる（全数調査）のは、多くの場合、時間・費用・労力の面で不可能だったり、製品検査のように対象を破壊してしまうため現実的でなかったりします。そこで、母集団から適切に（無作為に）標本を選び、その標本を調べることで、母集団全体を推測しよう、というのが基本的な考え方です。

標本抽出（サンプリング） 母集団から標本を選ぶ方法です。標本が母集団の「縮図」となるように、偏りなく選ぶことが重要です。単純無作為抽出（ランダムサンプリング）は、母集団の各要素が等しい確率で選ばれる方法で、最も基本的な抽出法です。

第11章：データから未知の値を当てる～推定の考え方～

（詳しくは統計学入門 (基礎統計学Ⅰ) 第11章 11.1-11.4節参照）標本データを使って、未知の母数（例えば母平均 $\mu$）の値を推し量ることを推定 (Estimation) といいます。

11.1 点推定：一点ばりで当てる

母数の値をただ一つの数値で推定する方法です。

推定量: 母数を推定するために使う統計量（計算式）。例：母平均 $\mu$ の推定量として標本平均 $\bar{X}$。
推定値: 実際に得られた標本データから計算した推定量の具体的な値。例：$\bar{X}$ の計算結果が 165.9cm。

良い推定量の条件は？ どんな統計量でも推定量になれますが、「良い」推定量にはいくつかの望ましい性質があります。 * 不偏性: 推定量の期待値（平均的な値）が、真の母数の値と一致すること。つまり、平均的には当たり外れがない（偏っていない）推定量。例：$E(\bar{X})=\mu$, $E(s^2)=\sigma^2$ なので、$\bar{X}$ と $s^2$ はそれぞれ $\mu$ と $\sigma^2$ の不偏推定量です。 * 一致性: 標本の大きさ $n$ を大きくしていくと、推定量が真の母数の値に限りなく近づいていく性質。例：$\bar{X}$ や $s^2$ は一致推定量でもあります（大数の法則）。

推定量の作り方 代表的な方法にモーメント法と最尤（さいゆう）法があります。 * モーメント法: 母集団のモーメント（平均、分散などに関連する量）と標本のモーメントが等しい、と考えて母数を推定する方法。 * 最尤法: 手元にある標本が「最も起こりやすい（尤もらしい）」ように母数の値を決める方法。統計的に良い性質を持つことが多い。

11.2 区間推定：範囲で当てる

点推定では、推定値が真の母数の値とピッタリ一致することは稀です。そこで、ある程度の「幅」を持たせて、「この区間の中に、たぶん真の母数があるだろう」と推定するのが区間推定 (Interval Estimation) です。

信頼区間 (Confidence Interval): 「真の母数 $\theta$ が、計算された区間 $[L, U]$ の中に含まれる」という主張が、ある高い確率（信頼係数 $1-\alpha$）で成り立つように作られた区間。
信頼係数 (Confidence Coefficient): 信頼区間が真の母数を含む確率。通常 $1-\alpha$ で表し、95% ($ \alpha=0.05$) や 99% ($\alpha=0.01$) など、高い値に設定します。
信頼限界: 区間の下端 $L$ と上端 $U$ のこと。

信頼区間の意味（重要！） 「95%信頼区間が [10, 20] だった」というのは、「母数が10から20の間にある確率が95%」ではありません。正しくは、「同じ方法で標本抽出と区間推定を100回繰り返したら、そのうち約95回の区間が真の母数を含むだろう」という意味です。計算された一つの区間 $[L, U]$ については、母数 $\theta$ はその中にあるかないかのどちらかです。信頼係数は、この推定の手続きに対する信頼度を表します。

信頼区間の求め方（正規分布の母平均 $\mu$ の場合、$\sigma^2$は未知） 1. 標本データから標本平均 $\bar{X}$ と標本（不偏）標準偏差 $s$ を計算する。 2. 信頼係数 $1-\alpha$ と自由度 $n-1$ に対応する $t$ 分布のパーセント点 $t_{\alpha/2}(n-1)$ を数表（付表2など）から見つける。（$t$分布は正規分布に似た釣鐘型の分布です） 3. 信頼区間を計算する： $$ \left[ \bar{X} - t_{\alpha/2}(n-1) \frac{s}{\sqrt{n}}, \quad \bar{X} + t_{\alpha/2}(n-1) \frac{s}{\sqrt{n}} \right] $$ 区間の幅は、$n$ が大きいほど、また $s$ が小さいほど狭くなり、より精密な推定になります。

他の母数（母分散、母比率、母平均の差など）についても、それぞれ対応する標本分布（$\chi^2$分布、正規分布（近似）、$F$分布など）を使って信頼区間を求めることができます。（詳しくは統計学入門 (基礎統計学Ⅰ) 第11章 11.5節参照）

第12章：仮説は正しいか？～偶然では片付けられない差か？～

（詳しくは統計学入門 (基礎統計学Ⅰ) 第12章 12.1, 12.2節参照）「この新薬には効果があると言えるか？」「AクラスとBクラスの平均点に本当に差はあるのか？」といった、母集団に関する仮説が正しいかどうかを、標本データに基づいて判断する手続きが仮説検定 (Hypothesis Testing) です。

検定の基本的な考え方 1. 仮説を立てる: * 帰無仮説 ($H_0$): 検証したい仮説。通常、「差がない」「効果がない」といった否定的な形をとる。（例：$H_0$: 新薬の効果はない ($\mu_{薬}=\mu_{対照}$）） * 対立仮説 ($H_1$): 帰無仮説が棄却された場合に採択される仮説。（例：$H_1$: 新薬の効果はある ($\mu_{薬} \ne \mu_{対照}$ または $\mu_{薬} > \mu_{対照}$）） 2. 判断基準（有意水準）を決める: * 有意水準 ($\alpha$): 「帰無仮説が正しいのに、間違って棄却してしまう」という第一種の誤りを犯す確率の上限。通常 5% ($\alpha=0.05$) や 1% ($\alpha=0.01$) に設定する。 3. 証拠（検定統計量）を集める: * 仮説を検証するための証拠となる統計量（検定統計量）を標本データから計算する。検定統計量は、帰無仮説が正しい場合に、その値がどのような確率分布（標本分布）に従うかがわかっているものを選ぶ。 4. 判定する: * もし帰無仮説が正しいとしたら、計算された検定統計量の値、あるいはそれ以上に極端な値が得られる確率はどれくらいか？（この確率を p値という） * もし $p$ 値が設定した有意水準 $\alpha$ より小さければ（$p \le \alpha$）、それは「帰無仮説が正しいとしたら、滅多に起こらないことが起こってしまった」と考える。 * そこで、「帰無仮説は間違っているのだろう」と判断し、$H_0$ を棄却 (reject) して、$H_1$ を支持する。 * もし $p$ 値が $\alpha$ より大きければ（$p > \alpha$）、帰無仮説を棄却するほどの強い証拠はないと判断し、$H_0$ を棄却しない (accept とは言わないことが多い)。

棄却域による判定 $p$値の代わりに、あらかじめ棄却域を設定する方法もあります。 * 帰無仮説が正しいとした場合に、検定統計量の値が（対立仮説の方向に）極端な値をとる領域（合計の確率が $\alpha$ になるように）を棄却域として定める。 * 計算した検定統計量の値が棄却域に入れば $H_0$ を棄却し、入らなければ棄却しない。

両側検定と片側検定 * 両側検定: 対立仮説が $\neq$ （等しくない）の場合。棄却域は分布の両端にとる。 * 片側検定: 対立仮説が $>$ （より大きい）または $<$ （より小さい）の場合。棄却域は分布の片側だけにとる。

代表的な検定：母平均 $\mu$ の検定（$t$検定） * 帰無仮説: $H_0: \mu = \mu_0$ （母平均は特定の値 $\mu_0$ である） * 対立仮説: $H_1: \mu \ne \mu_0$ （両側）または $H_1: \mu > \mu_0$, $H_1: \mu < \mu_0$ （片側） * 検定統計量: $t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}}$ * 標本分布: $H_0$ のもとで、自由度 $n-1$ の $t$ 分布に従う。 * 判定: 計算した $t$ 値と、$t$分布表から求めた棄却域（または $p$値）を比較して判定する。

例：飲料の成分量 ある飲料は成分Aを 15mg 含むはずである ($H_0: \mu=15$)。無作為に25本抽出し測定したところ、$\bar{X}=13.7, s=2.3$ だった。仕様通りか？($H_1: \mu \ne 15$) 有意水準 $\alpha=0.05$ で検定。 $t = (13.7-15)/(2.3/\sqrt{25}) = -1.3 / 0.46 = -2.826$。自由度 $24 (=25-1)$ の $t$ 分布の両側5%点は $\pm t_{0.025}(24) = \pm 2.064$。 $|-2.826| > 2.064$ なので、棄却域に入る。結論：帰無仮説は棄却され、この飲料の成分Aの平均含有量は 15mg とは異なると判断される（有意水準5%）。

他の仮説（母分散、母比率、母平均の差、独立性など）についても、対応する検定統計量とその標本分布（$\chi^2$分布、正規分布（近似）、$F$分布など）を用いて同様に検定を行うことができます。

第5部：関係性をモデル化する（回帰分析入門）

（詳しくは統計学入門 (基礎統計学Ⅰ) 第13章参照）第4章で見たように、2つの変数に関係がある場合、一方の変数（説明変数 $X$）を使って、もう一方の変数（被説明変数 $Y$）を予測したり説明したりするモデルを作りたいことがあります。これが回帰分析です。

単回帰モデル 最も簡単なのは、直線関係を仮定するモデルです。 $$ Y = \beta_0 + \beta_1 X + \varepsilon $$ * $Y$: 被説明変数（予測したい変数、例：テストの点数） * $X$: 説明変数（予測に使う変数、例：勉強時間） * $\beta_0, \beta_1$: 未知の母数（母回帰係数）。$\beta_0$は切片、$\beta_1$は傾き。 * $\varepsilon$: 誤差項。$X$ だけでは説明できない、$Y$ のばらつきを表す確率的な要素。$E(\varepsilon)=0, V(\varepsilon)=\sigma^2$ を仮定する。

係数の推定（最小二乗法） データ $(X_i, Y_i)$ に対して、誤差の2乗和 $\sum (Y_i - (\beta_0+\beta_1 X_i))^2$ を最小にするように $\hat{\beta}_0, \hat{\beta}_1$ を求めます（計算式は第4章と同じ）。

回帰係数の検定 推定された傾き $\hat{\beta}_1$ が本当に意味を持つのか、つまり「$X$ は $Y$ の説明に役立っているか？」を検定します。これは、帰無仮説 $H_0: \beta_1 = 0$ を検定することに対応します。検定統計量 $t = \hat{\beta}_1 / (\hat{\beta}_1 \text{の標準誤差})$ を計算し、$t$分布（自由度 $n-2$）と比較します。もし $H_0$ が棄却されれば、$\beta_1$ は 0 とは異なり、$X$ は $Y$ の説明に役立っていると判断します。

モデルの当てはまり（決定係数 $R^2$） この回帰モデルが $Y$ の変動をどれだけ説明できているかを $R^2$ で評価します（第4章参照）。

重回帰分析 説明変数が複数ある場合（例：点数 $Y$ を、勉強時間 $X_1$ と睡眠時間 $X_2$ で説明する）を重回帰分析といいます。 $$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \varepsilon $$ 考え方は単回帰と同様ですが、計算はより複雑になり、通常はコンピュータ（統計ソフトやExcelなど）を使います。各係数の有意性やモデル全体の有意性を検定することができます。

おわりに

このテキストでは、統計学の本当に基本的な部分を駆け足で見てきました。データのまとめ方から始まり、確率の考え方、そして標本から全体を推測する推定と検定、さらには変数間の関係を見る回帰分析の入り口までを学びました。

統計学は、データを客観的に分析し、根拠に基づいた判断を下すための強力なツールです。数学が苦手でも、その考え方のエッセンスを理解すれば、新聞の記事をより深く読んだり、実験や調査の結果を正しく解釈したり、あるいは自分自身の判断に自信を持ったりすることができるようになるはずです。

もし、もっと深く学びたい、あるいは実際のデータ分析をやってみたいと思ったら、参考文献にある本を読んだり、統計ソフトを使ってみたりすることをお勧めします。統計学の世界は奥深く、様々な分野で応用されています。このテキストが、その第一歩となることを願っています。

初学者のための統計学超入門