コンテンツにスキップ

工学系向けの統計学入門

工学系向けの統計学入門

第0章 はじめに

統計学 (Statistics) とは、データに基づいて、対象に関する不確実な現象を理解し、有効な推論を行うための方法論を探求する学問分野である。工学の諸分野においても、実験データの解析、製品の品質管理、システムの信頼性評価、シミュレーション結果の分析など、統計的な考え方と手法は不可欠である。

本テキストでは、統計学の基本的な概念と手法を、数学的な視点から解説する。厳密な証明よりも、概念の理解と工学への応用を念頭に置いた記述を心がける。より詳細な議論や具体例、歴史的背景については、参考文献(特に 統計学入門 (基礎統計学Ⅰ) の該当章)を参照されたい。

基本概念

  • 母集団 (Population): 考察の対象となる特性を持つすべての個体(または測定値)の集合。例:ある工場で生産された全製品の強度、ある都市の全住民の年齢。母集団は有限の場合も無限の場合もあるが、多くの場合、無限母集団または非常に大きな有限母集団を想定する。
  • 標本 (Sample): 母集団から、その特性を推測するために抽出された部分集合。標本を抽出することを標本抽出 (Sampling) という。
  • 母集団分布 (Population Distribution): 母集団における特性値の分布。無限母集団の場合、確率分布(確率密度関数または確率質量関数)で記述されることが多い。
  • 標本抽出: 母集団から標本を選ぶ手続き。特に断らない限り、各個体が等確率で選ばれる無作為抽出 (Random Sampling) を仮定する。
  • 記述統計学 (Descriptive Statistics): 収集したデータ(標本データ)の特徴を要約し、記述するための手法。例:平均値、分散、ヒストグラム。
  • 推測統計学 (Inferential Statistics): 標本データに基づいて、母集団の特性(母数)を推測したり、母集団に関する仮説を検証したりするための手法。

データの種類 (統計学入門 (基礎統計学Ⅰ) 第1章 1.2節参照)

  • 量的データ (Quantitative Data): 数値で測定されるデータ。例:長さ、質量、温度、時間。
    • 離散データ (Discrete Data): とびとびの値をとるデータ。例:不良品の個数、サイコロの目。
    • 連続データ (Continuous Data): ある範囲内の任意の値を取りうるデータ。例:身長、電圧。
  • 質的データ (Qualitative Data / Categorical Data): カテゴリーで分類されるデータ。例:性別(男、女)、評価(優、良、可)。

第1章 記述統計学:データの要約

収集されたデータの特徴を把握するため、グラフや代表値を用いて要約する手法を学ぶ。ここでは主に1次元データ(1つの変数に関するデータ)を扱う。

1.1 度数分布とヒストグラム (統計学入門 (基礎統計学Ⅰ) 第2章 2.1節参照)

多数のデータがある場合、データをいくつかの区間(階級 Class)に分け、各階級に含まれるデータの個数(度数 Frequency)を数えて表にしたものを度数分布表 (Frequency Distribution Table) という。

定義 1.1 (ヒストグラム) 度数分布表を視覚化したグラフをヒストグラム (Histogram) という。横軸に階級を、縦軸に度数を(または階級の幅が一定でない場合は、面積が度数に比例するように高さを調整して)とった柱状グラフである。

ヒストグラムはデータの分布の形状(山型、対称性、歪みなど)を視覚的に捉えるのに有効である。

1.2 代表値:分布の中心 (統計学入門 (基礎統計学Ⅰ) 第2章 2.2節参照)

データの中心的な位置を示す指標を代表値 (Measures of Central Tendency) という。

定義 1.2 (標本平均) \(n\) 個のデータ \(x_1, x_2, \dots, x_n\) に対して、標本平均 (Sample Mean) \(\bar{x}\) を次式で定義する。 $$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$ 標本平均は最も基本的な代表値であるが、極端な値(外れ値)の影響を受けやすい。

定義 1.3 (メディアン) データを小さい順に並べたときの中央の値をメディアン (Median) または中央値という。 * \(n\) が奇数のとき:中央番目(\((n+1)/2\) 番目)の値。 * \(n\) が偶数のとき:中央の2つの値(\(n/2\) 番目と \(n/2+1\) 番目)の平均値。 メディアンは外れ値の影響を受けにくい(頑健 Robust である)。

定義 1.4 (モード) データの中で最も度数が多い値をモード (Mode) または最頻値という。離散データや度数分布表から求めやすいが、一意に決まらない場合や存在しない場合もある。

分布の形状と代表値の関係: * 対称な分布: 平均値 \(\approx\) メディアン \(\approx\) モード * 右に歪んだ分布(右裾が長い): モード < メディアン < 平均値 * 左に歪んだ分布(左裾が長い): 平均値 < メディアン < モード

1.3 散布度:分布のばらつき (統計学入門 (基礎統計学Ⅰ) 第2章 2.3節参照)

データのばらつきの程度を示す指標を散布度 (Measures of Dispersion) という。

定義 1.5 (標本分散・標本標準偏差) \(n\) 個のデータ \(x_1, x_2, \dots, x_n\) (標本平均 \(\bar{x}\))に対して、(不偏)標本分散 (Sample Variance) \(s^2\) を次式で定義する。 $$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$ 計算には \(s^2 = \frac{1}{n-1} \left( \sum_{i=1}^{n} x_i^2 - n\bar{x}^2 \right)\) が便利である。 \(s^2\) の正の平方根 \(s = \sqrt{s^2}\)標本標準偏差 (Sample Standard Deviation) という。

注意: \(n\) で割る定義 \(S^2 = \frac{1}{n} \sum (x_i - \bar{x})^2\) もあるが、推測統計学では母分散の不偏推定量となる \(s^2\)\(n-1\) で割る)を用いるのが標準的である。

定義 1.6 (変動係数) 平均値が異なるデータ群の相対的なばらつきを比較するために、変動係数 (Coefficient of Variation, CV) を用いることがある。 $$ CV = \frac{s}{|\bar{x}|} $$ (単位を持たない無次元量となる。)

定義 1.7 (標準得点) データの値を、平均からの偏差を標準偏差で割って標準化したものを標準得点 (Standard Score) または Z得点 (Z-score) という。 $$ z_i = \frac{x_i - \bar{x}}{s} $$ 標準得点は平均 0、標準偏差 1 となり、単位に依存しない比較が可能になる。

1.4 2次元データ:相関と回帰の基礎 (統計学入門 (基礎統計学Ⅰ) 第3章参照)

2つの量的変数 \((x, y)\) の組 \((x_1, y_1), \dots, (x_n, y_n)\) の関係を調べる。

定義 1.8 (散布図) \((x_i, y_i)\) を座標平面上にプロットした図を散布図 (Scatter Plot) という。変数間の関係(正の相関、負の相関、無相関、線形性、非線形性など)を視覚的に捉える。

定義 1.9 (標本共分散) 2変数間の線形な関連の方向と強さの目安として、標本共分散 (Sample Covariance) \(s_{xy}\) を次式で定義する。 $$ s_{xy} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) $$

定義 1.10 (標本相関係数) 標本共分散を各変数の標準偏差で標準化したものを(ピアソンの)標本相関係数 (Sample Correlation Coefficient) \(r_{xy}\) という。 $$ r_{xy} = \frac{s_{xy}}{s_x s_y} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} $$ 性質: * \(-1 \le r_{xy} \le 1\) * \(|r_{xy}|\) が 1 に近いほど、強い線形関係がある。 * \(r_{xy} > 0\) は正の相関、\(r_{xy} < 0\) は負の相関を示す。 * \(r_{xy}=0\) は無相関(線形関係がない)を示す。

注意: 相関関係は因果関係を意味しない。

定義 1.11 (最小二乗法による単回帰直線) \(y\)\(x\) で説明する線形関係 \(y = \beta_0 + \beta_1 x\) を考える。データ \((x_i, y_i)\) への当てはまりが良い直線を求める方法として最小二乗法 (Method of Least Squares) がある。これは、残差平方和 \(S = \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2\) を最小にする \(\beta_0, \beta_1\) を求める方法である。 最小二乗推定量 \(\hat{\beta}_0, \hat{\beta}_1\) は次式で与えられる。 $$ \hat{\beta}1 = \frac{s $$ 得られた直線 }}{s_x^2} = r_{xy} \frac{s_y}{s_x}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x\(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\)標本回帰直線 (Sample Regression Line) という。

定義 1.12 (決定係数) 回帰直線がデータの変動をどれだけ説明しているかを示す指標として、決定係数 (Coefficient of Determination) \(R^2\) がある。 $$ R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} $$ 単回帰の場合、\(R^2 = r_{xy}^2\) となる。\(0 \le R^2 \le 1\) であり、1に近いほど当てはまりが良い。

第2章 確率

不確実な現象を数学的に扱うための基礎となる確率論の概念を学ぶ。

2.1 標本空間と事象 (統計学入門 (基礎統計学Ⅰ) 第4章 4.1, 4.2節参照)

  • 試行 (Trial): 結果が偶然によって決まる実験や観測。例:コイン投げ、サイコロ投げ。
  • 標本空間 (Sample Space) \(\Omega\): 試行によって起こりうるすべての結果(根元事象 \(\omega\))の集合。
  • 事象 (Event) \(A, B, \dots\): 標本空間 \(\Omega\) の部分集合。根元事象からなる集合。
  • 事象の演算:
    • 和事象 (Union) \(A \cup B\): \(A\) または \(B\) が起こる事象。
    • 積事象 (Intersection) \(A \cap B\): \(A\)\(B\) がともに起こる事象。
    • 補事象 (Complement) \(A^c\): \(A\) が起こらない事象。
    • 空事象 (Empty Event) \(\emptyset\): 決して起こらない事象。
    • 排反事象 (Mutually Exclusive Events): \(A \cap B = \emptyset\) である事象。

2.2 確率の公理 (統計学入門 (基礎統計学Ⅰ) 第4章 4.3節参照)

標本空間 \(\Omega\) 上の各事象 \(A\) に対して定められる実数 \(P(A)\) が以下の確率の公理 (Axioms of Probability) を満たすとき、\(P(A)\) を事象 \(A\)確率 (Probability) という。 1. 非負性: 任意の事象 \(A\) に対して、\(P(A) \ge 0\)。 2. 正規性: \(P(\Omega) = 1\)。 3. 加法性: \(A_1, A_2, \dots\) が互いに排反な事象ならば、\(P(\cup_{i=1}^\infty A_i) = \sum_{i=1}^\infty P(A_i)\)

確率の基本性質 * \(P(\emptyset) = 0\) * \(P(A^c) = 1 - P(A)\) * \(A \subset B \implies P(A) \le P(B)\) * 加法定理: \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)

2.3 条件付き確率と独立性 (統計学入門 (基礎統計学Ⅰ) 第4章 4.5節参照)

定義 2.1 (条件付き確率) 事象 \(B\) が起こったという条件下で事象 \(A\) が起こる条件付き確率 (Conditional Probability) を、\(P(B) > 0\) のとき、 $$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$ と定義する。

乗法定理: \(P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)\)

定義 2.2 (事象の独立性) 2つの事象 \(A, B\)独立 (Independent) であるとは、 $$ P(A \cap B) = P(A)P(B) $$ が成り立つことである。これは、\(P(B) > 0\) ならば \(P(A|B) = P(A)\) と同値である(一方の発生が他方の確率に影響しない)。

定理 2.3 (全確率の法則) \(\{H_1, H_2, \dots, H_k\}\) が標本空間 \(\Omega\) の分割(互いに排反かつ \(\cup H_i = \Omega\))であるとき、任意の事象 \(A\) に対して、 $$ P(A) = \sum_{i=1}^k P(A|H_i)P(H_i) $$

定理 2.4 (ベイズの定理) 全確率の法則と同じ仮定の下で、\(P(A)>0\) ならば、 $$ P(H_j|A) = \frac{P(A|H_j)P(H_j)}{P(A)} = \frac{P(A|H_j)P(H_j)}{\sum_{i=1}^k P(A|H_i)P(H_i)} $$ \(P(H_j)\)事前確率 (Prior Probability)、\(P(H_j|A)\)事後確率 (Posterior Probability) という。

第3章 確率変数と確率分布

試行の結果を数値に対応させる確率変数 (Random Variable) と、その値の現れ方を記述する確率分布 (Probability Distribution) を導入する。

3.1 確率変数と分布関数 (統計学入門 (基礎統計学Ⅰ) 第5章 5.1節参照)

定義 3.1 (確率変数) 標本空間 \(\Omega\) 上で定義され、実数値をとる関数 \(X(\omega)\)確率変数 (Random Variable) という。通常 \(X\) と略記する。

定義 3.2 (離散型確率変数) 確率変数 \(X\) がとりうる値が有限個または可算無限個であるとき、離散型 (Discrete) という。その確率分布は確率質量関数 (Probability Mass Function, PMF) \(p(x) = P(X=x)\) で記述される。 性質: (1) \(p(x) \ge 0\), (2) \(\sum_x p(x) = 1\)

定義 3.3 (連続型確率変数) 確率変数 \(X\) がある区間内のすべての値をとりうるとき、連続型 (Continuous) という。その確率分布は確率密度関数 (Probability Density Function, PDF) \(f(x)\) で記述される。 性質: (1) \(f(x) \ge 0\), (2) \(\int_{-\infty}^\infty f(x) dx = 1\) 確率の計算: \(P(a \le X \le b) = \int_a^b f(x) dx\)。 連続型では \(P(X=c) = 0\) である。

定義 3.4 (累積分布関数) 任意の確率変数 \(X\) に対して、累積分布関数 (Cumulative Distribution Function, CDF) \(F(x)\) を次式で定義する。 $$ F(x) = P(X \le x) $$ 性質: 1. \(0 \le F(x) \le 1\) 2. \(F(x)\) は単調非減少 (\(x_1 < x_2 \implies F(x_1) \le F(x_2)\)) 3. \(\lim_{x \to -\infty} F(x) = 0, \quad \lim_{x \to \infty} F(x) = 1\) 4. \(F(x)\) は右連続 (\(\lim_{h \to 0+} F(x+h) = F(x)\)) 関係: * 離散型: \(F(x) = \sum_{t \le x} p(t)\) * 連続型: \(F(x) = \int_{-\infty}^x f(t) dt\), \(f(x) = F'(x)\) (微分可能な点)

3.2 期待値と分散 (統計学入門 (基礎統計学Ⅰ) 第5章 5.2節参照)

確率分布の中心的な位置やばらつきを表す量。

定義 3.5 (期待値) 確率変数 \(X\)期待値 (Expected Value) または平均 (Mean) \(E(X)\) を次式で定義する(和や積分が存在する場合)。 * 離散型: \(E(X) = \mu = \sum_x x p(x)\) * 連続型: \(E(X) = \mu = \int_{-\infty}^\infty x f(x) dx\) \(g(X)\) の期待値: \(E[g(X)] = \sum_x g(x) p(x)\) または \(\int g(x) f(x) dx\)

期待値の性質 1. \(E(c) = c\)\(c\) は定数) 2. \(E(cX) = cE(X)\) 3. \(E(X+Y) = E(X) + E(Y)\) (加法性) 4. \(X, Y\) が独立なら \(E(XY) = E(X)E(Y)\)

定義 3.6 (分散と標準偏差) 確率変数 \(X\)分散 (Variance) \(V(X)\) を次式で定義する。 $$ V(X) = \sigma^2 = E[(X - \mu)^2] = E(X^2) - \mu^2 $$ 分散の正の平方根 \(\sigma = \sqrt{V(X)}\)標準偏差 (Standard Deviation) という。

分散の性質 1. \(V(c) = 0\) 2. \(V(X+c) = V(X)\) 3. \(V(cX) = c^2 V(X)\) 4. \(V(X+Y) = V(X) + V(Y) + 2\text{Cov}(X,Y)\) (共分散 Cov は後述) 5. \(X, Y\) が無相関(特に独立)なら \(V(X+Y) = V(X) + V(Y)\)

定義 3.7 (標準化確率変数) \(X\) を標準化した \(Z = \frac{X - \mu}{\sigma}\)標準化確率変数という。 \(E(Z)=0, V(Z)=1\) となる。

定理 3.8 (チェビシェフの不等式) (統計学入門 (基礎統計学Ⅰ) 第5章 5.4節参照) 任意の確率変数 \(X\) (期待値 \(\mu\), 分散 \(\sigma^2\)) と任意の定数 \(k>0\) に対して、 $$ P(|X - \mu| \ge k\sigma) \le \frac{1}{k^2} $$ または同等に \(P(|X - \mu| < k\sigma) \ge 1 - \frac{1}{k^2}\)。 この不等式は分布の形状によらず成り立つが、評価は粗いことが多い。

第4章 代表的な確率分布

工学や自然科学で頻繁に現れる重要な確率分布を紹介する。(統計学入門 (基礎統計学Ⅰ) 第6章参照)

4.1 離散型分布

  • ベルヌーイ分布 \(Ber(p)\): 1回の試行で結果が「成功(1)」か「失敗(0)」のいずれか。 \(P(X=1) = p, P(X=0) = 1-p = q\). \(E(X)=p, V(X)=pq\).
  • 二項分布 \(Bi(n,p)\): 独立なベルヌーイ試行を \(n\) 回行ったときの成功回数 \(X\) の分布。 \(P(X=k) = {}_nC_k p^k q^{n-k} \quad (k=0, 1, \dots, n)\). \(E(X)=np, V(X)=npq\).
  • ポアソン分布 \(Po(\lambda)\): 稀な事象がある期間や領域内で起こる回数 \(X\) の分布。 \(P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} \quad (k=0, 1, 2, \dots)\). \(E(X)=\lambda, V(X)=\lambda\). 二項分布 \(Bi(n,p)\)\(n\) が大きく \(p\) が小さく \(np \approx \lambda\) のとき、ポアソン分布で近似できる(ポアソンの小数の法則)。
  • 幾何分布 \(Ge(p)\): 成功確率 \(p\) のベルヌーイ試行で、初めて成功するまでの試行回数 \(X\) の分布。 \(P(X=k) = pq^{k-1} \quad (k=1, 2, \dots)\). \(E(X)=1/p, V(X)=q/p^2\).

4.2 連続型分布

  • 一様分布 \(U(a,b)\): 区間 \([a,b]\) 上のどの値も等しく確からしい分布。 PDF: \(f(x) = \frac{1}{b-a} \quad (a \le x \le b)\), \(0\) (otherwise). \(E(X) = (a+b)/2, V(X) = (b-a)^2/12\).
  • 指数分布 \(Ex(\lambda)\): ポアソン過程における事象の発生間隔時間 \(X\) の分布。故障や待ち時間など。 PDF: \(f(x) = \lambda e^{-\lambda x} \quad (x \ge 0)\), \(0\) (otherwise). \(\lambda>0\). \(E(X)=1/\lambda, V(X)=1/\lambda^2\). 無記憶性: \(P(X > s+t | X > s) = P(X > t)\).
  • 正規分布 \(N(\mu, \sigma^2)\): 統計学で最も重要な分布。誤差、測定値、多くの自然現象、標本平均の分布(中心極限定理)など。 PDF: \(f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\). \(E(X)=\mu, V(X)=\sigma^2\). 標準正規分布 \(N(0,1)\): \(\mu=0, \sigma^2=1\) の場合。\(Z = (X-\mu)/\sigma \sim N(0,1)\). 再生性: 独立な正規確率変数の線形結合は再び正規分布に従う。
  • ガンマ分布 \(Ga(\alpha, \lambda)\): 指数分布の一般化。待ち時間、所得分布など。 PDF: \(f(x) = \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x} \quad (x \ge 0)\). \(\alpha, \lambda > 0\). \(\Gamma(\alpha)\) はガンマ関数。 \(E(X)=\alpha/\lambda, V(X)=\alpha/\lambda^2\). 独立な \(Ex(\lambda)\) に従う RV の和は \(Ga(\alpha,\lambda)\) に従う。\(\chi^2\) 分布との関連。

第5章 多次元確率分布と独立性

複数の確率変数を同時に扱う。(統計学入門 (基礎統計学Ⅰ) 第7章参照)

5.1 同時分布・周辺分布・条件付き分布

  • 同時確率分布: 2変数 \((X,Y)\) の場合、同時PMF \(p(x,y)=P(X=x, Y=y)\) または同時PDF \(f(x,y)\) で記述される。
  • 周辺確率分布: 同時分布から一方の変数について合計または積分して得られる分布。 \(p_X(x) = \sum_y p(x,y)\), \(f_X(x) = \int f(x,y)dy\).
  • 条件付き確率分布: 一方の変数の値が与えられたときの他方の変数の分布。 \(p_{Y|X}(y|x) = p(x,y)/p_X(x)\), \(f_{Y|X}(y|x) = f(x,y)/f_X(x)\).
  • 条件付き期待値: \(E(Y|X=x) = \sum_y y p_{Y|X}(y|x)\) または \(\int y f_{Y|X}(y|x)dy\).

5.2 共分散と相関係数

定義 5.1 (共分散) 2つの確率変数 \(X, Y\)共分散 (Covariance) を次式で定義する。 $$ \text{Cov}(X,Y) = \sigma_{XY} = E[(X-\mu_X)(Y-\mu_Y)] = E(XY) - E(X)E(Y) $$ 共分散は線形な関係の方向を示す(正なら同方向、負なら逆方向)。

定義 5.2 (相関係数) 共分散を標準偏差で基準化した(母)相関係数 (Correlation Coefficient) \(\rho_{XY}\) を次式で定義する。 $$ \rho_{XY} = \frac{\text{Cov}(X,Y)}{\sqrt{V(X)V(Y)}} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y} $$ 性質: \(-1 \le \rho_{XY} \le 1\)\(\rho_{XY}\) は線形関係の強さを示す。

5.3 確率変数の独立性

定義 5.3 (確率変数の独立性) 確率変数 \(X, Y\)独立 (Independent) であるとは、任意の \(x, y\) に対して同時分布関数が周辺分布関数の積に分解できることである。 $$ F(x,y) = F_X(x)F_Y(y) $$ これは、PMFまたはPDFについても \(p(x,y) = p_X(x)p_Y(y)\) または \(f(x,y) = f_X(x)f_Y(y)\) が成り立つことと同値である。

定理 5.4 \(X, Y\) が独立ならば、\(\text{Cov}(X,Y)=0\) であり、\(\rho_{XY}=0\)(無相関)である。 注意: 逆は一般に成り立たない(無相関であっても独立でない場合がある)。ただし、\((X,Y)\) が2次元正規分布に従う場合は同値になる。

定理 5.5 (独立な確率変数の和) \(X, Y\) が独立ならば、 1. \(E(X+Y) = E(X) + E(Y)\) (これは独立でなくても成立) 2. \(V(X+Y) = V(X) + V(Y)\) 3. \(M_{X+Y}(t) = M_X(t) M_Y(t)\) (MGFが存在すれば)

再生性: 特定の分布族(二項、ポアソン、正規、ガンマなど)では、独立な確率変数の和が再び同じ分布族に従う性質(再生性)を持つ。

第6章 極限定理

標本数が大きい場合の確率変数の和や平均の挙動に関する重要な定理。(統計学入門 (基礎統計学Ⅰ) 第8章参照)

定理 6.1 (大数の弱法則, WLLN) \(X_1, X_2, \dots\) を独立同分布 (i.i.d.) な確率変数とし、\(E(X_i)=\mu\) とする。標本平均 \(\bar{X}_n = (X_1+\dots+X_n)/n\)\(\mu\)確率収束する。すなわち、任意の \(\epsilon > 0\) に対して、 $$ \lim_{n\to\infty} P(|\bar{X}_n - \mu| \ge \epsilon) = 0 $$ 意味: 標本サイズ \(n\) を大きくすれば、標本平均は真の平均 \(\mu\) にいくらでも近く(高い確率で)なる。

定理 6.2 (中心極限定理, CLT) \(X_1, X_2, \dots\) を独立同分布 (i.i.d.) な確率変数とし、\(E(X_i)=\mu, V(X_i)=\sigma^2 < \infty\) とする。標本和 \(S_n = X_1+\dots+X_n\) または標本平均 \(\bar{X}_n\) を標準化した変数は、\(n\to\infty\) のとき標準正規分布 \(N(0,1)\)分布収束する。 $$ Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}} = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0,1) $$ 意味: \(n\) が十分大きければ、標本和や標本平均の分布は(元の分布が何であれ)正規分布で近似できる。

応用例: 二項分布 \(Bi(n,p)\) の正規近似。\(X \sim Bi(n,p)\) のとき、\(n\) が十分大きければ、\(X \approx N(np, np(1-p))\)

第7章 標本分布

母集団から抽出された標本に基づいて計算される統計量の確率分布を標本分布 (Sampling Distribution) という。推測統計学の基礎となる。(統計学入門 (基礎統計学Ⅰ) 第9章, 第10章参照)

7.1 正規母集団からの標本分布

母集団分布が正規分布 \(N(\mu, \sigma^2)\) であると仮定する。大きさ \(n\) の無作為標本 \(X_1, \dots, X_n\) を考える。

定理 7.1 (標本平均の分布) 標本平均 \(\bar{X} = \frac{1}{n}\sum X_i\) は正規分布 \(N(\mu, \sigma^2/n)\) に従う。 標準化された \(Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}}\) は標準正規分布 \(N(0,1)\) に従う。

定義 7.2 (\(\chi^2\) 分布) \(Z_1, \dots, Z_k\) が独立な標準正規確率変数のとき、\(Y = \sum_{i=1}^k Z_i^2\) が従う分布を自由度 (degrees of freedom) \(k\)カイ二乗分布 (\(\chi^2\) distribution) といい、\(\chi^2(k)\) と記す。

定理 7.3 (標本分散の分布) 標本分散 \(s^2 = \frac{1}{n-1}\sum (X_i - \bar{X})^2\) に関して、統計量 $$ \frac{(n-1)s^2}{\sigma^2} $$ は自由度 \(n-1\)\(\chi^2\) 分布 \(\chi^2(n-1)\) に従う。

定理 7.4 (標本平均と標本分散の独立性) 正規母集団からの標本においては、標本平均 \(\bar{X}\) と標本分散 \(s^2\) は独立である。

定義 7.5 (\(t\) 分布) \(Z \sim N(0,1)\)\(Y \sim \chi^2(k)\) が独立であるとき、 $$ t = \frac{Z}{\sqrt{Y/k}} $$ が従う分布を自由度 \(k\)(\(\text{スチューデントの}\)) \(t\) 分布 (Student's t-distribution) といい、\(t(k)\) と記す。\(t\) 分布は \(N(0,1)\) に似た対称な分布だが、裾がやや重い。\(k \to \infty\)\(N(0,1)\) に収束する。

定理 7.6 (\(\bar{X}\) の分布, \(\sigma^2\) 未知) 統計量 $$ t = \frac{\bar{X} - \mu}{s/\sqrt{n}} $$ は自由度 \(n-1\)\(t\) 分布 \(t(n-1)\) に従う。

定義 7.7 (\(F\) 分布) \(U \sim \chi^2(k_1)\)\(V \sim \chi^2(k_2)\) が独立であるとき、 $$ F = \frac{U/k_1}{V/k_2} $$ が従う分布を自由度 \((k_1, k_2)\)(\(\text{フィッシャーの}\)) \(F\) 分布 (F-distribution) といい、\(F(k_1, k_2)\) と記す。

定理 7.8 (標本分散の比の分布) 独立な2つの正規母集団 \(N(\mu_1, \sigma_1^2), N(\mu_2, \sigma_2^2)\) からの標本(サイズ \(n_1, n_2\))に基づく標本分散 \(s_1^2, s_2^2\) について、統計量 $$ F = \frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2} $$ は自由度 \((n_1-1, n_2-1)\)\(F\) 分布 \(F(n_1-1, n_2-1)\) に従う。 特に \(\sigma_1^2 = \sigma_2^2\) ならば、\(F = s_1^2/s_2^2 \sim F(n_1-1, n_2-1)\)

第8章 推定

標本データから母集団の未知母数 \(\theta\) の値を推測する。(統計学入門 (基礎統計学Ⅰ) 第11章参照)

8.1 点推定

母数 \(\theta\) の値を一点で推定する。

定義 8.1 (推定量と推定値) 母数 \(\theta\) を推定するために用いられる統計量 \(\hat{\theta} = \hat{\theta}(X_1, \dots, X_n)\)推定量 (Estimator) という。標本データ \(x_1, \dots, x_n\) を代入して得られる具体的な値 \(\hat{\theta}(x_1, \dots, x_n)\)推定値 (Estimate) という。

推定量の望ましい性質 * 不偏性 (Unbiasedness): \(E(\hat{\theta}) = \theta\). 推定量の期待値が真の母数値に等しい。例: \(\bar{X}\)\(\mu\) の不偏推定量、\(s^2\)\(\sigma^2\) の不偏推定量。 * 一致性 (Consistency): \(n \to \infty\) のとき \(\hat{\theta}_n \xrightarrow{P} \theta\)。標本サイズを大きくすると真の値に確率収束する。例: \(\bar{X}, s^2\). * 有効性 (Efficiency): 不偏推定量の中で分散 \(V(\hat{\theta})\) が最小であること。

推定量の構成法 * モーメント法: 母集団モーメント \(E(X^k)\) を標本モーメント \(\frac{1}{n}\sum X_i^k\) で置き換えて母数に関する方程式を解く。 * 最尤法 (Maximum Likelihood Estimation, MLE): 観測された標本が得られる確率(尤度関数 \(L(\theta) = \prod f(x_i; \theta)\))を最大にする \(\theta\) を推定量とする。対数尤度 \(\log L(\theta)\) を最大化することが多い。MLEは一般に一致性、漸近正規性、漸近有効性を持つ良い推定量である。

8.2 区間推定

母数 \(\theta\) が含まれるであろう区間 \([L, U]\) を確率的に構成する。

定義 8.2 (信頼区間) 統計量 \(L=L(X_1,\dots,X_n), U=U(X_1,\dots,X_n)\) で構成される区間 \([L, U]\) が、 $$ P(L \le \theta \le U) = 1-\alpha $$ を満たすとき、\([L, U]\)\(\theta\)信頼係数 (Confidence Coefficient) \(1-\alpha\)信頼区間 (Confidence Interval) という。\(L, U\) をそれぞれ下側・上側信頼限界という。\(\alpha\) は小さい値(例: 0.05, 0.01)にとる。

主な信頼区間(正規母集団) * 母平均 \(\mu\) (\(\sigma^2\) 既知): \(\left[ \bar{X} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right]\) * 母平均 \(\mu\) (\(\sigma^2\) 未知): \(\left[ \bar{X} \pm t_{\alpha/2}(n-1) \frac{s}{\sqrt{n}} \right]\) * 母分散 \(\sigma^2\): \(\left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)} \right]\) * 母平均の差 \(\mu_1-\mu_2\) (\(\sigma_1^2, \sigma_2^2\) 未知だが等しい): \(\left[ (\bar{X}-\bar{Y}) \pm t_{\alpha/2}(n_1+n_2-2) s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}} \right]\) (\(s_p^2\) は合併した分散) * 母分散の比 \(\sigma_1^2/\sigma_2^2\): \(\left[ \frac{s_1^2}{s_2^2} \frac{1}{F_{\alpha/2}(n_1-1, n_2-1)}, \frac{s_1^2}{s_2^2} F_{\alpha/2}(n_2-1, n_1-1) \right]\)

第9章 仮説検定

母集団に関する仮説が統計的に見て妥当かどうかを、標本データに基づいて判断する手法。(統計学入門 (基礎統計学Ⅰ) 第12章参照)

9.1 仮説検定の枠組み

  • 帰無仮説 \(H_0\): 検証したい仮説。通常、単純な形(例: \(\mu=\mu_0\), \(p=p_0\))をとる。
  • 対立仮説 \(H_1\): \(H_0\) が棄却された場合に採択される仮説。例: \(\mu \ne \mu_0\)(両側), \(\mu > \mu_0\)(片側)。
  • 検定統計量: 仮説を検定するために標本から計算される統計量。
  • 棄却域 (Rejection Region): 検定統計量の値がこの領域に入った場合に \(H_0\) を棄却する。
  • 採択域 (Acceptance Region): 棄却域の補集合。
  • 第一種の誤り: \(H_0\) が真であるのに棄却してしまう誤り。その確率を \(\alpha\)有意水準 Significance Level)で表す。\(\alpha\) は通常、小さい値(例: 0.05, 0.01)に設定する。
  • 第二種の誤り: \(H_0\) が偽であるのに棄却しない誤り。その確率を \(\beta\) で表す。
  • 検出力 (Power): \(H_0\) が偽であるときに正しく棄却する確率 \(1-\beta\)

検定の手順 1. 帰無仮説 \(H_0\) と対立仮説 \(H_1\) を設定する。 2. 有意水準 \(\alpha\) を決める。 3. 検定統計量とその \(H_0\) の下での分布(標本分布)を特定する。 4. 棄却域を設定する。 5. 標本データから検定統計量の実現値を計算する。 6. 実現値が棄却域にあれば \(H_0\) を棄却し、\(H_1\) を支持する。棄却域になければ \(H_0\) を棄却しない(\(H_0\) を積極的に正しいと主張するわけではない)。

p値: 観測された検定統計量の値以上に極端な値が得られる確率(\(H_0\) の下で)。\(p \le \alpha\) ならば \(H_0\) を棄却する。

9.2 正規母集団に関する検定

  • 母平均 \(\mu\) の検定 (\(t\)検定): \(H_0: \mu=\mu_0\) 検定統計量: \(t = (\bar{X}-\mu_0)/(s/\sqrt{n}) \sim t(n-1)\). 棄却域は \(H_1\) に応じて \(|t|>t_{\alpha/2}(n-1)\) または \(t>t_{\alpha}(n-1)\) など。
  • 母分散 \(\sigma^2\) の検定 (\(\chi^2\)検定): \(H_0: \sigma^2=\sigma_0^2\) 検定統計量: \(\chi^2 = (n-1)s^2/\sigma_0^2 \sim \chi^2(n-1)\). 棄却域は \(H_1\) に応じて \(\chi^2 > \chi^2_{\alpha/2}(n-1)\)\(\chi^2 < \chi^2_{1-\alpha/2}(n-1)\) など。
  • 母平均の差の検定 (2標本 \(t\)検定): \(H_0: \mu_1=\mu_2\) (\(\sigma_1^2=\sigma_2^2\) を仮定) 検定統計量: \(t = (\bar{X}-\bar{Y}) / (s_p \sqrt{1/n_1+1/n_2}) \sim t(n_1+n_2-2)\). 棄却域は \(H_1\) に応じて決定。
  • 母分散の比の検定 (\(F\)検定): \(H_0: \sigma_1^2=\sigma_2^2\) 検定統計量: \(F = s_1^2/s_2^2 \sim F(n_1-1, n_2-1)\). 棄却域は \(H_1\) に応じて決定。

9.3 \(\chi^2\) 検定の応用

  • 適合度の検定: 観測度数が理論的な分布(または確率)に適合するかを検定。 \(H_0\): 観測データは指定された分布に従う。 検定統計量: \(\chi^2 = \sum_{i=1}^k (O_i - E_i)^2 / E_i \approx \chi^2(k-1-p)\). (\(O_i\): 観測度数, \(E_i\): 期待度数, \(k\): カテゴリ数, \(p\): 推定した母数個数)
  • 独立性の検定 (分割表): 2つのカテゴリカル変数が独立かどうかを検定。 \(H_0\): 行変数と列変数は独立。 検定統計量: \(\chi^2 = \sum_{i,j} (O_{ij} - E_{ij})^2 / E_{ij} \approx \chi^2((r-1)(c-1))\). (\(O_{ij}\): 観測度数, \(E_{ij} = (\text{行計}\times\text{列計})/\text{総計}\): 期待度数, \(r\): 行数, \(c\): 列数)

第10章 回帰分析

変数間の関係を定量的なモデル(回帰方程式)で表現し、予測や要因分析を行う。(統計学入門 (基礎統計学Ⅰ) 第13章参照)

10.1 単回帰モデル

モデル: \(Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \quad (i=1, \dots, n)\) 仮定: 1. \(X_i\) は確率変数ではない(または所与とする)。 2. 誤差項 \(\varepsilon_i\) は互いに独立。 3. \(E(\varepsilon_i) = 0\). 4. \(V(\varepsilon_i) = \sigma^2\) (均一分散)。 5. (推測のため) \(\varepsilon_i \sim N(0, \sigma^2)\).

最小二乗推定: \(\sum \varepsilon_i^2 = \sum (Y_i - \beta_0 - \beta_1 X_i)^2\) を最小にする \(\hat{\beta}_0, \hat{\beta}_1\)。 $$ \hat{\beta}_1 = \frac{\sum (X_i-\bar{X})(Y_i-\bar{Y})}{\sum (X_i-\bar{X})^2}, \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} $$ 性質: \(\hat{\beta}_0, \hat{\beta}_1\)\(\beta_0, \beta_1\) の最良線形不偏推定量 (BLUE, Gauss-Markovの定理)。

分散の推定: 誤差分散 \(\sigma^2\) の不偏推定量は $$ s_e^2 = \frac{\sum (Y_i - \hat{Y}_i)^2}{n-2} = \frac{SSE}{n-2} $$ (\(\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i\) は予測値, \(SSE\) は残差平方和)。\(s_e\)推定の標準誤差

10.2 回帰係数の検定と推定

仮定5 (誤差の正規性) の下で、 定理 10.1: $$ t_1 = \frac{\hat{\beta}_1 - \beta_1}{s.e.(\hat{\beta}_1)} \sim t(n-2), \quad t_0 = \frac{\hat{\beta}_0 - \beta_0}{s.e.(\hat{\beta}_0)} \sim t(n-2) $$ ここで、\(s.e.(\hat{\beta}_1) = s_e / \sqrt{\sum(X_i-\bar{X})^2}\) 等は係数の標準誤差。

仮説検定: \(H_0: \beta_1 = 0\) ( \(X\)\(Y\) の説明に役立たない) の検定。 検定統計量 \(t = \hat{\beta}_1 / s.e.(\hat{\beta}_1)\) を計算し、\(t(n-2)\) 分布と比較する。

信頼区間: \(\beta_1\)\(100(1-\alpha)\%\) 信頼区間は $$ \left[ \hat{\beta}1 \pm t_1) \right] $$}(n-2) s.e.(\hat{\beta

10.3 モデルの評価

決定係数 \(R^2\): 全変動 \(SST = \sum(Y_i-\bar{Y})^2\)、回帰変動 \(SSR = \sum(\hat{Y}_i-\bar{Y})^2\)、残差変動 \(SSE = \sum(Y_i-\hat{Y}_i)^2\) に対して、\(SST = SSR + SSE\)。 $$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$ \(R^2\)\(Y\) の変動のうち回帰モデルで説明される割合。\(0 \le R^2 \le 1\)

10.4 重回帰分析(概略)

複数の説明変数 \(X_1, \dots, X_k\) を用いるモデル: $$ Y_i = \beta_0 + \beta_1 X_{1i} + \dots + \beta_k X_{ki} + \varepsilon_i $$ 最小二乗法で係数 \(\hat{\beta}_0, \dots, \hat{\beta}_k\) を推定する(通常、行列計算を用いる)。 各係数 \(\beta_j\) の検定(\(t\)検定)やモデル全体の有意性の検定(\(F\)検定)が可能。 \(R^2\) も同様に定義されるが、説明変数を増やすと必ず増加するため、自由度調整済み \(R^2\) が用いられることもある。


参考文献 詳細な議論、証明、具体例、さらに進んだトピックについては以下を参照のこと。 * 東京大学教養学部統計学教室 編「統計学入門」東京大学出版会 (統計学入門 (基礎統計学Ⅰ) の内容) * その他、標準的な統計学・確率論の教科書。