数理統計学要論

第0章序論

本稿は、確率論に基づき統計的推測の理論を展開することを目的とする。基礎となる確率空間、確率変数、期待値等の概念を測度論的に定義し、推定論、検定論、回帰分析の主要な結果を数学的に記述する。証明は必要に応じて概略または要点を示すに留める。

定義 0.1 (確率空間) 可測空間 $(\Omega, \mathcal{F})$ と、その上の確率測度 $P$ の組 $(\Omega, \mathcal{F}, P)$ を確率空間という。ここで、$\Omega$ は標本空間、$\mathcal{F}$ は $\Omega$ 上の $\sigma$-加法族、 $P$ は $P(\Omega)=1$ を満たす $(\Omega, \mathcal{F})$ 上の測度である。

定義 0.2 (確率変数) 確率空間 $(\Omega, \mathcal{F}, P)$ 上で定義された実数値関数 $X: \Omega \to \mathbb{R}$ が、任意の実数 $x$ に対して $\{\omega \in \Omega \mid X(\omega) \le x\} \in \mathcal{F}$ を満たすとき、$X$ を確率変数 (Random Variable) という。

定義 0.3 (分布関数) 確率変数 $X$ の分布関数 (Distribution Function) $F_X(x)$ は $F_X(x) = P(X \le x)$ で定義される。

定義 0.4 (期待値) 確率変数 $X$ の期待値 (Expected Value) $E(X)$ は、ルベーグ積分を用いて $E(X) = \int_\Omega X(\omega) dP(\omega) = \int_{-\infty}^{\infty} x dF_X(x)$ で定義される（積分が存在する場合）。

第1章記述統計学の基礎

観測されたデータ $x_1, \dots, x_n$ の経験的性質を要約する。

定義 1.1 (経験分布関数) データ $x_1, \dots, x_n$ に対する経験分布関数 (Empirical Distribution Function) $\hat{F}_n(x)$ は、 $$ \hat{F}n(x) = \frac{1}{n} \sum^n I(x_i \le x) $$ で定義される。ここで $I(\cdot)$ は指示関数である。

定義 1.2 (標本モーメント) データの $k$ 次（原点周り）標本モーメント $m_k$ および $k$ 次（中心）標本モーメント $M_k$ は、 $$ m_k = \frac{1}{n} \sum_{i=1}^n x_i^k, \quad M_k = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^k $$ で定義される。特に $\bar{x} = m_1$ は標本平均、$S^2 = M_2$ は標本分散 ($n$割)。推測統計学では不偏分散 $s^2 = \frac{n}{n-1}S^2$ が重要となる。

第2章確率変数と分布

2.1 確率分布

離散型: PMF $p(x) = P(X=x) \ge 0$, $\sum_x p(x) = 1$.
連続型: PDF $f(x) \ge 0$, $\int f(x)dx = 1$. $F(x) = \int_{-\infty}^x f(t)dt$.

2.2 期待値、分散、モーメント

期待値 $E(X) = \mu = \int x dF(x)$.
分散 $V(X) = \sigma^2 = E[(X-\mu)^2] = E(X^2) - \mu^2$.
$k$次モーメント $\mu'_k = E(X^k)$. $k$次中心モーメント $\mu_k = E[(X-\mu)^k]$.

2.3 モーメント母関数と特性関数

定義 2.1 (モーメント母関数, MGF) $M_X(t) = E(e^{tX})$ ($t$ の近傍で存在する場合)。性質: $E(X^k) = M_X^{(k)}(0)$.

定義 2.2 (特性関数, CF) $\phi_X(t) = E(e^{itX}) = \int e^{itx} dF(x)$ ($i=\sqrt{-1}$). 特性関数は常に存在する。性質: 分布を一意に決定する。独立な確率変数の和の特性関数は、各特性関数の積となる。

2.4 多次元確率変数

同時分布関数: $F(x_1, \dots, x_k) = P(X_1 \le x_1, \dots, X_k \le x_k)$.
同時PDF/PMF: $f(x_1, \dots, x_k)$.
周辺分布: $f_{X_1}(x_1) = \int \dots \int f(x_1, \dots, x_k) dx_2 \dots dx_k$.
独立性: $F(x_1, \dots, x_k) = \prod F_{X_i}(x_i) \iff f(x_1, \dots, x_k) = \prod f_{X_i}(x_i)$.
共分散: $\text{Cov}(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]$.
相関係数: $\rho_{XY} = \text{Cov}(X,Y) / (\sigma_X \sigma_Y)$.
条件付き分布: $f_{Y|X}(y|x) = f(x,y) / f_X(x)$.
条件付き期待値: $E(Y|X=x) = \int y f_{Y|X}(y|x) dy$. $E(Y|X)$ は $X$ の関数となる確率変数。期待値の繰返し演算: $E[E(Y|X)] = E(Y)$.

第3章代表的な確率分布族

(各分布のPDF/PMF、期待値、分散、MGF/CF等は統計学入門 (基礎統計学Ⅰ) 第6章参照)

離散型: ベルヌーイ、二項、ポアソン、幾何、負の二項、超幾何、離散一様。
連続型: 一様、正規、指数、ガンマ、ベータ、コーシー、対数正規、$\chi^2$、$t$、$F$。

定理 3.1 (正規分布の再生性) $X_i \sim N(\mu_i, \sigma_i^2)$ ($i=1,\dots,n$) が独立ならば、$\sum_{i=1}^n a_i X_i \sim N(\sum a_i \mu_i, \sum a_i^2 \sigma_i^2)$.

定理 3.2 ($\chi^2, t, F$ 分布の定義と関係) 1. $Z_1, \dots, Z_k \sim_{i.i.d.} N(0,1) \implies \sum Z_i^2 \sim \chi^2(k)$. 2. $Z \sim N(0,1)$, $Y \sim \chi^2(k)$ が独立 $\implies Z/\sqrt{Y/k} \sim t(k)$. 3. $U \sim \chi^2(k_1)$, $V \sim \chi^2(k_2)$ が独立 $\implies (U/k_1)/(V/k_2) \sim F(k_1, k_2)$. 4. $t \sim t(k) \implies t^2 \sim F(1, k)$.

第4章極限定理

定理 4.1 (大数の法則) * 弱法則 (WLLN): $X_1, \dots, X_n$ i.i.d., $E|X_1|<\infty$, $E(X_1)=\mu \implies \bar{X}_n \xrightarrow{P} \mu$. * 強法則 (SLLN): $X_1, \dots, X_n$ i.i.d., $E|X_1|<\infty$, $E(X_1)=\mu \implies \bar{X}_n \xrightarrow{a.s.} \mu$. (a.s. は概収束)

定理 4.2 (中心極限定理, CLT) * Lindeberg-Lévy CLT: $X_1, \dots, X_n$ i.i.d., $E(X_1)=\mu, V(X_1)=\sigma^2 \in (0, \infty)$ $\implies \sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1)$. (d は分布収束) * 証明の概略: 標準化された和 $Z_n = \sum (X_i-\mu)/(\sigma\sqrt{n})$ の特性関数 $\phi_{Z_n}(t) = [\phi_{(X-\mu)/\sigma}(t/\sqrt{n})]^n$ を考える。$\phi_{(X-\mu)/\sigma}(u) = 1 - u^2/2 + o(u^2)$ を用いると、$n\to\infty$ で $\phi_{Z_n}(t) \to e^{-t^2/2}$ となり、これは $N(0,1)$ の特性関数である (Lévyの連続性定理)。

定理 4.3 (Slutsky の定理) $X_n \xrightarrow{d} X$, $Y_n \xrightarrow{P} c$ (定数) $\implies X_n+Y_n \xrightarrow{d} X+c$, $X_n Y_n \xrightarrow{d} cX$.

定理 4.4 ($\Delta$法) $\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \sigma^2)$ であり、$g$ が $\theta$ で微分可能で $g'(\theta) \ne 0$ ならば、 $$ \sqrt{n}(g(T_n) - g(\theta)) \xrightarrow{d} N(0, [g'(\theta)]^2 \sigma^2) $$

第5章標本分布

定理 5.1 (正規母集団からの標本分布) $X_1, \dots, X_n \sim_{i.i.d.} N(\mu, \sigma^2)$ とする。 1. $\bar{X} \sim N(\mu, \sigma^2/n)$. 2. $(n-1)s^2/\sigma^2 \sim \chi^2(n-1)$. 3. $\bar{X}$ と $s^2$ は独立 (Fisher の定理)。 4. $\sqrt{n}(\bar{X}-\mu)/s \sim t(n-1)$.

定理 5.2 (2標本正規母集団からの標本分布) $X_1, \dots, X_{n_1} \sim_{i.i.d.} N(\mu_1, \sigma_1^2)$, $Y_1, \dots, Y_{n_2} \sim_{i.i.d.} N(\mu_2, \sigma_2^2)$ は互いに独立とする。 1. $(\bar{X}-\bar{Y}) \sim N(\mu_1-\mu_2, \sigma_1^2/n_1 + \sigma_2^2/n_2)$. 2. $\sigma_1^2=\sigma_2^2=\sigma^2$ (未知) のとき、合併した分散推定量 $s_p^2 = \frac{(n_1-1)s_X^2 + (n_2-1)s_Y^2}{n_1+n_2-2}$ を用いて、 $$ t = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{s_p \sqrt{1/n_1 + 1/n_2}} \sim t(n_1+n_2-2) $$ 3. $(s_X^2/\sigma_1^2) / (s_Y^2/\sigma_2^2) \sim F(n_1-1, n_2-1)$.

第6章推定論

6.1 点推定

不偏性: $E(\hat{\theta}) = \theta$.
有効性: 不偏推定量の中で分散が最小。 Cramér-Rao の下限: ある正則条件の下で、任意の不偏推定量 $\hat{\theta}$ の分散は $V(\hat{\theta}) \ge 1/I(\theta)$ を満たす。$I(\theta) = E[(\partial \log f(X;\theta)/\partial \theta)^2]$ は Fisher 情報量。等号が成り立つ推定量は有効推定量。
十分統計量: 標本 $X_1, \dots, X_n$ の分布が母数 $\theta$ に依存するとき、統計量 $T=T(X_1, \dots, X_n)$ が、 $T$ の値を与えた下での $X_1, \dots, X_n$ の条件付き分布が $\theta$ に依存しないなら、$T$ は $\theta$ の十分統計量である。 因子分解定理: $T$ が十分統計量である必要十分条件は、同時 PDF/PMF $f(x_1, \dots, x_n; \theta)$ が $f(x_1, \dots, x_n; \theta) = g(T(x_1, \dots, x_n); \theta) h(x_1, \dots, x_n)$ と分解できること。 Rao-Blackwell の定理: $\hat{\theta}$ が $\theta$ の不偏推定量で、$T$ が十分統計量ならば、$E(\hat{\theta}|T)$ は $\theta$ の不偏推定量であり、$V(E(\hat{\theta}|T)) \le V(\hat{\theta})$.
最尤推定 (MLE): 尤度関数 $L(\theta; x_1, \dots, x_n) = \prod f(x_i; \theta)$ を最大にする $\hat{\theta}_{MLE}$。 MLEの漸近的性質: 正則条件の下で、MLEは一致性、漸近正規性 ($\sqrt{n}(\hat{\theta}_{MLE}-\theta) \xrightarrow{d} N(0, 1/I(\theta))$)、漸近有効性を持つ。

6.2 区間推定

定義 6.1 (信頼区間) 統計量 $L, U$ が $P_\theta(L \le \theta \le U) = 1-\alpha$ を満たすとき、$[L, U]$ を $\theta$ の $100(1-\alpha)\%$ 信頼区間という。

構成法: 枢軸量 (Pivotal Quantity) $Q(X_1, \dots, X_n; \theta)$ （分布が $\theta$ に依存しない統計量）を見つけ、$P(a \le Q \le b) = 1-\alpha$ なる $a, b$ を求め、不等式を $\theta$ について解く。例: $Q=(\bar{X}-\mu)/(s/\sqrt{n}) \sim t(n-1)$.

第7章仮説検定

7.1 検定の枠組み

仮説: $H_0: \theta \in \Theta_0$ vs $H_1: \theta \in \Theta_1$ ($\Theta = \Theta_0 \cup \Theta_1$).
検定関数 $\phi(x_1, \dots, x_n) \in [0,1]$: 標本 $x_1, \dots, x_n$ が観測されたときに $H_0$ を棄却する確率。
第一種の誤り確率 (サイズ): $\alpha = \sup_{\theta \in \Theta_0} E_\theta[\phi]$.
検出力関数: $\pi(\theta) = E_\theta[\phi]$. $\theta \in \Theta_1$ に対する $\pi(\theta)$ が検出力。
第二種の誤り確率: $\beta(\theta) = 1 - \pi(\theta)$ ($\theta \in \Theta_1$).

定義 7.1 (最強力検定) 単純仮説 $H_0: \theta = \theta_0$ vs $H_1: \theta = \theta_1$ の検定において、サイズ $\alpha$ の検定の中で検出力 $\pi(\theta_1)$ が最大のものを最強力 (MP) 検定という。

定理 7.2 (Neyman-Pearson の基本補題) 尤度比 $L_1/L_0 = f(x_1, \dots, x_n; \theta_1) / f(x_1, \dots, x_n; \theta_0)$ を用いて、 $$ \phi(x) = \begin{cases} 1 & \text{if } L_1/L_0 > c \ \gamma & \text{if } L_1/L_0 = c \ 0 & \text{if } L_1/L_0 < c \end{cases} $$ となる検定は、サイズ $E_{\theta_0}[\phi] = \alpha$ となるように $c, \gamma$ を選べば、MP検定である。

7.2 尤度比検定 (LRT)

複合仮説 $H_0: \theta \in \Theta_0$ vs $H_1: \theta \in \Theta_1 = \Theta \setminus \Theta_0$ の検定法。尤度比統計量: $\lambda = \sup_{\theta \in \Theta_0} L(\theta) / \sup_{\theta \in \Theta} L(\theta)$. 棄却域: $\lambda < c$.

定理 7.3 (Wilks の定理) $H_0$ が真であるという仮定の下で、ある正則条件を満たせば、$n\to\infty$ のとき、 $$ -2 \log \lambda \xrightarrow{d} \chi^2(p) $$ ここで $p$ は $H_0$ によって制約される母数の個数（次元の差）。

7.3 主要な検定

$t$検定: 正規母集団の母平均に関する検定（$\sigma^2$ 未知）。1標本、2標本（対応のある場合、独立で等分散仮定、Welch）。
$\chi^2$検定: 正規母集団の母分散に関する検定。適合度検定。独立性検定。
$F$検定: 2つの正規母集団の母分散の比に関する検定。回帰分析におけるモデル全体の有意性検定。

第8章線形回帰モデル

8.1 モデル設定

$$ \mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon} $$ * $\mathbf{Y}$: $n \times 1$ 観測ベクトル * $\mathbf{X}$: $n \times p$ 計画行列 (既知、rank $p$) * $\boldsymbol{\beta}$: $p \times 1$ 未知パラメータベクトル * $\boldsymbol{\varepsilon}$: $n \times 1$ 誤差ベクトル Gauss-Markov の仮定: $E(\boldsymbol{\varepsilon}) = \mathbf{0}$, $V(\boldsymbol{\varepsilon}) = E(\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^T) = \sigma^2 \mathbf{I}_n$.

8.2 最小二乗推定 (LSE)

残差平方和 $S(\boldsymbol{\beta}) = ||\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}||^2 = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})$ を最小にする $\boldsymbol{\beta}$ を求める。正規方程式: $(\mathbf{X}^T \mathbf{X}) \boldsymbol{\beta} = \mathbf{X}^T \mathbf{Y}$. LSE: $\hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}$.

定理 8.1 (Gauss-Markov の定理) $\hat{\boldsymbol{\beta}}$ は $\boldsymbol{\beta}$ の最良線形不偏推定量 (BLUE) である。すなわち、任意の線形不偏推定量 $\tilde{\boldsymbol{\beta}}=\mathbf{C}\mathbf{Y}$ に対して、$V(\hat{\boldsymbol{\beta}}) \le V(\tilde{\boldsymbol{\beta}})$ （行列の意味で）。$V(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1}$.

証明の概略: $\tilde{\boldsymbol{\beta}}=\mathbf{C}\mathbf{Y}$ が不偏 $\iff E(\mathbf{C}\mathbf{Y}) = \mathbf{C}\mathbf{X}\boldsymbol{\beta} = \boldsymbol{\beta} \iff \mathbf{C}\mathbf{X} = \mathbf{I}$. $V(\tilde{\boldsymbol{\beta}}) = \mathbf{C}V(\mathbf{Y})\mathbf{C}^T = \sigma^2 \mathbf{C}\mathbf{C}^T$. $\mathbf{C} = (\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T + \mathbf{D}$ とおくと、不偏性から $\mathbf{D}\mathbf{X} = \mathbf{0}$. $V(\tilde{\boldsymbol{\beta}}) = \sigma^2 [ ((\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T + \mathbf{D}) ((\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T + \mathbf{D})^T ]$ $= \sigma^2 [ (\mathbf{X}^T \mathbf{X})^{-1} + \mathbf{D}\mathbf{D}^T ] = V(\hat{\boldsymbol{\beta}}) + \sigma^2 \mathbf{D}\mathbf{D}^T$. $\mathbf{D}\mathbf{D}^T$ は非負定値行列なので、$V(\tilde{\boldsymbol{\beta}}) \ge V(\hat{\boldsymbol{\beta}})$.

8.3 正規線形モデル

仮定: $\boldsymbol{\varepsilon} \sim N_n(\mathbf{0}, \sigma^2 \mathbf{I}_n)$. 定理 8.2: 1. $\hat{\boldsymbol{\beta}} \sim N_p(\boldsymbol{\beta}, \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1})$. 2. 残差平方和 $SSE = ||\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}}||^2 = \mathbf{Y}^T(\mathbf{I} - \mathbf{H})\mathbf{Y}$ ($\mathbf{H}=\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T$) について、$SSE/\sigma^2 \sim \chi^2(n-p)$. 3. $\hat{\boldsymbol{\beta}}$ と $SSE$ は独立。 4. $\sigma^2$ の不偏推定量 $s_e^2 = SSE/(n-p)$.

8.4 仮説検定と区間推定

係数 $\beta_j$ の検定: $H_0: \beta_j = \beta_{j0}$. $t = (\hat{\beta}_j - \beta_{j0}) / \sqrt{s_e^2 ((\mathbf{X}^T \mathbf{X})^{-1})_{jj}} \sim t(n-p)$.
線形仮説の検定: $H_0: \mathbf{L}\boldsymbol{\beta} = \mathbf{c}$ ($\mathbf{L}$ は $q \times p$ 行列, rank $q$). $F = \frac{(\mathbf{L}\hat{\boldsymbol{\beta}}-\mathbf{c})^T [\mathbf{L}(\mathbf{X}^T \mathbf{X})^{-1}\mathbf{L}^T]^{-1} (\mathbf{L}\hat{\boldsymbol{\beta}}-\mathbf{c})/q}{s_e^2} \sim F(q, n-p)$. 特に、モデル全体の有意性検定 $H_0: \beta_1 = \dots = \beta_k = 0$ ($p=k+1$) は $F = \frac{SSR/k}{SSE/(n-k-1)} \sim F(k, n-k-1)$。
信頼区間: $\hat{\beta}_j \pm t_{\alpha/2}(n-p) s.e.(\hat{\beta}_j)$.

8.5 モデル評価

決定係数: $R^2 = SSR/SST$.
自由度調整済み決定係数: $\bar{R}^2 = 1 - \frac{SSE/(n-p)}{SST/(n-1)}$.

参考文献 より詳細な理論、証明、応用については、標準的な数理統計学のテキストを参照のこと。 * Lehmann, E. L., Casella, G. Theory of Point Estimation. * Lehmann, E. L., Romano, J. P. Testing Statistical Hypotheses. * Rao, C. R. Linear Statistical Inference and Its Applications.

数理統計学要論