コンテンツにスキップ

数理統計学要論

数理統計学要論

第0章 序論

本稿は、確率論に基づき統計的推測の理論を展開することを目的とする。基礎となる確率空間、確率変数、期待値等の概念を測度論的に定義し、推定論、検定論、回帰分析の主要な結果を数学的に記述する。証明は必要に応じて概略または要点を示すに留める。

定義 0.1 (確率空間) 可測空間 \((\Omega, \mathcal{F})\) と、その上の確率測度 \(P\) の組 \((\Omega, \mathcal{F}, P)\)確率空間という。ここで、\(\Omega\) は標本空間、\(\mathcal{F}\)\(\Omega\) 上の \(\sigma\)-加法族、 \(P\)\(P(\Omega)=1\) を満たす \((\Omega, \mathcal{F})\) 上の測度である。

定義 0.2 (確率変数) 確率空間 \((\Omega, \mathcal{F}, P)\) 上で定義された実数値関数 \(X: \Omega \to \mathbb{R}\) が、任意の実数 \(x\) に対して \(\{\omega \in \Omega \mid X(\omega) \le x\} \in \mathcal{F}\) を満たすとき、\(X\)確率変数 (Random Variable) という。

定義 0.3 (分布関数) 確率変数 \(X\)分布関数 (Distribution Function) \(F_X(x)\)\(F_X(x) = P(X \le x)\) で定義される。

定義 0.4 (期待値) 確率変数 \(X\)期待値 (Expected Value) \(E(X)\) は、ルベーグ積分を用いて \(E(X) = \int_\Omega X(\omega) dP(\omega) = \int_{-\infty}^{\infty} x dF_X(x)\) で定義される(積分が存在する場合)。

第1章 記述統計学の基礎

観測されたデータ \(x_1, \dots, x_n\) の経験的性質を要約する。

定義 1.1 (経験分布関数) データ \(x_1, \dots, x_n\) に対する経験分布関数 (Empirical Distribution Function) \(\hat{F}_n(x)\) は、 $$ \hat{F}n(x) = \frac{1}{n} \sum^n I(x_i \le x) $$ で定義される。ここで \(I(\cdot)\) は指示関数である。

定義 1.2 (標本モーメント) データの \(k\) 次(原点周り)標本モーメント \(m_k\) および \(k\) 次(中心)標本モーメント \(M_k\) は、 $$ m_k = \frac{1}{n} \sum_{i=1}^n x_i^k, \quad M_k = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^k $$ で定義される。特に \(\bar{x} = m_1\) は標本平均、\(S^2 = M_2\) は標本分散 (\(n\)割)。推測統計学では不偏分散 \(s^2 = \frac{n}{n-1}S^2\) が重要となる。

第2章 確率変数と分布

2.1 確率分布

  • 離散型: PMF \(p(x) = P(X=x) \ge 0\), \(\sum_x p(x) = 1\).
  • 連続型: PDF \(f(x) \ge 0\), \(\int f(x)dx = 1\). \(F(x) = \int_{-\infty}^x f(t)dt\).

2.2 期待値、分散、モーメント

  • 期待値 \(E(X) = \mu = \int x dF(x)\).
  • 分散 \(V(X) = \sigma^2 = E[(X-\mu)^2] = E(X^2) - \mu^2\).
  • \(k\)次モーメント \(\mu'_k = E(X^k)\). \(k\)次中心モーメント \(\mu_k = E[(X-\mu)^k]\).

2.3 モーメント母関数と特性関数

定義 2.1 (モーメント母関数, MGF) \(M_X(t) = E(e^{tX})\) (\(t\) の近傍で存在する場合)。 性質: \(E(X^k) = M_X^{(k)}(0)\).

定義 2.2 (特性関数, CF) \(\phi_X(t) = E(e^{itX}) = \int e^{itx} dF(x)\) (\(i=\sqrt{-1}\)). 特性関数は常に存在する。 性質: 分布を一意に決定する。独立な確率変数の和の特性関数は、各特性関数の積となる。

2.4 多次元確率変数

  • 同時分布関数: \(F(x_1, \dots, x_k) = P(X_1 \le x_1, \dots, X_k \le x_k)\).
  • 同時PDF/PMF: \(f(x_1, \dots, x_k)\).
  • 周辺分布: \(f_{X_1}(x_1) = \int \dots \int f(x_1, \dots, x_k) dx_2 \dots dx_k\).
  • 独立性: \(F(x_1, \dots, x_k) = \prod F_{X_i}(x_i) \iff f(x_1, \dots, x_k) = \prod f_{X_i}(x_i)\).
  • 共分散: \(\text{Cov}(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]\).
  • 相関係数: \(\rho_{XY} = \text{Cov}(X,Y) / (\sigma_X \sigma_Y)\).
  • 条件付き分布: \(f_{Y|X}(y|x) = f(x,y) / f_X(x)\).
  • 条件付き期待値: \(E(Y|X=x) = \int y f_{Y|X}(y|x) dy\). \(E(Y|X)\)\(X\) の関数となる確率変数。期待値の繰返し演算: \(E[E(Y|X)] = E(Y)\).

第3章 代表的な確率分布族

(各分布のPDF/PMF、期待値、分散、MGF/CF等は統計学入門 (基礎統計学Ⅰ) 第6章参照)

  • 離散型: ベルヌーイ、二項、ポアソン、幾何、負の二項、超幾何、離散一様。
  • 連続型: 一様、正規、指数、ガンマ、ベータ、コーシー、対数正規、\(\chi^2\)\(t\)\(F\)

定理 3.1 (正規分布の再生性) \(X_i \sim N(\mu_i, \sigma_i^2)\) (\(i=1,\dots,n\)) が独立ならば、\(\sum_{i=1}^n a_i X_i \sim N(\sum a_i \mu_i, \sum a_i^2 \sigma_i^2)\).

定理 3.2 (\(\chi^2, t, F\) 分布の定義と関係) 1. \(Z_1, \dots, Z_k \sim_{i.i.d.} N(0,1) \implies \sum Z_i^2 \sim \chi^2(k)\). 2. \(Z \sim N(0,1)\), \(Y \sim \chi^2(k)\) が独立 \(\implies Z/\sqrt{Y/k} \sim t(k)\). 3. \(U \sim \chi^2(k_1)\), \(V \sim \chi^2(k_2)\) が独立 \(\implies (U/k_1)/(V/k_2) \sim F(k_1, k_2)\). 4. \(t \sim t(k) \implies t^2 \sim F(1, k)\).

第4章 極限定理

定理 4.1 (大数の法則) * 弱法則 (WLLN): \(X_1, \dots, X_n\) i.i.d., \(E|X_1|<\infty\), \(E(X_1)=\mu \implies \bar{X}_n \xrightarrow{P} \mu\). * 強法則 (SLLN): \(X_1, \dots, X_n\) i.i.d., \(E|X_1|<\infty\), \(E(X_1)=\mu \implies \bar{X}_n \xrightarrow{a.s.} \mu\). (a.s. は概収束)

定理 4.2 (中心極限定理, CLT) * Lindeberg-Lévy CLT: \(X_1, \dots, X_n\) i.i.d., \(E(X_1)=\mu, V(X_1)=\sigma^2 \in (0, \infty)\) \(\implies \sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1)\). (d は分布収束) * 証明の概略: 標準化された和 \(Z_n = \sum (X_i-\mu)/(\sigma\sqrt{n})\) の特性関数 \(\phi_{Z_n}(t) = [\phi_{(X-\mu)/\sigma}(t/\sqrt{n})]^n\) を考える。\(\phi_{(X-\mu)/\sigma}(u) = 1 - u^2/2 + o(u^2)\) を用いると、\(n\to\infty\)\(\phi_{Z_n}(t) \to e^{-t^2/2}\) となり、これは \(N(0,1)\) の特性関数である (Lévyの連続性定理)。

定理 4.3 (Slutsky の定理) \(X_n \xrightarrow{d} X\), \(Y_n \xrightarrow{P} c\) (定数) \(\implies X_n+Y_n \xrightarrow{d} X+c\), \(X_n Y_n \xrightarrow{d} cX\).

定理 4.4 (\(\Delta\)法) \(\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \sigma^2)\) であり、\(g\)\(\theta\) で微分可能で \(g'(\theta) \ne 0\) ならば、 $$ \sqrt{n}(g(T_n) - g(\theta)) \xrightarrow{d} N(0, [g'(\theta)]^2 \sigma^2) $$

第5章 標本分布

定理 5.1 (正規母集団からの標本分布) \(X_1, \dots, X_n \sim_{i.i.d.} N(\mu, \sigma^2)\) とする。 1. \(\bar{X} \sim N(\mu, \sigma^2/n)\). 2. \((n-1)s^2/\sigma^2 \sim \chi^2(n-1)\). 3. \(\bar{X}\)\(s^2\) は独立 (Fisher の定理)。 4. \(\sqrt{n}(\bar{X}-\mu)/s \sim t(n-1)\).

定理 5.2 (2標本正規母集団からの標本分布) \(X_1, \dots, X_{n_1} \sim_{i.i.d.} N(\mu_1, \sigma_1^2)\), \(Y_1, \dots, Y_{n_2} \sim_{i.i.d.} N(\mu_2, \sigma_2^2)\) は互いに独立とする。 1. \((\bar{X}-\bar{Y}) \sim N(\mu_1-\mu_2, \sigma_1^2/n_1 + \sigma_2^2/n_2)\). 2. \(\sigma_1^2=\sigma_2^2=\sigma^2\) (未知) のとき、合併した分散推定量 \(s_p^2 = \frac{(n_1-1)s_X^2 + (n_2-1)s_Y^2}{n_1+n_2-2}\) を用いて、 $$ t = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{s_p \sqrt{1/n_1 + 1/n_2}} \sim t(n_1+n_2-2) $$ 3. \((s_X^2/\sigma_1^2) / (s_Y^2/\sigma_2^2) \sim F(n_1-1, n_2-1)\).

第6章 推定論

6.1 点推定

  • 不偏性: \(E(\hat{\theta}) = \theta\).
  • 有効性: 不偏推定量の中で分散が最小。 Cramér-Rao の下限: ある正則条件の下で、任意の不偏推定量 \(\hat{\theta}\) の分散は \(V(\hat{\theta}) \ge 1/I(\theta)\) を満たす。\(I(\theta) = E[(\partial \log f(X;\theta)/\partial \theta)^2]\) は Fisher 情報量。等号が成り立つ推定量は有効推定量。
  • 十分統計量: 標本 \(X_1, \dots, X_n\) の分布が母数 \(\theta\) に依存するとき、統計量 \(T=T(X_1, \dots, X_n)\) が、 \(T\) の値を与えた下での \(X_1, \dots, X_n\) の条件付き分布が \(\theta\) に依存しないなら、\(T\)\(\theta\)十分統計量である。 因子分解定理: \(T\) が十分統計量である必要十分条件は、同時 PDF/PMF \(f(x_1, \dots, x_n; \theta)\)\(f(x_1, \dots, x_n; \theta) = g(T(x_1, \dots, x_n); \theta) h(x_1, \dots, x_n)\) と分解できること。 Rao-Blackwell の定理: \(\hat{\theta}\)\(\theta\) の不偏推定量で、\(T\) が十分統計量ならば、\(E(\hat{\theta}|T)\)\(\theta\) の不偏推定量であり、\(V(E(\hat{\theta}|T)) \le V(\hat{\theta})\).
  • 最尤推定 (MLE): 尤度関数 \(L(\theta; x_1, \dots, x_n) = \prod f(x_i; \theta)\) を最大にする \(\hat{\theta}_{MLE}\)MLEの漸近的性質: 正則条件の下で、MLEは一致性、漸近正規性 (\(\sqrt{n}(\hat{\theta}_{MLE}-\theta) \xrightarrow{d} N(0, 1/I(\theta))\))、漸近有効性を持つ。

6.2 区間推定

定義 6.1 (信頼区間) 統計量 \(L, U\)\(P_\theta(L \le \theta \le U) = 1-\alpha\) を満たすとき、\([L, U]\)\(\theta\)\(100(1-\alpha)\%\) 信頼区間という。

構成法: 枢軸量 (Pivotal Quantity) \(Q(X_1, \dots, X_n; \theta)\) (分布が \(\theta\) に依存しない統計量)を見つけ、\(P(a \le Q \le b) = 1-\alpha\) なる \(a, b\) を求め、不等式を \(\theta\) について解く。例: \(Q=(\bar{X}-\mu)/(s/\sqrt{n}) \sim t(n-1)\).

第7章 仮説検定

7.1 検定の枠組み

  • 仮説: \(H_0: \theta \in \Theta_0\) vs \(H_1: \theta \in \Theta_1\) (\(\Theta = \Theta_0 \cup \Theta_1\)).
  • 検定関数 \(\phi(x_1, \dots, x_n) \in [0,1]\): 標本 \(x_1, \dots, x_n\) が観測されたときに \(H_0\) を棄却する確率。
  • 第一種の誤り確率 (サイズ): \(\alpha = \sup_{\theta \in \Theta_0} E_\theta[\phi]\).
  • 検出力関数: \(\pi(\theta) = E_\theta[\phi]\). \(\theta \in \Theta_1\) に対する \(\pi(\theta)\) が検出力。
  • 第二種の誤り確率: \(\beta(\theta) = 1 - \pi(\theta)\) (\(\theta \in \Theta_1\)).

定義 7.1 (最強力検定) 単純仮説 \(H_0: \theta = \theta_0\) vs \(H_1: \theta = \theta_1\) の検定において、サイズ \(\alpha\) の検定の中で検出力 \(\pi(\theta_1)\) が最大のものを最強力 (MP) 検定という。

定理 7.2 (Neyman-Pearson の基本補題) 尤度比 \(L_1/L_0 = f(x_1, \dots, x_n; \theta_1) / f(x_1, \dots, x_n; \theta_0)\) を用いて、 $$ \phi(x) = \begin{cases} 1 & \text{if } L_1/L_0 > c \ \gamma & \text{if } L_1/L_0 = c \ 0 & \text{if } L_1/L_0 < c \end{cases} $$ となる検定は、サイズ \(E_{\theta_0}[\phi] = \alpha\) となるように \(c, \gamma\) を選べば、MP検定である。

7.2 尤度比検定 (LRT)

複合仮説 \(H_0: \theta \in \Theta_0\) vs \(H_1: \theta \in \Theta_1 = \Theta \setminus \Theta_0\) の検定法。 尤度比統計量: \(\lambda = \sup_{\theta \in \Theta_0} L(\theta) / \sup_{\theta \in \Theta} L(\theta)\). 棄却域: \(\lambda < c\).

定理 7.3 (Wilks の定理) \(H_0\) が真であるという仮定の下で、ある正則条件を満たせば、\(n\to\infty\) のとき、 $$ -2 \log \lambda \xrightarrow{d} \chi^2(p) $$ ここで \(p\)\(H_0\) によって制約される母数の個数(次元の差)。

7.3 主要な検定

  • \(t\)検定: 正規母集団の母平均に関する検定(\(\sigma^2\) 未知)。1標本、2標本(対応のある場合、独立で等分散仮定、Welch)。
  • \(\chi^2\)検定: 正規母集団の母分散に関する検定。適合度検定。独立性検定。
  • \(F\)検定: 2つの正規母集団の母分散の比に関する検定。回帰分析におけるモデル全体の有意性検定。

第8章 線形回帰モデル

8.1 モデル設定

$$ \mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon} $$ * \(\mathbf{Y}\): \(n \times 1\) 観測ベクトル * \(\mathbf{X}\): \(n \times p\) 計画行列 (既知、rank \(p\)) * \(\boldsymbol{\beta}\): \(p \times 1\) 未知パラメータベクトル * \(\boldsymbol{\varepsilon}\): \(n \times 1\) 誤差ベクトル Gauss-Markov の仮定: \(E(\boldsymbol{\varepsilon}) = \mathbf{0}\), \(V(\boldsymbol{\varepsilon}) = E(\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^T) = \sigma^2 \mathbf{I}_n\).

8.2 最小二乗推定 (LSE)

残差平方和 \(S(\boldsymbol{\beta}) = ||\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}||^2 = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})\) を最小にする \(\boldsymbol{\beta}\) を求める。 正規方程式: \((\mathbf{X}^T \mathbf{X}) \boldsymbol{\beta} = \mathbf{X}^T \mathbf{Y}\). LSE: \(\hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}\).

定理 8.1 (Gauss-Markov の定理) \(\hat{\boldsymbol{\beta}}\)\(\boldsymbol{\beta}\) の最良線形不偏推定量 (BLUE) である。すなわち、任意の線形不偏推定量 \(\tilde{\boldsymbol{\beta}}=\mathbf{C}\mathbf{Y}\) に対して、\(V(\hat{\boldsymbol{\beta}}) \le V(\tilde{\boldsymbol{\beta}})\) (行列の意味で)。\(V(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1}\).

証明の概略: \(\tilde{\boldsymbol{\beta}}=\mathbf{C}\mathbf{Y}\) が不偏 \(\iff E(\mathbf{C}\mathbf{Y}) = \mathbf{C}\mathbf{X}\boldsymbol{\beta} = \boldsymbol{\beta} \iff \mathbf{C}\mathbf{X} = \mathbf{I}\). \(V(\tilde{\boldsymbol{\beta}}) = \mathbf{C}V(\mathbf{Y})\mathbf{C}^T = \sigma^2 \mathbf{C}\mathbf{C}^T\). \(\mathbf{C} = (\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T + \mathbf{D}\) とおくと、不偏性から \(\mathbf{D}\mathbf{X} = \mathbf{0}\). \(V(\tilde{\boldsymbol{\beta}}) = \sigma^2 [ ((\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T + \mathbf{D}) ((\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T + \mathbf{D})^T ]\) \(= \sigma^2 [ (\mathbf{X}^T \mathbf{X})^{-1} + \mathbf{D}\mathbf{D}^T ] = V(\hat{\boldsymbol{\beta}}) + \sigma^2 \mathbf{D}\mathbf{D}^T\). \(\mathbf{D}\mathbf{D}^T\) は非負定値行列なので、\(V(\tilde{\boldsymbol{\beta}}) \ge V(\hat{\boldsymbol{\beta}})\).

8.3 正規線形モデル

仮定: \(\boldsymbol{\varepsilon} \sim N_n(\mathbf{0}, \sigma^2 \mathbf{I}_n)\). 定理 8.2: 1. \(\hat{\boldsymbol{\beta}} \sim N_p(\boldsymbol{\beta}, \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1})\). 2. 残差平方和 \(SSE = ||\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}}||^2 = \mathbf{Y}^T(\mathbf{I} - \mathbf{H})\mathbf{Y}\) (\(\mathbf{H}=\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\)) について、\(SSE/\sigma^2 \sim \chi^2(n-p)\). 3. \(\hat{\boldsymbol{\beta}}\)\(SSE\) は独立。 4. \(\sigma^2\) の不偏推定量 \(s_e^2 = SSE/(n-p)\).

8.4 仮説検定と区間推定

  • 係数 \(\beta_j\) の検定: \(H_0: \beta_j = \beta_{j0}\). \(t = (\hat{\beta}_j - \beta_{j0}) / \sqrt{s_e^2 ((\mathbf{X}^T \mathbf{X})^{-1})_{jj}} \sim t(n-p)\).
  • 線形仮説の検定: \(H_0: \mathbf{L}\boldsymbol{\beta} = \mathbf{c}\) (\(\mathbf{L}\)\(q \times p\) 行列, rank \(q\)). \(F = \frac{(\mathbf{L}\hat{\boldsymbol{\beta}}-\mathbf{c})^T [\mathbf{L}(\mathbf{X}^T \mathbf{X})^{-1}\mathbf{L}^T]^{-1} (\mathbf{L}\hat{\boldsymbol{\beta}}-\mathbf{c})/q}{s_e^2} \sim F(q, n-p)\). 特に、モデル全体の有意性検定 \(H_0: \beta_1 = \dots = \beta_k = 0\) (\(p=k+1\)) は \(F = \frac{SSR/k}{SSE/(n-k-1)} \sim F(k, n-k-1)\)
  • 信頼区間: \(\hat{\beta}_j \pm t_{\alpha/2}(n-p) s.e.(\hat{\beta}_j)\).

8.5 モデル評価

  • 決定係数: \(R^2 = SSR/SST\).
  • 自由度調整済み決定係数: \(\bar{R}^2 = 1 - \frac{SSE/(n-p)}{SST/(n-1)}\).

参考文献 より詳細な理論、証明、応用については、標準的な数理統計学のテキストを参照のこと。 * Lehmann, E. L., Casella, G. Theory of Point Estimation. * Lehmann, E. L., Romano, J. P. Testing Statistical Hypotheses. * Rao, C. R. Linear Statistical Inference and Its Applications.