第5部:統計的推定
学習目標
- 点推定の基本的な考え方を理解し、説明できる
- 最尤推定法を理解し、基本的な問題に適用できる
- 区間推定の基本的な考え方を理解し、説明できる
- 信頼区間を正しく解釈し、実践的な提言ができる
基本的な概念と定義
標本の数学的定義と性質
- 標本の定義
- 数学的表現:\(X_1, X_2, \ldots, X_n\)(母集団から抽出された確率変数の列)
- 重要な性質:独立同分布(i.i.d.)に従う
- 独立(Independent):各確率変数は互いに確率的に独立である
- 同分布(Identically Distributed):全ての確率変数は同じ確率分布に従う
-
数学的表現: \(X_1, X_2, \ldots, X_n\) は、互いに独立に同一の分布 \(F(x)\) に従う。これを \(X_1, X_2, \ldots, X_n \text{ i.i.d. } \sim F(x)\) とも書く。
-
標本の独立性の意味
- 確率的な独立性:同時分布関数が周辺分布関数の積で表される。 $$ \mathbb{P}(X_1 \leq x_1, \ldots, X_n \leq x_n) = \prod_{i=1}^n \mathbb{P}(X_i \leq x_i) = \prod_{i=1}^n F(x_i) $$
- 実践的な意味:
- 各観測値は他の観測値に影響されない(ある観測値の結果が、他の観測値の結果を知る上で情報をもたらさない)
- 標本間の相関が存在しない(より正確には、独立ならば無相関である)
-
重要性:
- 推定量の分散の計算を容易にする
- 中心極限定理などの重要な定理の適用条件となる
-
標本抽出における注意点
- 無作為抽出の重要性:標本が母集団を代表するようにするため。
- 標本サイズと母集団サイズの関係:
- 有限母集団からの非復元抽出の場合:母集団サイズ \(N\) に対して標本サイズ \(n\) が小さい(目安として \(n/N \leq 0.05\) や \(n/N \leq 0.1\))とき、復元抽出とみなせ、各抽出が近似的に独立と扱える。
- 実際の調査での注意点:
- 時系列データ:自己相関などにより、独立性が成り立たない場合がある。
- 層化抽出:層ごとに異なる分布を持つため、全体の標本が同分布性を持たない場合がある(ただし、層内では同分布性を仮定できる)。
- クラスター抽出:クラスター内の観測値間に相関がある場合、独立性の仮定に注意が必要。
母集団の数学的定義
- 母集団(Population)
- 数学的定義:関心のある全ての観測値の集合、またはその観測値が得られる確率変数 \(X\) が従う確率分布 \(F(x)\)。
- 特性:
- 母集団の特性を表す定数を 母数(Parameter) と呼ぶ。
- 例:母平均 \(\mu = \mathbb{E}[X]\)、母分散 \(\sigma^2 = \mathbb{V}[X]\) など。
- 母集団分布やその母数は通常未知であり、標本から推測する対象となる。
推定量と推定値
- 推定量(Estimator): 標本(確率変数の組 \(X_1, \ldots, X_n\))の関数として定義される統計量で、未知母数の値を推定するために用いられる。推定量自体も確率変数である。
- 推定値(Estimate): 推定量に実際の観測データ(実現値 \(x_1, \ldots, x_n\))を代入して計算された具体的な値。
例: 1. 母平均 \(\mu\) の推定 - 推定量:標本平均 \(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\) - 推定値:実際の標本データから計算された平均値(例:5個の製品の重量が[498g, 502g, 501g, 499g, 500g]の場合、推定値は \(\bar{x} = \frac{498+502+501+499+500}{5} = 500\text{g}\))
- 母分散 \(\sigma^2\) の推定
- 推定量:不偏標本分散 \(U^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\)
-
推定値:実際の標本データから計算された不偏標本分散の値(例:上記の5個のデータの場合、推定値は \(u^2 = \frac{(498-500)^2 + \ldots + (500-500)^2}{5-1} = \frac{10}{4} = 2.5\text{g}^2\)) (注:\(S^2\)という記号もよく使われる)
-
母比率 \(p\) の推定
- 推定量:標本比率 \(\hat{P} = \frac{K}{n}\)(\(K\)は標本中の成功回数を示す確率変数)
- 推定値:実際の標本データから計算された比率(例:100個の製品中3個が不良品の場合、推定値は \(\hat{p} = \frac{3}{100} = 0.03\))
推定量の望ましい性質
- 不偏性:推定量の期待値が真の母数の値に等しい。
- 一致性:標本サイズが大きくなるにつれて、推定量が真の母数の値に確率的に収束する。
- 有効性:不偏推定量の中で、分散が最小である。
具体例と解説:
1. 不偏性(Unbiasedness)
- 定義:推定量 \(\hat{\theta}\) が母数 \(\theta\) の不偏推定量であるとは、\(\mathbb{E}[\hat{\theta}] = \theta\) が成り立つこと。
- 具体例:
- 標本平均 \(\bar{X}\) は母平均 \(\mu\) の不偏推定量: \(\mathbb{E}[\bar{X}] = \mathbb{E}\left[\frac{1}{n}\sum_{i=1}^n X_i\right] = \frac{1}{n}\sum_{i=1}^n \mathbb{E}[X_i] = \frac{1}{n}\sum_{i=1}^n \mu = \frac{1}{n}(n\mu) = \mu\)
- 不偏標本分散 \(U^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\) は母分散 \(\sigma^2\) の不偏推定量: \(\mathbb{E}[U^2] = \sigma^2\)
- 注意点:
- 不偏性は望ましい性質の一つだが、常に最良の推定量を与えるとは限らない。
- 例:母分散の推定量として、最尤推定量である \(\hat{\sigma}^2_{ML} = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2\) は不偏推定量ではない(\(\mathbb{E}[\hat{\sigma}^2_{ML}] = \frac{n-1}{n}\sigma^2\))が、特定の状況下(例:正規分布)では平均二乗誤差(MSE)が \(U^2\) より小さくなることがある。
2. 一致性(Consistency)
- 定義:標本サイズ \(n \to \infty\) のとき、推定量 \(\hat{\theta}_n\) が真の母数 \(\theta\) に確率収束すること。すなわち、任意の \(\epsilon > 0\) に対して \(\lim_{n \to \infty} \mathbb{P}(|\hat{\theta}_n - \theta| < \epsilon) = 1\)。これを \(\hat{\theta}_n \xrightarrow{\mathbb{P}} \theta\) と書く。
- 具体例:
- 標本平均 \(\bar{X}_n\) は母平均 \(\mu\) の一致推定量(大数の法則による)。
- 不偏標本分散 \(U^2_n\) は母分散 \(\sigma^2\) の一致推定量。また、\(\hat{\sigma}^2_{ML,n}\) も一致推定量。
- 注意点:
- 不偏性と一致性は異なる概念である。不偏であっても一致しない推定量や、一致するが不偏ではない推定量が存在する。
- 例:\(X_1\)(最初の観測値のみ)は母平均 \(\mu\) の不偏推定量だが、標本サイズを増やしても \(X_1\) のままであり \(\mu\) に収束しないため、一致推定量ではない。
3. 有効性(Efficiency)
- 定義:あるクラスの推定量(例:不偏推定量)の中で、分散が最小であること。最も分散が小さい不偏推定量は、一様最小分散不偏推定量(UMVUE)と呼ばれる。
- 具体例:
- 母集団が正規分布 \(N(\mu, \sigma^2)\) に従う場合:
- 標本平均 \(\bar{X}\) は母平均 \(\mu\) のUMVUEであり、また最良線形不偏推定量(BLUE)でもある。
- 不偏標本分散 \(U^2\) は母分散 \(\sigma^2\) のUMVUEである。
- 注意点:
- 有効性は通常、不偏推定量という制約の下で比較される。
- 不偏でない推定量も考慮に入れる場合、平均二乗誤差(MSE: Mean Squared Error, \(\text{MSE}(\hat{\theta}) = \mathbb{E}[(\hat{\theta}-\theta)^2] = \mathbb{V}[\hat{\theta}] + (\text{Bias}(\hat{\theta}))^2\))が評価基準として用いられることがある。この場合、分散が小さくてもバイアスが大きいとMSEは大きくなりうるし、バイアスがあっても分散が十分に小さければMSEは小さくなりうる。
- 例:正規分布の分散の推定で、\(n\)で割る推定量 \(\hat{\sigma}^2_{ML}\) は不偏ではないが、\(U^2\) よりもMSEが小さい。
実践的な意味: 1. 不偏性: - 推定を何度も繰り返した場合、平均的には真の値を指し示す。 - 系統的な偏り(過大評価または過小評価の傾向)がないことを保証する。 2. 一致性: - 利用できるデータ(標本サイズ)を増やせば増やすほど、推定が真の値に近づいていく。 - 大規模データを用いた分析において特に重要な性質。 3. 有効性: - 推定のばらつきが小さい(推定がより安定している)。 - 同じ標本サイズから、より精度の高い(信頼性の高い)推定値が得られる。
最尤推定法
最尤推定法は、母数を推定するための代表的な方法の一つである。観測された標本データ \((x_1, \ldots, x_n)\) が得られる確率(または確率密度)を最大にするように母数 \(\theta\) の値を決める。この確率(または確率密度)を \(\theta\) の関数と見たものを尤度関数 \(L(\theta; x_1, \ldots, x_n)\) と呼ぶ。 i.i.d.標本の場合、尤度関数は \(L(\theta; x_1, \ldots, x_n) = \prod_{i=1}^n f(x_i | \theta)\) となる(\(f(x_i|\theta)\) は母数 \(\theta\) を持つ母集団分布の確率質量関数または確率密度関数)。 最尤推定量 \(\hat{\theta}_{ML}\) は、この尤度関数を最大にする \(\theta\) の値である: $$ \hat{\theta}{ML} = \arg\max L(\theta; x_1, \ldots, x_n) $$ 実際には、計算の便宜上、対数尤度関数 \(\ln L(\theta; x_1, \ldots, x_n)\) を最大化することが多い。
信頼区間の直感的理解
信頼区間とは、母集団のパラメータ(例えば平均値 \(\mu\))の真の値が「おそらくこの範囲内にあるだろう」と、ある信頼度をもって推測する区間です。
基本的なイメージ
想像してみてください: - あなたは池にいる魚の平均体長(未知の母数 \(\mu\))を知りたいとします。 - 全ての魚を捕獲して測定するのは不可能です。 - そこで、例えば30匹をランダムに捕まえて測定し、その標本平均 \(\bar{x}\) を計算します。
この標本平均 \(\bar{x}\) は、池全体の真の平均体長 \(\mu\) に近い値をとることが期待されますが、完全に一致することは稀です。では、真の平均体長 \(\mu\) はどの程度の範囲に含まれていると考えられるでしょうか?これを示すのが信頼区間です。
信頼区間の性質(確率変数としての側面)
重要なポイント:信頼区間を計算するための手順において、区間の端点(下限 \(L\) と上限 \(U\))は標本データに基づいて計算されるため、標本が異なれば区間も変動します。つまり、\(L\) と \(U\) は確率変数です。
- 別の30匹を捕まえると、通常は異なる標本平均が得られ、それに基づいて計算される信頼区間も変動します。
- 信頼区間は、特定の標本から計算された後は固定された区間ですが、その計算手順から得られる区間は標本抽出の偶然性によって変動するのです。
信頼区間の定義をわかりやすく
95%信頼区間の(頻度論的な)定義は次のようになります:
「同じ手順で標本抽出と信頼区間の計算を何度も繰り返したとき、得られる区間のうち約95%が、真の母数(例:母平均 \(\mu\))を含む」
これをイメージで表現すると:
- 30匹の魚を捕獲し測定、そのデータから95%信頼区間 \([L_1, U_1]\) を計算します。
- 改めて別の30匹を捕獲し測定、新たな95%信頼区間 \([L_2, U_2]\) を計算します。
- このプロセスを例えば100回繰り返したとします。
- その結果得られた100個の信頼区間のうち、約95個は真の平均体長 \(\mu\) を区間内に含みます。
- 残りの約5個は、真の平均体長 \(\mu\) を区間内に含みません(つまり、区間が「外れる」)。
つまり「95%」という信頼度は、「この方法(手順)で信頼区間を構成したときに、その区間が真の母数を含む確率」を指します。一度計算された特定の区間 \([l, u]\) が真の母数 \(\mu\) を含むかどうかの確率は0か1であり、95%ではありません。
具体例:サイコロのイメージ
普通の6面サイコロを1回振ったときの出目の期待値(母平均 \(\mu\))は3.5です。この事実を知らないと仮定して、信頼区間を用いて推定してみましょう。
- サイコロを例えば30回振り、出た目の標本平均 \(\bar{x}\) を計算します。
- この標本平均 \(\bar{x}\) と標本標準偏差などを用いて、\(\mu\) に対する95%信頼区間を求めます:\([\bar{x} - \text{誤差}, \bar{x} + \text{誤差}]\)。
- この「サイコロを30回振り、信頼区間を計算する」という実験を100回繰り返します。
- 得られた100個の信頼区間のうち、約95個は3.5(真の期待値)をその区間内に含むでしょう。
- 約5個は3.5を区間内に含まないでしょう。
重要なのは、各実験(標本抽出)で計算される信頼区間の上限と下限(\(L_i, U_i\))が確率変数として変動するということです。真の母数 \(\mu=3.5\) は固定された値です。
\(\alpha\) との関係
「\(100(1-\alpha)\%\)信頼区間」という形で表現されます。\(\alpha\) は有意水準(通常は検定で使われる用語ですが、信頼区間の文脈では \((1-\alpha)\) が信頼係数または信頼水準となります)に対応します。 - \(\alpha = 0.05\) のとき、\(100(1-0.05)\% = 95\%\)信頼区間 - \(\alpha = 0.01\) のとき、\(100(1-0.01)\% = 99\%\)信頼区間
\(\alpha\) が小さいほど信頼係数 \((1-\alpha)\) は高くなり(例:99%は95%より高い信頼度)、その結果、信頼区間の幅は広くなる傾向があります(より広範囲をカバーすることで、真の値を含む確信度を高めるため、推定の精度は犠牲になる)。
信頼区間 (数学的定義の再掲)
母数 \(\theta\) の \(100(1-\alpha)\%\) 信頼区間とは、標本 \(X_1, \ldots, X_n\) の関数である下側信頼限界 \(L(X_1, \ldots, X_n)\) と上側信頼限界 \(U(X_1, \ldots, X_n)\) を用いて構成される区間 \([L, U]\) であり、以下の性質を満たすものです: $$ \mathbb{P}(L(X_1, \ldots, X_n) \leq \theta \leq U(X_1, \ldots, X_n)) = 1-\alpha $$ ここで、確率は標本 \(X_1, \ldots, X_n\) のランダム性(つまり \(L\) と \(U\) のランダム性)に関して計算されます。母数 \(\theta\) は未知ですが固定された定数です。この式は、「信頼区間を計算するという手続きを繰り返し行った場合、そのうち \(100(1-\alpha)\%\) の割合で、得られた区間が真の母数 \(\theta\) を含む」ということを意味します。
12. 区間推定(分散既知の場合の平均の推定)
12.1 基本的な考え方
信頼区間の数学的定義 (再確認)
- 信頼区間の厳密な定義
- 未知母数 \(\theta\) に対する \(100(1-\alpha)\%\)信頼区間とは、標本 \(X_1, \ldots, X_n\) の観測値に基づいて計算される二つの統計量 \(L(X_1, \ldots, X_n)\) (下側信頼限界) と \(U(X_1, \ldots, X_n)\) (上側信頼限界) によって定まる区間 \([L, U]\) であって、 $$ \mathbb{P}_{\theta} (L(X_1, \ldots, X_n) \leq \theta \leq U(X_1, \ldots, X_n)) = 1-\alpha $$ が、\(\theta\) の真の値に対して成り立つものをいう。
- ここで、\(L\) と \(U\) は標本に依存する確率変数です。\(\theta\) は未知の定数です。
-
\(\mathbb{P}_{\theta}\) の添え字 \(\theta\) は、この確率が母集団分布(そしてその母数 \(\theta\))に依存して計算されることを示唆しますが、多くの場合、構成された区間が \(\theta\) を含む確率は \(\theta\) の実際の値によらず \(1-\alpha\) となります。
-
信頼区間の望ましい性質
- 正確性: 区間が実際に母数を含む確率(カバレッジ確率)が、名目上の信頼係数 \(1-\alpha\) にできるだけ近いこと。
- 幅の短さ: 同じ信頼係数を持つ信頼区間の中で、区間の幅(または期待される幅)が短い方が、より精密な推定であると言える。
信頼区間の意味 (再確認)
- 信頼区間 \([L, U]\) は、「この区間が未知の母数 \(\theta\) を含んでいる」確率が \(1-\alpha\) である、と解釈するのは厳密には誤りです(ベイジアン信頼区間とは異なる)。
- 正しい解釈は、「この信頼区間を計算する手順に従って多数の標本から繰り返し区間を計算すると、それらの区間のうち約 \(100(1-\alpha)\%\) が真の母数 \(\theta\) を含む」ということです。
- 信頼係数 \(1-\alpha\) は、この手順の長期的な成功率を示します。
- 一般的に、同じ信頼係数であれば、標本サイズ \(n\) が大きいほど、信頼区間の幅は狭くなる傾向があります(推定の精度が向上する)。
正規分布の平均の区間推定(母分散 \(\sigma^2\) 既知)
母集団分布が正規分布 \(N(\mu, \sigma^2)\) であり、母分散 \(\sigma^2\) が既知の場合、母平均 \(\mu\) の \(100(1-\alpha)\%\)信頼区間は以下で与えられます: $$ \left[ \overline{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \quad \overline{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right] $$ または簡潔に、 $$ \overline{X} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}} $$ ここで: - \(\overline{X}\):標本平均 - \(z_{\alpha/2}\):標準正規分布の上側 \(\alpha/2\) 点(すなわち、\(\mathbb{P}(Z > z_{\alpha/2}) = \alpha/2\) を満たす \(z\) の値。\(Z \sim N(0,1)\)) - \(\sigma\):母標準偏差(既知) - \(n\):標本サイズ
信頼区間の幅の制御
信頼区間の幅 \(w\) は: $$ w = 2 \cdot z_{\alpha/2} \frac{\sigma}{\sqrt{n}} $$ この式からわかるように: - 信頼係数 \(1-\alpha\) を高くする(\(\alpha\) を小さくする)と、\(z_{\alpha/2}\) が大きくなり、幅 \(w\) は広くなります。 - 母標準偏差 \(\sigma\) が大きいほど、幅 \(w\) は広くなります。 - 標本サイズ \(n\) を大きくするほど、幅 \(w\) は狭くなります。幅を半分にするには、標本サイズ \(n\) を4倍にする必要があります。
12.2 実践的な例
製品の重量測定
- 問題設定:ある工場で生産される製品の重量は、平均 \(\mu\) (未知)、分散 \(\sigma^2\) (既知、例えば \(\sigma=5\text{g}\)) の正規分布に従うと仮定する。
- データ:\(n\) 個の製品を無作為抽出し、その重量 \(X_1, \ldots, X_n\) を測定する。
- 推定方法:測定データから標本平均 \(\overline{X}\) を計算し、上記の式を用いて母平均 \(\mu\) の信頼区間を構成する。
Pythonによる実装例
import numpy as np
from scipy import stats
def confidence_interval_norm_mean_var_known(data, sigma, alpha=0.05):
"""
母分散が既知の場合の正規分布の母平均の信頼区間を計算する関数
Parameters:
data (array-like): 標本データ
sigma (float): 母標準偏差 (既知)
alpha (float): 有意水準 (例: 0.05 で95%信頼区間)
Returns:
tuple: (信頼区間の下限, 信頼区間の上限)
"""
n = len(data)
mean = np.mean(data)
z_alpha_half = stats.norm.ppf(1 - alpha/2) # 標準正規分布の上側α/2点
margin_of_error = z_alpha_half * sigma / np.sqrt(n)
lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error
return (lower_bound, upper_bound)
# 使用例
# 平均500g、標準偏差5gの正規分布から16個の標本を生成 (シミュレーション)
np.random.seed(0) # 結果再現のためシードを設定
data = np.random.normal(loc=500, scale=5, size=16)
sigma_known = 5 # 母標準偏差が既知と仮定
alpha = 0.05 # 95%信頼区間
ci = confidence_interval_norm_mean_var_known(data, sigma_known, alpha)
print(f"標本平均: {np.mean(data):.3f}")
print(f"母標準偏差 (既知): {sigma_known}")
print(f"{100*(1-alpha):.0f}%信頼区間: [{ci[0]:.3f}, {ci[1]:.3f}]")
# 例: 標本平均: 500.782, 母標準偏差 (既知): 5, 95%信頼区間: [498.332, 503.232]
# この区間が真の平均500を含んでいる。
13. 区間推定(分散未知の場合の平均の推定)
母分散 \(\sigma^2\) が未知の場合、それを標本から推定する必要があり、信頼区間の構成にはt分布を用います。
13.1 t分布の性質
t分布の数学的定義
-
t分布の確率密度関数 (p.d.f.) 自由度 \(k\) (\(k > 0\)) のt分布(スチューデントのt分布)に従う確率変数 \(T\) の確率密度関数は: $$ f(t; k) = \frac{\Gamma\left(\frac{k+1}{2}\right)}{\sqrt{k\pi}\Gamma\left(\frac{k}{2}\right)}\left(1+\frac{t^2}{k}\right)^{-\frac{k+1}{2}}, \quad -\infty < t < \infty $$ ここで、\(\Gamma(\cdot)\) はガンマ関数です。
-
t分布の性質
- 形状:釣鐘型で、標準正規分布に似ているが、裾がより重い(つまり、極端な値が出やすい)。
- 対称性:平均 0 を中心に対称 (\(f(-t; k) = f(t; k)\))。
- 期待値:\(\mathbb{E}[T] = 0\) (ただし \(k > 1\) の場合)。
- 分散:\(\mathbb{V}[T] = \frac{k}{k-2}\) (ただし \(k > 2\) の場合)。\(k\) が小さいほど分散は大きい。
- 正規分布への収束:自由度 \(k \to \infty\) のとき、t分布は標準正規分布 \(N(0,1)\) に収束する。実用的には \(k \geq 30\) 程度でかなり近くなる。
標本分散と関連する統計量
母集団が正規分布 \(N(\mu, \sigma^2)\) に従うと仮定します。 - 不偏標本分散 (Unbiased Sample Variance): \(U^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\) - \(\mathbb{E}[U^2] = \sigma^2\) (\(\sigma^2\) の不偏推定量) - \(\frac{(n-1)U^2}{\sigma^2} \sim \chi^2(n-1)\) (自由度 \(n-1\) のカイ二乗分布に従う) - 標本分散 (Sample Variance, ML推定量): \(S^2_{ML} = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2\) - \(\mathbb{E}[S^2_{ML}] = \frac{n-1}{n}\sigma^2\) (\(\sigma^2\) の不偏推定量ではないが、一致推定量) - \(\frac{n S^2_{ML}}{\sigma^2} = \frac{\sum_{i=1}^n (X_i - \bar{X})^2}{\sigma^2} = \frac{(n-1)U^2}{\sigma^2} \sim \chi^2(n-1)\)
正規母集団からの標本の場合、標本平均 \(\bar{X}\) と不偏標本分散 \(U^2\) (および \(S^2_{ML}\)) は互いに独立です。この性質がt統計量の導出に重要です。
記号の注意: このノートでは以下のように使い分けます。 - \(U^2\): 不偏標本分散 \(\frac{1}{n-1}\sum(X_i-\bar{X})^2\)。その平方根(不偏標本標準偏差)を \(U\)。 - \(S^2\): (この講義ノートの以前の定義に従い)\(n\)で割る標本分散 \(\frac{1}{n}\sum(X_i-\bar{X})^2\)。その平方根を \(S\)。 (多くの教科書では \(s^2\) が不偏分散を指すことが多いので注意)
正規分布の平均の区間推定(母分散 \(\sigma^2\) 未知)
信頼区間の導出
-
標本平均の標準化 (もし \(\sigma\) が既知ならば): \(Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)\)
-
\(\sigma\) を推定値で置き換える: \(\sigma\) が未知なので、その推定量である不偏標本標準偏差 \(U = \sqrt{\frac{1}{n-1}\sum(X_i-\bar{X})^2}\) を用いることを考える。
-
t統計量の定義: \(Z\) の式の \(\sigma\) を \(U\) で置き換えた統計量 \(T = \frac{\bar{X} - \mu}{U/\sqrt{n}}\) を考える。 この \(T\) は以下のように変形できる: $$ T = \frac{\bar{X} - \mu}{U/\sqrt{n}} = \frac{(\bar{X} - \mu)/(\sigma/\sqrt{n})}{\sqrt{U^2/\sigma^2}} = \frac{N(0,1) \text{変数}}{\sqrt{\chi^2(n-1)/(n-1) \text{変数}}} $$ 分子 \(N(0,1)\) と分母の \(\chi^2(n-1)\) が独立なので、\(T\) は自由度 \(n-1\) のt分布に従う。 \(T \sim t(n-1)\)
-
信頼区間の構成: \(t_{n-1, \alpha/2}\) を自由度 \(n-1\) のt分布の上側 \(\alpha/2\) 点(\(\mathbb{P}(T > t_{n-1, \alpha/2}) = \alpha/2\))とすると、 $$ \mathbb{P}\left(-t_{n-1, \alpha/2} \leq \frac{\bar{X} - \mu}{U/\sqrt{n}} \leq t_{n-1, \alpha/2}\right) = 1-\alpha $$ この不等式を \(\mu\) について解くと、母平均 \(\mu\) の \(100(1-\alpha)\%\)信頼区間が得られる: $$ \left[ \overline{X} - t_{n-1, \alpha/2} \frac{U}{\sqrt{n}}, \quad \overline{X} + t_{n-1, \alpha/2} \frac{U}{\sqrt{n}} \right] $$ または簡潔に、 $$ \overline{X} \pm t_{n-1, \alpha/2} \frac{U}{\sqrt{n}} $$ ここで \(U = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2}\) (不偏標本標準偏差)。
補足: \(n\)で割る標本標準偏差 \(S = \sqrt{\frac{1}{n}\sum(X_i-\bar{X})^2}\) を用いる場合、 \(U^2 = \frac{n}{n-1}S^2\) なので \(U = S \sqrt{\frac{n}{n-1}}\)。 したがって、信頼区間は \(\overline{X} \pm t_{n-1, \alpha/2} \frac{S \sqrt{n/(n-1)}}{\sqrt{n}} = \overline{X} \pm t_{n-1, \alpha/2} \frac{S}{\sqrt{n-1}}\) とも書ける。 しかし、通常は不偏標本標準偏差 \(U\) (または \(s\)) を用いた \(\overline{X} \pm t \frac{U}{\sqrt{n}}\) の形が標準的である。
13.2 実践的な例
試験の得点分析
- 問題設定:あるクラスの学生の試験の得点が正規分布に従うと仮定する(平均 \(\mu\)、分散 \(\sigma^2\) は未知)。
- データ:\(n\) 人の学生の得点 \(X_1, \ldots, X_n\) を収集する。
- 推定方法:データから標本平均 \(\overline{X}\) と不偏標本標準偏差 \(U\) を計算し、上記のt分布を用いた式で母平均 \(\mu\) の信頼区間を構成する。
import numpy as np
from scipy import stats
def confidence_interval_norm_mean_var_unknown(data, alpha=0.05):
"""
母分散が未知の場合の正規分布の母平均の信頼区間を計算する関数 (t分布を使用)
Parameters:
data (array-like): 標本データ
alpha (float): 有意水準 (例: 0.05 で95%信頼区間)
Returns:
tuple: (信頼区間の下限, 信頼区間の上限)
"""
n = len(data)
mean = np.mean(data)
# 不偏標本標準偏差 U (ddof=1で分母がn-1になる)
u_std_dev = np.std(data, ddof=1)
# 自由度 n-1 のt分布の上側α/2点
t_df_alpha_half = stats.t.ppf(1 - alpha/2, df=n-1)
margin_of_error = t_df_alpha_half * u_std_dev / np.sqrt(n)
lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error
return (lower_bound, upper_bound)
# 使用例
# 学生10人の試験得点 (シミュレーション)
np.random.seed(1)
scores = np.random.normal(loc=70, scale=10, size=10)
alpha = 0.05 # 95%信頼区間
ci_scores = confidence_interval_norm_mean_var_unknown(scores, alpha)
print(f"標本データ: {np.round(scores,1)}")
print(f"標本平均: {np.mean(scores):.3f}")
print(f"不偏標本標準偏差: {np.std(scores, ddof=1):.3f}")
print(f"{100*(1-alpha):.0f}%信頼区間: [{ci_scores[0]:.3f}, {ci_scores[1]:.3f}]")
# 例: 標本データ: [86.2 64. (...略...) 79.5]
# 標本平均: 71.101
# 不偏標本標準偏差: 10.381
# 95%信頼区間: [63.665, 78.536]
# この区間が真の平均70を含んでいる。
14. 仮説検定の基礎(平均の検定)
14.1 基本的な考え方
帰無仮説と対立仮説
- 帰無仮説 (\(H_0\)): 検証したい対象の母数について、とりあえず設定される仮説。通常、「差がない」「効果がない」といった内容や、ある特定の値に等しいという主張。棄却されることを期待して立てられることが多い。
- 対立仮説 (\(H_1\)または\(H_A\)): 帰無仮説が棄却された場合に採択される仮説。帰無仮説と排反な内容で、「差がある」「効果がある」など、研究者が示したい内容であることが多い。
- 片側検定: \(H_1: \mu > \mu_0\) や \(H_1: \mu < \mu_0\)
- 両側検定: \(H_1: \mu \neq \mu_0\)
検定統計量と棄却域
- 検定統計量: 帰無仮説 \(H_0\) の下で、その分布が既知となるように標本から計算される統計量。この統計量の値が、帰無仮説のもとでは起こりにくい極端な値をとるかどうかを評価する。
- 棄却域: 帰無仮説 \(H_0\) を棄却するための検定統計量の値の範囲。この範囲に検定統計量の実現値が入れば \(H_0\) を棄却する。棄却域の境界点を臨界値という。
- 有意水準 (\(\alpha\)): 第1種の過誤を犯す確率の上限として、検定を行う前に設定する値(例:0.05, 0.01)。棄却域はこの \(\alpha\) に基づいて決定される。
第1種の過誤と第2種の過誤
- 第1種の過誤 (Type I error, \(\alpha\)過誤): 帰無仮説 \(H_0\) が正しいにもかかわらず、\(H_0\) を棄却してしまう誤り。その確率を \(\alpha\) で表す(\(\alpha = \mathbb{P}(H_0 \text{を棄却} | H_0 \text{は真})\))。偽陽性 (False Positive)。
- 第2種の過誤 (Type II error, \(\beta\)過誤): 対立仮説 \(H_1\) が正しい(つまり \(H_0\) が偽である)にもかかわらず、\(H_0\) を棄却しない(採択してしまう)誤り。その確率を \(\beta\) で表す(\(\beta = \mathbb{P}(H_0 \text{を棄却しない} | H_1 \text{は真})\))。偽陰性 (False Negative)。
- 検出力 (Power): \(1-\beta\)。対立仮説 \(H_1\) が正しいときに、正しく \(H_0\) を棄却する確率。
通常、\(\alpha\) を固定した上で、\(\beta\) をできるだけ小さくする(検出力を高くする)検定方法が望ましい。
14.2 平均の検定
正規分布の平均の検定(母分散 \(\sigma^2\) 既知)
- 帰無仮説 \(H_0: \mu = \mu_0\) (\(\mu_0\) は特定の値)
- 対立仮説 \(H_1\):
- \(\mu \neq \mu_0\) (両側検定)
- \(\mu > \mu_0\) (右片側検定)
- \(\mu < \mu_0\) (左片側検定)
- 検定統計量 (Z統計量): $$ Z = \frac{\overline{X} - \mu_0}{\sigma/\sqrt{n}} $$ 帰無仮説 \(H_0\) の下で、この \(Z\) は標準正規分布 \(N(0,1)\) に従う。
- 棄却ルール(有意水準 \(\alpha\)):
- 両側検定: \(|Z_{obs}| > z_{\alpha/2}\) ならば \(H_0\) を棄却。(\(Z_{obs}\) は観測されたZ値)
- 右片側検定: \(Z_{obs} > z_{\alpha}\) ならば \(H_0\) を棄却。
- 左片側検定: \(Z_{obs} < -z_{\alpha}\) ならば \(H_0\) を棄却。
正規分布の平均の検定(母分散 \(\sigma^2\) 未知)
- 帰無仮説 \(H_0: \mu = \mu_0\)
- 対立仮説 \(H_1\): (上記と同様)
- 検定統計量 (t統計量): $$ T = \frac{\overline{X} - \mu_0}{U/\sqrt{n}} $$ ここで、\(U = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2}\) は不偏 標本標準偏差。 帰無仮説 \(H_0\) の下で、この \(T\) は自由度 \(n-1\) のt分布に従う。
- 棄却ルール(有意水準 \(\alpha\)):
- 両側検定: \(|T_{obs}| > t_{n-1, \alpha/2}\) ならば \(H_0\) を棄却。(\(T_{obs}\) は観測されたT値)
- 右片側検定: \(T_{obs} > t_{n-1, \alpha}\) ならば \(H_0\) を棄却。
- 左片側検定: \(T_{obs} < -t_{n-1, \alpha}\) ならば \(H_0\) を棄却。 (\(t_{n-1, \cdot}\) は自由度 \(n-1\) のt分布のパーセント点)
初学者向けステップバイステップ例
最尤推定法の実践例
例1:正規分布の母数推定 データ:\(x_1 = 12.1, x_2 = 11.8, x_3 = 12.3, x_4 = 11.9, x_5 = 12.0\)
ステップ1:尤度関数の設定 正規分布 \(N(\mu, \sigma^2)\) の確率密度関数: \(\(f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\)\)
尤度関数: \(\(L(\mu,\sigma^2) = \prod_{i=1}^5 f(x_i|\mu,\sigma^2) = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^5 \exp\left(-\frac{\sum_{i=1}^5(x_i-\mu)^2}{2\sigma^2}\right)\)\)
ステップ2:対数尤度関数 \(\(\ln L(\mu,\sigma^2) = -\frac{5}{2}\ln(2\pi) - \frac{5}{2}\ln(\sigma^2) - \frac{\sum_{i=1}^5(x_i-\mu)^2}{2\sigma^2}\)\)
ステップ3:最尤推定量の導出 \(\mu\)について微分して0とおく: \(\(\frac{\partial \ln L}{\partial \mu} = \frac{\sum_{i=1}^5(x_i-\mu)}{\sigma^2} = 0\)\)
解くと:\(\hat{\mu}_{ML} = \frac{1}{5}\sum_{i=1}^5 x_i = \bar{x}\)
ステップ4:数値計算 \(\(\hat{\mu}_{ML} = \frac{12.1+11.8+12.3+11.9+12.0}{5} = \frac{60.1}{5} = 12.02\)\)
例2:指数分布のパラメータ推定 機械の故障時間データ(時間):2.3, 1.8, 4.1, 0.9, 3.2
ステップ1:指数分布の尤度関数 \(\(f(x|\lambda) = \lambda e^{-\lambda x}\)\) \(\(L(\lambda) = \lambda^5 \exp\left(-\lambda \sum_{i=1}^5 x_i\right)\)\)
ステップ2:対数尤度関数 \(\(\ln L(\lambda) = 5\ln(\lambda) - \lambda \sum_{i=1}^5 x_i\)\)
ステップ3:最尤推定量 \(\(\frac{d\ln L}{d\lambda} = \frac{5}{\lambda} - \sum_{i=1}^5 x_i = 0\)\)
解くと:\(\hat{\lambda}_{ML} = \frac{5}{\sum_{i=1}^5 x_i} = \frac{1}{\bar{x}}\)
ステップ4:数値計算 \(\(\bar{x} = \frac{2.3+1.8+4.1+0.9+3.2}{5} = \frac{12.3}{5} = 2.46\)\) \(\(\hat{\lambda}_{ML} = \frac{1}{2.46} = 0.407\)\)
信頼区間の実践例
例3:平均の信頼区間(分散未知) 上記の正規分布例を使用(\(n=5\), \(\bar{x}=12.02\))
ステップ1:不偏標本分散の計算 \(\(s^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2\)\)
各偏差の計算: - \((12.1-12.02)^2 = 0.0064\) - \((11.8-12.02)^2 = 0.0484\) - \((12.3-12.02)^2 = 0.0784\) - \((11.9-12.02)^2 = 0.0144\) - \((12.0-12.02)^2 = 0.0004\)
ステップ2:t分布の臨界値 自由度4、95%信頼区間:\(t_{0.025}(4) = 2.776\)
ステップ3:信頼区間の計算 \(\(\bar{x} \pm t_{0.025}(4) \frac{s}{\sqrt{n}} = 12.02 \pm 2.776 \times \frac{0.192}{\sqrt{5}}\)\) \(\(= 12.02 \pm 2.776 \times 0.0859 = 12.02 \pm 0.238\)\)
95%信頼区間:[11.78, 12.26]
ステップ4:解釈 「同じ手順を繰り返した場合、95%の確率で真の母平均がこの区間に含まれる」
15. まとめと演習
15.1 推定と検定の関係
- 推定: 母集団の未知の母数(パラメータ)そのものの値を、点(点推定)または区間(区間推定)で示すことを目指す。
- 例:「母平均 \(\mu\) は 95%の信頼度で区間 \([L, U]\) に含まれると推定される」
- 検定: 母数に関する特定の仮説(帰無仮説)が、標本データと照らし合わせて妥当かどうかを判断する。
- 例:「母平均 \(\mu\) が \(\mu_0\) であるという帰無仮説は、有意水準5%で棄却される(または、棄却されない)」
- 両者は密接に関連しています。
- 例えば、母平均 \(\mu\) の \(100(1-\alpha)\%\)信頼区間 \([L, U]\) を考えたとき、この区間が特定の値 \(\mu_0\) を含まなければ、帰無仮説 \(H_0: \mu = \mu_0\) は有意水準 \(\alpha\) の両側検定で棄却されます。逆に、区間が \(\mu_0\) を含めば棄却されません。
- 同じ標本データから、母数の値そのものに関する情報(推定)と、母数に関する仮説の妥当性(検定)という、異なる側面からの洞察を得ることができます。
15.2 実践的な応用
統計的推定と仮説検定は、科学、工学、ビジネス、医学、社会科学など、非常に広範な分野で利用されています。 - 品質管理: 製品の特性(重量、寸法、強度など)が基準を満たしているかの推定・検定。 - 教育効果の測定: 新しい教育方法が従来の成績平均と比較して効果があるかの推定・検定。 - 医学研究: 新薬の効果をプラセボと比較し、有効性を推定・検定。副作用の発生率の推定。 - 市場調査: 新製品の市場シェアの推定、特定の広告キャンペーンの効果の検定。 - 経済分析: 経済成長率の予測(推定)、特定の政策が失業率に影響を与えたかの検定。
15.3 注意点
統計的推定・検定を正しく利用するためには、以下の点に注意が必要です。 - 前提条件の確認: - 多くの推定・検定手法は、母集団分布に関する仮定(正規分布性など)や、標本の性質(独立性、同分布性など)を前提としています。これらの仮定が満たされない場合、結果の信頼性が損なわれる可能性があります。 - 標本サイズの適切性: - 標本サイズが小さすぎると、推定の精度が悪く(信頼区間が広くなる)、検定の検出力が低くなる(本来棄却すべき帰無仮説を棄却できない)可能性があります。 - 中心極限定理を適用する場合など、ある程度の標本サイズが必要となります。 - 結果の解釈の慎重さ: - 「統計的に有意」であることと「実践的に重要」であることは必ずしも同義ではありません。標本サイズが非常に大きい場合、ごくわずかな差でも統計的に有意となることがあります。 - 帰無仮説が棄却されなかったとしても、それが「帰無仮説が正しいことの証明」にはなりません。単に「帰無仮説を棄却するだけの十分な証拠が得られなかった」ことを意味します。 - 信頼区間の誤った解釈(例:特定の計算済み区間に母数が95%の確率で入る、など)に注意。 - 実践的な提言の妥当性: - 統計的分析の結果は、あくまでデータに基づいた一つの情報源です。それに基づいて実践的な提言を行う際は、その分野の専門知識や、他の情報、倫理的な側面などを総合的に考慮する必要があります。 - 相関関係と因果関係の混同を避ける。