HPD区間と等裾確率区間の根本的違い
信頼区間の構成には複数の方法があり、それぞれ異なる原理に基づいています。特にベイズ統計では、事後分布の性質に応じて最適な区間選択が重要です。
2つの区間推定法
- 等裾確率区間:分布の両端から等しい確率(例:各2.5%)を除いた区間
- HPD区間:指定された確率を含む区間の中で、最も短い(最高密度)区間
対称分布での比較
Step 1: 正規分布 N(0,1) の場合
標準正規分布は完全に対称なので:
$P(-1.96 ≤ Z ≤ 1.96) = 0.95$
等裾確率区間:
- 下側2.5%点:$-1.96$
- 上側2.5%点:$+1.96$
- 区間:$[-1.96, 1.96]$
- 区間幅:$3.92$
HPD区間:
- 最高密度は中心(平均)周辺に集中
- 密度が等しい2点を結ぶと、対称性により同じ区間
- 区間:$[-1.96, 1.96]$
- 区間幅:$3.92$
Step 2: 対称分布の一般的性質
対称分布では:
$f(\mu - x) = f(\mu + x)$ for all $x$
この性質により、最高密度領域も対称になり、等裾確率区間と一致します。
非対称分布での比較
Step 3: 右歪み分布の例(ガンマ分布)
ガンマ分布 $\text{Gamma}(2, 1)$ の場合:
- 平均:$2$、分散:$2$
- 最頻値:$1$(平均より小さい)
- 右の裾が長い非対称分布
等裾確率区間:
- 下側2.5%点:約$0.24$
- 上側2.5%点:約$6.30$
- 区間:$[0.24, 6.30]$
- 区間幅:$6.06$
HPD区間:
- 最高密度は最頻値$1$周辺に集中
- 右の裾を切り詰めて、より密度の高い左側を含める
- 区間:約$[0.36, 5.64]$
- 区間幅:約$5.28$
HPD区間の優位性
非対称分布では、HPD区間が以下の利点を持ちます:
- 最短性:同じ確率を含む区間の中で最も短い
- 最高密度:最も「尤もらしい」値の範囲を含む
- 情報効率:より高い情報量を提供
Step 4: 数学的な比較
区間の長さを比較:
| 分布タイプ | 等裾確率区間 | HPD区間 | 関係 |
|---|
| 対称分布 | $L_{ET}$ | $L_{HPD}$ | $L_{ET} = L_{HPD}$ |
| 非対称分布 | $L_{ET}$ | $L_{HPD}$ | $L_{ET} > L_{HPD}$ |
Step 5: HPD区間の構成原理
HPD区間 $[L, U]$ は以下を満たします:
- 確率条件:$\int_L^U f(\theta) d\theta = 1-\alpha$
- 密度条件:$f(L) = f(U) = k$(境界で密度が等しい)
- 最適性条件:$f(\theta) ≥ k$ for all $\theta \in [L, U]$
実用的な含意
Step 6: いつHPD区間を使うべきか
HPD区間が特に有用な場合:
- 事後分布が非対称な場合
- 最も信頼できるパラメータ範囲を知りたい場合
- 区間の長さを最小化したい場合
- 多峰分布での信頼区間
等裾確率区間が適切な場合:
- 対称分布の場合
- 計算の簡便性を重視する場合
- 従来の統計手法との比較が必要な場合
Step 7: 多峰分布での特殊性
多峰分布(例:混合分布)では:
- HPD区間:複数の分離した区間になる可能性
- 等裾確率区間:常に単一の連続区間
例:二峰性分布では、HPD区間が $[a, b] ∪ [c, d]$ の形になることがある
実践的ガイドライン
| 分布の性質 | 推奨する区間 | 理由 |
|---|
| 対称・単峰 | どちらでも同じ | 結果が一致するため |
| 非対称・単峰 | HPD区間 | より短く、高密度領域を捉える |
| 多峰分布 | 文脈に依存 | 解釈可能性vs最適性のトレードオフ |
計算上の考慮
Step 8: 計算の複雑さ
等裾確率区間:
$[F^{-1}(\alpha/2), F^{-1}(1-\alpha/2)]$
分位数関数が利用できれば簡単に計算可能
HPD区間:
- 密度関数の評価が必要
- 数値的最適化が必要な場合が多い
- 計算コストは高いが、より情報量の多い結果
したがって、分布Aでは両区間がほぼ同じだが、分布BではHPD区間の方が短くなるが正解です。