分位点回帰と四分位範囲の計算
分位点回帰(Quantile Regression)は、応答変数の条件付き分位点をモデル化する手法で、データの分布全体を理解するのに有効です。
分位点回帰の基本概念
分位点回帰は、条件付き分位点関数をモデル化:
$Q_\tau(Y|X = x) = \mathbf{x}^T \boldsymbol{\beta}_\tau$
ここで:
- $Q_\tau(Y|X = x)$:$X = x$ での $Y$ の第$\tau$分位点
- $\boldsymbol{\beta}_\tau$:第$\tau$分位点の回帰係数
- $\tau \in (0, 1)$:分位点レベル(例:0.25, 0.5, 0.75)
Step 1: 分位点の定義
主要な分位点:
- 第1分位点(Q1):$\tau = 0.25$(25パーセンタイル)
- 中央値(Q2):$\tau = 0.50$(50パーセンタイル)
- 第3分位点(Q3):$\tau = 0.75$(75パーセンタイル)
四分位範囲(IQR):
$\text{IQR} = Q_3 - Q_1$
これは中央50%のデータの範囲を表します。
Step 2: 与えられた回帰直線
問題で与えられた分位点回帰直線:
- 第1分位点:$Q_1(x) = 2 + 0.8x$
- 第3分位点:$Q_3(x) = 4 + 1.2x$
これらの式は、説明変数$x$の値に対する条件付き分位点を表します。
Step 3: x = 5での各分位点の計算
第1分位点(Q1)の計算:
$Q_1(5) = 2 + 0.8 \times 5 = 2 + 4 = 6$
第3分位点(Q3)の計算:
$Q_3(5) = 4 + 1.2 \times 5 = 4 + 6 = 10$
Step 4: 四分位範囲の計算
$\text{IQR}(x = 5) = Q_3(5) - Q_1(5) = 10 - 6 = 4$
しかし、選択肢を見ると4.0以外の値もあるため、計算を再確認:
$Q_1(5) = 2 + 0.8 \times 5 = 2 + 4.0 = 6.0$
$Q_3(5) = 4 + 1.2 \times 5 = 4 + 6.0 = 10.0$
$\text{IQR} = 10.0 - 6.0 = 4.0$
分位点回帰の推定原理
第$\tau$分位点回帰は以下の目的関数を最小化:
$\min_{\boldsymbol{\beta}} \sum_{i=1}^n \rho_\tau(y_i - \mathbf{x}_i^T \boldsymbol{\beta})$
ここで、チェック関数$\rho_\tau(u)$は:
$\rho_\tau(u) = u(\tau - \mathbf{1}\{u < 0\}) = \begin{cases}\tau u & \text{if } u \geq 0 \\(\tau - 1)u & \text{if } u < 0\end{cases}$
Step 5: 分位点回帰の解釈
回帰係数の意味:
- Q1の傾き(0.8):$x$が1単位増加すると、第1分位点は0.8単位増加
- Q3の傾き(1.2):$x$が1単位増加すると、第3分位点は1.2単位増加
- 傾きの差(0.4):$x$の増加に伴い分散が増大することを示唆
分位点回帰の利点
- ロバスト性:外れ値に対して頑健
- 分布の全体像:条件付き分布の詳細な情報
- 不均分散への対応:分散の変化をモデル化
- 非対称分布の処理:歪んだ分布でも適用可能