分位点回帰と四分位範囲の計算
分位点回帰(Quantile Regression)は、応答変数の条件付き分位点をモデル化する手法で、データの分布全体を理解するのに有効です。
分位点回帰の基本概念
分位点回帰は、条件付き分位点関数をモデル化:
$$Q_\\tau(Y|X = x) = \\mathbf{x}^T \\boldsymbol{\\beta}_\\tau$$
ここで:
- $Q_\\tau(Y|X = x)$:$X = x$ での $Y$ の第$\\tau$分位点
- $\\boldsymbol{\\beta}_\\tau$:第$\\tau$分位点の回帰係数
- $\\tau \\in (0, 1)$:分位点レベル(例:0.25, 0.5, 0.75)
Step 1: 分位点の定義
主要な分位点:
- 第1分位点(Q1):$\\tau = 0.25$(25パーセンタイル)
- 中央値(Q2):$\\tau = 0.50$(50パーセンタイル)
- 第3分位点(Q3):$\\tau = 0.75$(75パーセンタイル)
四分位範囲(IQR):
$$\\text{IQR} = Q_3 - Q_1$$
これは中央50%のデータの範囲を表します。
Step 2: 与えられた回帰直線
問題で与えられた分位点回帰直線:
- 第1分位点:$Q_1(x) = 2 + 0.8x$
- 第3分位点:$Q_3(x) = 4 + 1.2x$
これらの式は、説明変数$x$の値に対する条件付き分位点を表します。
Step 3: x = 5での各分位点の計算
第1分位点(Q1)の計算:
$$Q_1(5) = 2 + 0.8 \\times 5 = 2 + 4 = 6$$
第3分位点(Q3)の計算:
$$Q_3(5) = 4 + 1.2 \\times 5 = 4 + 6 = 10$$
Step 4: 四分位範囲の計算
$$\\text{IQR}(x = 5) = Q_3(5) - Q_1(5) = 10 - 6 = 4$$
しかし、選択肢を見ると4.0以外の値もあるため、計算を再確認:
$$Q_1(5) = 2 + 0.8 \\times 5 = 2 + 4.0 = 6.0$$
$$Q_3(5) = 4 + 1.2 \\times 5 = 4 + 6.0 = 10.0$$
$$\\text{IQR} = 10.0 - 6.0 = 4.0$$
分位点回帰の推定原理
第$\\tau$分位点回帰は以下の目的関数を最小化:
$$\\min_{\\boldsymbol{\\beta}} \\sum_{i=1}^n \\rho_\\tau(y_i - \\mathbf{x}_i^T \\boldsymbol{\\beta})$$
ここで、チェック関数$\\rho_\\tau(u)$は:
$$\\rho_\\tau(u) = u(\\tau - \\mathbf{1}\\{u < 0\\}) = \\begin{cases}\\tau u & \\text{if } u \\geq 0 \\\\(\\tau - 1)u & \\text{if } u < 0\\end{cases}$$
Step 5: 分位点回帰の解釈
回帰係数の意味:
- Q1の傾き(0.8):$x$が1単位増加すると、第1分位点は0.8単位増加
- Q3の傾き(1.2):$x$が1単位増加すると、第3分位点は1.2単位増加
- 傾きの差(0.4):$x$の増加に伴い分散が増大することを示唆
分位点回帰の利点
- ロバスト性:外れ値に対して頑健
- 分布の全体像:条件付き分布の詳細な情報
- 不均分散への対応:分散の変化をモデル化
- 非対称分布の処理:歪んだ分布でも適用可能