多重共線性 - 問題演習問題7 - 青の統計学-DS Playground-

多重共線性レベル1

多重回帰分析における多重共線性の問題について、最も正しい記述はどれか。

解説

解答と解説を表示

この問題では、多重共線性（Multicollinearity）について深く理解します。これは回帰分析において、よく論点化する課題の一つであり、機械学習モデル構築、経済計量分析、医療統計などいろいろな分野で頻繁に発生する問題です。

多重共線性の基礎

多重共線性とは、重回帰分析において複数の説明変数間に強い線形関係が存在する現象です。これにより回帰係数の推定に問題が生じ、モデルの解釈可能性と統計的推論の信頼性が損なわれます。

Step 1: 多重共線性の数学的定義

完全多重共線性：

説明変数の一つが他の説明変数の線形結合で表現できる場合：

$$X_k = \\sum_{j \\neq k} \\lambda_j X_j$$

この場合、計画行列$X$の列が線形従属となり、$(X'X)^{-1}$が存在しないため最小二乗推定が不可能になります。

不完全多重共線性：

説明変数間の相関は完全ではないが、非常に強い場合：

$$X_k \\approx \\sum_{j \\neq k} \\lambda_j X_j + \\varepsilon$$

この場合、$(X'X)^{-1}$は存在するが数値的に不安定になります。

Step 2: 多重共線性が発生する原因

データ収集の制約：観測期間の制約により変数が同様の動きを示す
経済・社会的構造：実質GDP、名目GDP、人口などの構造的関係
変数作成の誤り：総額とその構成要素を同時にモデルに含める
多項式回帰：$x, x^2, x^3$などの高次項の同時使用
ダミー変数のトラップ：すべてのカテゴリのダミー変数を含める

多重共線性の影響：理論と実務

Step 3: 回帰係数推定への影響

分散の拡大：

$k$番目の回帰係数の分散は：

$$\\text{Var}(\\hat{\\beta}_k) = \\sigma^2 \\cdot \\text{VIF}_k \\cdot \\frac{1}{\\sum_{i=1}^n (x_{ik} - \\bar{x}_k)^2}$$

ここで、$\\text{VIF}_k$（分散拡大要因）は：

$$\\text{VIF}_k = \\frac{1}{1 - R_k^2}$$

$R_k^2$は$X_k$を他の説明変数で回帰した際の決定係数です。

VIF値と多重共線性の判定基準

VIF値	多重共線性の程度	対応
VIF < 5	問題なし	通常の解析継続
5 ≤ VIF < 10	中程度の問題	注意深い解釈
VIF ≥ 10	深刻な問題	対策必須

Step 4: 統計的推論への影響の詳細分析

回帰係数の不安定性：

標準誤差の増大：$\\text{SE}(\\hat{\\beta}_k) = \\sqrt{\\text{Var}(\\hat{\\beta}_k)}$が大きくなる
信頼区間の拡大：統計的有意性の検出力低下
符号の逆転：理論的に予想される符号と異なる結果
推定値の大幅変動：わずかなデータ変更で係数が大きく変化

予測精度への影響は限定的：

興味深いことに、多重共線性は予測精度($\\hat{Y} = X\\hat{\\beta}$)にはそれほど悪影響を与えません：

$$\\text{MSE}(\\hat{Y}) = \\sigma^2 \\left(\\frac{1}{n} + x_0'(X'X)^{-1}x_0\\right)$$

多重共線性により$(X'X)^{-1}$の要素は大きくなりますが、説明変数間の相関により$x_0'(X'X)^{-1}x_0$の値は相殺効果で安定化されることが多いです。

多重共線性の検出手法

Step 5: 診断指標の詳細

1. 相関行列の検査

説明変数間のピアソン相関係数：

$$r_{jk} = \\frac{\\sum_{i=1}^n (x_{ij} - \\bar{x}_j)(x_{ik} - \\bar{x}_k)}{\\sqrt{\\sum_{i=1}^n (x_{ij} - \\bar{x}_j)^2 \\sum_{i=1}^n (x_{ik} - \\bar{x}_k)^2}}$$

一般的に$|r_{jk}| > 0.8$で多重共線性の疑いあり。

2. 分散拡大要因（VIF）

各説明変数$X_k$を他の説明変数で回帰：

$$X_k = \\gamma_0 + \\gamma_1 X_1 + \\cdots + \\gamma_{k-1} X_{k-1} + \\gamma_{k+1} X_{k+1} + \\cdots + \\varepsilon_k$$

この回帰の決定係数$R_k^2$から：

$$\\text{VIF}_k = \\frac{1}{1-R_k^2}$$

3. 条件数（Condition Number）

計画行列$X'X$の固有値$\\lambda_1 \\geq \\lambda_2 \\geq \\cdots \\geq \\lambda_p$に対して：

$$\\kappa = \\sqrt{\\frac{\\lambda_{\\max}}{\\lambda_{\\min}}}$$

$\\kappa > 30$で多重共線性の警告、$\\kappa > 100$で深刻な問題。

実世界での多重共線性の例

Step 6: 経済学での典型例

マクロ経済モデル：

$$\\text{消費} = \\beta_0 + \\beta_1 \\cdot \\text{所得} + \\beta_2 \\cdot \\text{GDP} + \\beta_3 \\cdot \\text{雇用者数} + \\varepsilon$$

所得、GDP、雇用者数は経済の好況・不況とともに連動するため、強い正の相関を持ちます（$r > 0.9$）。

Step 7: 機械学習での実例

不動産価格予測モデル：

面積と部屋数：$r \\approx 0.85$
築年数と改修履歴：$r \\approx -0.75$
駅距離と商業施設密度：$r \\approx -0.68$

これらの変数を同時にモデルに含めると、個別の効果が不安定になります。

多重共線性への対処戦略

Step 8: 系統的な対応アプローチ

1. 変数選択手法

ステップワイズ法：AIC/BIC基準による自動選択
LASSO回帰：$L_1$正則化による変数選択
Ridge回帰：$L_2$正則化による係数の安定化
Elastic Net：LASSO + Ridge の組み合わせ

2. 次元削減技法

主成分回帰（PCR）：

説明変数の主成分を抽出し、それらを用いて回帰：

$$Y = \\alpha_0 + \\alpha_1 PC_1 + \\alpha_2 PC_2 + \\cdots + \\alpha_m PC_m + \\varepsilon$$

部分最小二乗回帰（PLS）：

応答変数との相関も考慮した成分を抽出する手法。

Step 9: 実務的な判断基準

研究目的に応じた対処方針

研究目的	多重共線性の許容度	推奨対策
予測精度重視	比較的高い	正則化、アンサンブル
因果推論	低い	理論に基づく変数選択
政策分析	非常に低い	専門知識による厳選

選択肢の詳細検討

Step 10: 各選択肢の科学的検証

選択肢1の誤り：応答変数$Y$と説明変数$X$間の相関は、多重共線性ではなく単純相関です。高い相関は良いモデルの条件であり、問題ではありません。

選択肢2の誤り：多重共線性は相関の方向（正負）によらず発生します。重要なのは相関の強さ（絶対値）です。

選択肢3の正解理由：これは多重共線性の本質的特徴です。回帰係数$\\hat{\\beta}$の共分散行列は$\\sigma^2(X'X)^{-1}$で表され、多重共線性により$(X'X)^{-1}$の対角成分（分散）が増大しますが、予測値$\\hat{Y} = X\\hat{\\beta}$の精度は説明変数間の相関により相殺効果が働くため、それほど悪化しません。

選択肢4の誤り：残差プロットは線形性、等分散性、独立性の診断には有効ですが、多重共線性の検出には不適切です。VIF、相関行列、条件数が適切な手法です。

選択肢5の誤り：多重共線性は構造的な問題であり、サンプルサイズの増加では根本的解決になりません。むしろサンプルが増えると相関関係がより明確になる場合もあります。

重要なポイント：
多重共線性は統計学習において「解釈可能性 vs 予測精度」のトレードオフの典型例です。ビジネス意思決定では解釈が重要ですが、予測システムでは精度が優先される場合があります。目的に応じた適切な判断が求められます。

回帰分析編