実験計画の仮定診断と残差分析
分散分析の結果を信頼するためには、その前提条件(正規性、等分散性、独立性)が満たされていることを確認する必要があります。残差分析は、これらの仮定を診断する最も重要な手法です。
残差分析の重要性
仮定の検証:統計手法の前提条件が満たされているかを確認します。問題の発見:外れ値、非線形性、不等分散性などの問題を特定できます。
Step 1: 標準化残差の整理
| 群 | 標準化残差 | 最大絶対値 |
|---|
| A | -1.2, 0.8, -0.5, 1.1, -0.2 | 1.2 |
| B | 0.9, -1.8, 1.3, -0.7, 0.3 | 1.8 |
| C | -0.4, 1.5, -1.1, 0.6, -0.6 | 1.5 |
Step 2: 全データから最大絶対値を特定
全ての標準化残差:
-1.2, 0.8, -0.5, 1.1, -0.2, 0.9, -1.8, 1.3, -0.7, 0.3, -0.4, 1.5, -1.1, 0.6, -0.6
各値の絶対値:
1.2, 0.8, 0.5, 1.1, 0.2, 0.9, 1.8, 1.3, 0.7, 0.3, 0.4, 1.5, 1.1, 0.6, 0.6
$\max|標準化残差| = 1.8$
小数第1位まで:1.8
Step 3: 標準化残差の解釈基準
標準化残差の判定基準
| 絶対値 | 判定 | 対処 |
|---|
| < 2.0 | 正常 | 問題なし |
| 2.0 - 2.5 | やや大きい | 注意深く検討 |
| 2.5 - 3.0 | 大きい | 外れ値の可能性 |
| > 3.0 | 非常に大きい | 外れ値として処理 |
本例の判定:最大値1.8 < 2.0 → 正常範囲
Step 4: 残差分析の包括的診断
1. 正規性の診断
- Q-Qプロット:残差が正規分布に従うかを視覚的に確認
- Shapiro-Wilk検定:残差の正規性を統計的に検定
- ヒストグラム:残差の分布形状を確認
2. 等分散性の診断
- 残差vs予測値プロット:ランダムなパターンであることを確認
- 群別残差の散布度:各群の残差の分散が等しいか
- Levene検定:等分散性の統計的検定
3. 独立性の診断
- 残差の系列相関:時系列データでの自己相関
- ランダム化の確認:実験設計の妥当性
- 空間相関:位置に依存した相関
Step 5: 群別残差の詳細分析
| 群 | 平均残差 | 残差の分散 | 残差の範囲 | 診断 |
|---|
| A | 0.00 | 0.61 | 1.3 | 正常 |
| B | 0.00 | 1.05 | 3.1 | やや分散大 |
| C | 0.00 | 0.68 | 2.6 | 正常 |
分散比の確認:最大/最小 = 1.05/0.61 = 1.72 < 4 → 等分散性仮定OK
残差分析で発見できる問題
| 問題 | 症状 | 対処法 |
|---|
| 外れ値 | |標準化残差| > 2.5 | データの再確認、除外検討 |
| 非正規性 | Q-Qプロットの非線形 | 変換、ノンパラメトリック手法 |
| 不等分散 | 残差の拡散パターン | 重み付き回帰、変換 |
| 非線形性 | 残差の系統的パターン | モデルの修正、多項式項追加 |
標準化残差の計算方法
Step 6: 標準化残差の理論
標準化残差は以下のように計算されます:
$r_{standardized} = \frac{残差}{\sqrt{MSE \times (1 - h_{ii})}}$
ここで:
- 残差:観測値 - 予測値
- MSE:平均平方誤差
- h_{ii}:ハット行列の対角要素(レバレッジ)
一元配置ANOVAでは、各群内でh_{ii} = 1/n(等サイズの場合)
残差の種類と用途
| 残差の種類 | 特徴 | 用途 |
|---|
| 生残差 | e = y - ŷ | 基本的な偏差 |
| 標準化残差 | r = e/√MSE | スケール調整済み |
| スチューデント化残差 | レバレッジ考慮 | 外れ値検出 |
| 削除残差 | 該当点を除いて計算 | 影響力の評価 |
診断プロットの作成と解釈
Step 7: 主要な診断プロット
残差プロットの解釈
| プロット | 正常パターン | 問題のサイン |
|---|
| 残差 vs 予測値 | ランダム散布 | 扇形、曲線パターン |
| Q-Qプロット | 直線上に点が並ぶ | S字カーブ、外れ点 |
| 残差ヒストグラム | 正規分布形状 | 歪み、複数モード |
| 群別箱ひげ図 | 等しい分散と中央値0 | 異なる分散、偏った分布 |