二元配置分散分析(交互作用なし)の理論と実践
二元配置分散分析は、2つの要因が従属変数に与える影響を同時に評価できる強力な統計手法です。本問題では農業実験の典型例を通じて、その計算と解釈を学びます。
二元配置分散分析の基本概念
- 要因A(品種):4水準の質的要因
- 要因B(地域):3水準の環境要因
- 実験計画:各組み合わせ1回測定の完全実施設計
- 目的:品種の主効果の検定
Step 1: 実験計画の構造理解
本実験は4×3要因計画で、以下の特徴があります:
$$Y_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij}$$
ここで:
- $Y_{ij}$:品種$i$、地域$j$での収量観測値
- $\mu$:全体平均
- $\alpha_i$:品種$i$の主効果($i = 1,2,3,4$)
- $\beta_j$:地域$j$の主効果($j = 1,2,3$)
- $\epsilon_{ij}$:誤差項($\sim N(0, \sigma^2)$)
Step 2: データ構造の詳細分析
品種\地域 | 地域1 | 地域2 | 地域3 | 品種平均 |
---|
品種A | 22 | 25 | 28 | 25.0 |
品種B | 26 | 29 | 32 | 29.0 |
品種C | 19 | 22 | 25 | 22.0 |
品種D | 31 | 34 | 37 | 34.0 |
地域平均 | 24.5 | 27.5 | 30.5 | 27.5 |
データパターンの観察
このデータには重要な構造的特徴があります:
- 品種効果:D > B > A > C の順で明確な差
- 地域効果:3 > 2 > 1 の順で一定の増加
- 交互作用なし:各品種の地域間差が一定(3kg/ha)
- 加法性:品種効果と地域効果が独立
Step 3: 平方和の理論的分解
二元配置分散分析では、全変動を以下のように分解します:
$$SS_{total} = SS_{品種} + SS_{地域} + SS_{error}$$
各平方和の意味:
- $SS_{total}$:全観測値の総変動
- $SS_{品種}$:品種間の変動(品種の主効果)
- $SS_{地域}$:地域間の変動(地域の主効果)
- $SS_{error}$:説明できない残差変動
Step 4: 自由度の体系的計算
各変動源の自由度を理論的に求めます:
$$df_{total} = n - 1 = (4 \times 3) - 1 = 11$$
$$df_{品種} = a - 1 = 4 - 1 = 3$$
$$df_{地域} = b - 1 = 3 - 1 = 2$$
$$df_{error} = (a-1)(b-1) = 3 \times 2 = 6$$
確認:$df_{total} = df_{品種} + df_{地域} + df_{error} = 3 + 2 + 6 = 11$ ✓
誤差自由度の解釈
交互作用を含まないモデルでは、誤差自由度は$(a-1)(b-1)$となります。これは:
- 理論的根拠:各セルに1つの観測値がある場合の残余自由度
- 実践的意味:推定すべきパラメータ数を差し引いた結果
- 検定力への影響:自由度が小さいとF検定の検出力が低下
Step 5: 平均平方と期待値の理論
各平均平方の計算と期待値:
$$MS_{品種} = \frac{SS_{品種}}{df_{品種}} = \frac{360.00}{3} = 120.00$$
$$MS_{地域} = \frac{SS_{地域}}{df_{地域}} = \frac{54.00}{2} = 27.00$$
$$MS_{error} = \frac{SS_{error}}{df_{error}} = \frac{36.00}{6} = 6.00$$
期待平均平方:
- $E[MS_{error}] = \sigma^2$(誤差分散)
- $E[MS_{品種}] = \sigma^2 + b\frac{\sum \alpha_i^2}{a-1}$(品種効果がある場合)
- $E[MS_{地域}] = \sigma^2 + a\frac{\sum \beta_j^2}{b-1}$(地域効果がある場合)
Step 6: F統計量の計算と分布理論
$$F_{品種} = \frac{MS_{品種}}{MS_{error}} = \frac{120.00}{6.00} = 20.00$$
帰無仮説$H_0: \alpha_1 = \alpha_2 = \alpha_3 = \alpha_4 = 0$の下で:
$$F_{品種} \sim F(3, 6)$$
臨界値との比較:
- $F_{0.05}(3,6) = 4.76$
- $F_{0.01}(3,6) = 9.78$
- 観測値:$F = 20.00 > 9.78$
- 結論:1%水準で品種間に有意差あり
F検定の前提条件と妥当性
前提条件 | 本実験での状況 | 妥当性評価 |
---|
正規性 | 収量データは通常正規分布に従う | ✓ 満足 |
等分散性 | 各群の分散が等しい | ✓ 実験条件統一により満足 |
独立性 | 各区画の測定が独立 | ✓ ランダム化により満足 |
加法性 | 交互作用がない | ✓ 仮定により満足 |
Step 7: 効果量の計算と実践的意義
効果量(η²)の計算:
$$\eta^2_{品種} = \frac{SS_{品種}}{SS_{total}} = \frac{360.00}{450.00} = 0.80$$
これは品種要因が全変動の80%を説明することを示します。
実践的解釈:
- 大きな効果:η² = 0.80は非常に大きな効果サイズ
- 農業的意義:品種選択が収量に決定的影響
- 経済的価値:品種Dは品種Cより12kg/ha多い収量
Step 8: 多重比較と事後分析
有意なF検定の後は、具体的にどの品種間に差があるかを調べます:
Tukey HSD法による対比較:
$$HSD = q_{0.05}(4,6) \sqrt{\frac{MS_{error}}{r}} = 4.90 \sqrt{\frac{6.00}{3}} = 6.93$$
品種間差の検定:
- |D - C| = 12.0 > 6.93 → 有意
- |D - A| = 9.0 > 6.93 → 有意
- |B - C| = 7.0 > 6.93 → 有意
- その他の組み合わせも同様に検定
実験計画の改善提案
より精密な実験のための提案:
- 反復数増加:各処理組み合わせで2-3回測定
- ブロック化:圃場の肥沃度による層化
- 共変量分析:土壌成分等の共変量を投入
- 交互作用検討:品種×地域交互作用の評価
Step 9: 結果の報告と解釈
統計的結論:
二元配置分散分析の結果、品種の主効果は統計的に有意であった(F(3,6) = 20.00, p < 0.01, η² = 0.80)。地域効果も有意であった(F(2,6) = 4.50, p < 0.05)。
実用的推奨:
- 品種選択:収量最大化には品種Dを推奨
- 地域対応:全品種で地域3での栽培が有利
- 品種改良:品種Cの改良余地が大きい
Step 10: 関連統計手法との比較
手法 | 適用場面 | 利点 | 制限 |
---|
一元配置ANOVA | 1要因のみ | シンプル | 要因間交絡 |
二元配置ANOVA | 2要因同時評価 | 効率的、交絡除去 | 交互作用仮定 |
多元配置ANOVA | 3要因以上 | 包括的分析 | 複雑性、解釈困難 |
共分散分析 | 共変量制御 | 精度向上 | 共変量の仮定 |
今後の学習への橋渡し
この問題で学んだ概念は以下の発展学習につながります:
- 交互作用を含む二元配置:より複雑な要因関係の分析
- 混合効果モデル:固定効果と変量効果の区別
- 反復測定ANOVA:時系列データの分析
- 多変量分散分析:複数従属変数の同時分析