外れ値が相関係数に与える影響について理解する問題です。
外れ値とは
外れ値とは、他のデータから著しく異なる値を示すデータ点のことです。
外れ値の影響
相関係数への影響:
相関係数は外れ値に対して敏感で、1つの外れ値でも大きく値が変わる可能性があります。
影響のパターン:
- 相関を強く見せる場合: 外れ値が全体の傾向を強調する位置にある
- 相関を弱く見せる場合: 外れ値が全体の傾向から外れた位置にある
- 相関の方向を変える場合: 極端な外れ値により正負が逆転する
具体例:
身長と体重の関係(本来は正の相関)において:
- 身長150cm、体重100kgの点があると相関が弱く見える
- 身長200cm、体重50kgの点があると相関の方向さえ変わる可能性
外れ値への対処法
- 確認: データ入力ミスや測定エラーでないか確認
- 除外: 明らかな誤りの場合は除外を検討
- ロバスト統計: 外れ値に影響されにくい統計手法を使用
- 変換: 対数変換などでデータを変換
外れ値の除外は慎重に行う必要があります。外れ値が情報を含む場合もあるからです。
したがって、外れ値は相関係数に大きな影響を与える可能性があるです。